DeepSeek-V3.2:以推理為核心的大型語言模型
DeepSeek-V3.2是DeepSeek在2025 年 12 月 1 日發布的。它是於 2025 年 9 月 29 日發布的早期V3.2-Exp 模型的升級版,並提供主要版本和「特別版」兩種變體,供研究和生產使用。
DeepSeek-V3.2是一個以 Transformer 架構為基礎的大型語言模型,它採用稀疏的「混合專家」架構,並結合客製化的「 DeepSeek稀疏注意力」機制,在保持高品質的同時,大幅降低運算需求。它主要針對編碼、數學、研究協助和多步驟推理等任務,旨在為自主代理和工具呼叫工作流程提供支援,而不僅僅是簡單的聊天。
DeepSeek-V3.2 的效率與效能
根據基準測試和報告,它在推理密集型任務上,特別是其運算能力較強的版本,可以與頂級的尖端模型(例如GPT-5.1或Gemini 3 Pro)媲美。
DeepSeek-V3.2的不同版本
- DeepSeek-V3.2:主流版本,針對通用推理和日常部署進行了優化。
- DeepSeek-V3.2- 特殊版:針對進階任務設計的高運算版本,在特定領域表現優異,但會消耗更多token;為便於評估,此版本暫時僅提供 API 服務,直到 2025 年 12 月中旬。
DeepSeek-V3.2與其他先進模型之比較
DeepSeek-V3.2在關鍵的基準測試中,表現與GPT-5.1和Gemini 3 Pro等頂尖模型不相上下,甚至更優,尤其是在數學、編碼和長上下文任務方面。以下是這些模型之間比較結果的摘要:
| 面向 | DeepSeek-V3.2 | DeepSeek-V3.2- 特殊版 | GPT-5.1 | Gemini 3 Pro |
| 開發者 | DeepSeek AI (中國) | DeepSeek AI (中國) | OpenAI (美國) | Google DeepMind (美國) |
| 發行日期 | 2025年12月1日 | 2025年12月1日(初期僅提供API) | 2025年11月12日 | 2025年11月17日 |
| 參數 | 總共671B個參數(其中約37B個是活躍參數) | 總共671B個參數(其中約37B個是活躍參數) | 未公開(預估超過1兆) | 未公開(預估超過1兆) |
| 上下文長度 | 128K-131K tokens | 128K-131K tokens(針對較長的推理過程進行了優化) | >128K tokens(可能超過100萬tokens) | 100萬tokens以上(某些模式下最多可達200萬tokens) |
| 主要特色 | 以推理為先, DeepSeek稀疏注意力(DSA)提升效率,整合工具使用與思考,實現代理工作流程。 | 高運算推理變體,放寬複雜任務的長度限制,在數學/編碼奧林匹克競賽中表現出色。 | 更聰明的推理能力、更好的語氣和個性、強大的通才表現、多模態能力 | 原生多模態、最先進的推理/工具使用、長上下文掌握、創意/策略規劃 |
| 存取方式 | 開源(MIT授權), Hugging Face,API,免費應用程式/網頁 | 一開始只有API服務(2025年12月中開放) | API/訂閱服務(付費方案) | API/訂閱服務(付費方案) |
| AIME 2025 (數學) | 93.1% | 96.0% | 94.6% | 95.0% (程式碼執行時為100%) |
| HMMT 2025 (數學) | 92.5% | 99.2% | 不適用 | 97.5% |
| SWE-Bench 驗證通過 (程式設計) | 大約67%到73%(依評估方式而異) | 73.1% | 大約62%到70% (推測) | 76.2% |
| Terminal-Bench 2.0 (代理編碼) | 46.4% | 更高(最佳化) | 35.2% | 54.2% |
如何使用DeepSeek-V3.2
您可以透過免費或付費的管道來使用,包括網頁介面、行動應用程式、API,以及供本地部署的直接下載。
- HIX AI:我們提供快速又簡單的方式來使用DeepSeek-V3.2,以及像是DeepSeek-V3和DeepSeek-R1等較早期的版本。
- 網頁版和手機應用程式:一般使用者也可以透過 DeepSeek 的官方平台與DeepSeek-V3.2互動,這些平台包括官方網站https://www.deepseek.com/和DeepSeek手機應用程式。
- API 存取: DeepSeek 的 API 與OpenAI相容,讓您輕鬆將其整合到應用程式或指令碼中。
- 本地部署:這是以開發者為中心的方法。您可以從Hugging Face頁面下載模型: https://huggingface.co/deepseek-ai/DeepSeek-V3.2 ,然後在您自己的硬體上運行。
常見問題解答
DeepSeek V3.2 主要有哪幾個變體?
主要的生產版本有DeepSeek-V3.2 (平衡型,適用於日常使用)和DeepSeek-V3.2-Speciale(高階推理模型,專為解決非常困難的數學、編碼和競賽類問題而設計)。
DeepSeek-V3.2 的效能表現跟GPT-5.1或Gemini 3 Pro比起來怎麼樣?
DeepSeek-V3.2在數學和程式設計方面表現出色,效率也極高,以更低的成本就能與這些頂尖模型媲美。
DeepSeek-V3.2有支援多模態輸入,像是圖片或影片嗎?
目前, DeepSeek-V3.2只支援文字輸入。它針對長篇文字、程式碼或文件進行了優化,以提供更佳的推理能力。
DeepSeek V3.2 的上下文視窗大小是多少?
DeepSeek V3.2繼承了稀疏注意力機制所帶來的長上下文視窗(約 128K tokens),讓它能夠在單一提示中處理數百頁的文字。
V3.2跟之前的DeepSeek版本比起來,有什麼不同?
V3.2是建立在V3.1「Terminus」世代的基礎上,但它更著重於效率和推理行為,而不是原始的基準測試跳躍。透過稀疏注意力機制和更新的訓練/對齊技術,它可以在更低的成本下達到相似或更好的品質。
什麼是DeepSeek稀疏注意力機制 (DSA)?它為什麼很重要?
DeepSeek稀疏注意力是一種精細的稀疏注意力機制,它減少了每個 token 的注意力運算次數,讓長上下文的處理成本大幅降低,同時保持與早期密集注意力模型相近的品質。


