DeepSeek-V3.2:以推理為核心的大型語言模型

DeepSeek-V3.2是DeepSeek在2025 年 12 月 1 日發布的。它是於 2025 年 9 月 29 日發布的早期V3.2-Exp 模型的升級版,並提供主要版本和「特別版」兩種變體,供研究和生產使用。

DeepSeek-V3.2是一個以 Transformer 架構為基礎的大型語言模型,它採用稀疏的「混合專家」架構,並結合客製化的「 DeepSeek稀疏注意力」機制,在保持高品質的同時,大幅降低運算需求。它主要針對編碼、數學、研究協助和多步驟推理等任務,旨在為自主代理和工具呼叫工作流程提供支援,而不僅僅是簡單的聊天。

DeepSeek-V3.2 的效率與效能

DeepSeek-V3.2是基於「專家混合」(MoE)架構建構的,總共有 6710 億個參數,但每次處理一個token時,只會啟動大約 370 億tokens,以提高效率。這個模型能夠以比密集注意力模型更低的成本處理長上下文(最多可達 128K+ tokens),同時保持與V3.2相似或更好的基準測試效能。

根據基準測試和報告,它在推理密集型任務上,特別是其運算能力較強的版本,可以與頂級的尖端模型(例如GPT-5.1或Gemini 3 Pro)媲美。

DeepSeek-V3.2的不同版本

  • DeepSeek-V3.2:主流版本,針對通用推理和日常部署進行了優化。
  • DeepSeek-V3.2- 特殊版:針對進階任務設計的高運算版本,在特定領域表現優異,但會消耗更多token;為便於評估,此版本暫時僅提供 API 服務,直到 2025 年 12 月中旬。

DeepSeek-V3.2與其他先進模型之比較

DeepSeek-V3.2在關鍵的基準測試中,表現與GPT-5.1和Gemini 3 Pro等頂尖模型不相上下,甚至更優,尤其是在數學、編碼和長上下文任務方面。以下是這些模型之間比較結果的摘要:

面向 DeepSeek-V3.2 DeepSeek-V3.2- 特殊版 GPT-5.1 Gemini 3 Pro
開發者 DeepSeek AI (中國) DeepSeek AI (中國) OpenAI (美國) Google DeepMind (美國)
發行日期 2025年12月1日 2025年12月1日(初期僅提供API) 2025年11月12日 2025年11月17日
參數 總共671B個參數(其中約37B個是活躍參數) 總共671B個參數(其中約37B個是活躍參數) 未公開(預估超過1兆) 未公開(預估超過1兆)
上下文長度 128K-131K tokens 128K-131K tokens(針對較長的推理過程進行了優化) >128K tokens(可能超過100萬tokens) 100萬tokens以上(某些模式下最多可達200萬tokens)
主要特色 以推理為先, DeepSeek稀疏注意力(DSA)提升效率,整合工具使用與思考,實現代理工作流程。 高運算推理變體,放寬複雜任務的長度限制,在數學/編碼奧林匹克競賽中表現出色。 更聰明的推理能力、更好的語氣和個性、強大的通才表現、多模態能力 原生多模態、最先進的推理/工具使用、長上下文掌握、創意/策略規劃
存取方式 開源(MIT授權), Hugging Face,API,免費應用程式/網頁 一開始只有API服務(2025年12月中開放) API/訂閱服務(付費方案) API/訂閱服務(付費方案)
AIME 2025 (數學) 93.1% 96.0% 94.6% 95.0% (程式碼執行時為100%)
HMMT 2025 (數學) 92.5% 99.2% 不適用 97.5%
SWE-Bench 驗證通過 (程式設計) 大約67%到73%(依評估方式而異) 73.1% 大約62%到70% (推測) 76.2%
Terminal-Bench 2.0 (代理編碼) 46.4% 更高(最佳化) 35.2% 54.2%

如何使用DeepSeek-V3.2

您可以透過免費或付費的管道來使用,包括網頁介面、行動應用程式、API,以及供本地部署的直接下載。

  1. HIX AI:我們提供快速又簡單的方式來使用DeepSeek-V3.2,以及像是DeepSeek-V3DeepSeek-R1等較早期的版本。
  2. 網頁版和手機應用程式:一般使用者也可以透過 DeepSeek 的官方平台與DeepSeek-V3.2互動,這些平台包括官方網站https://www.deepseek.com/和DeepSeek手機應用程式。
  3. API 存取: DeepSeek 的 API 與OpenAI相容,讓您輕鬆將其整合到應用程式或指令碼中。
  4. 本地部署:這是以開發者為中心的方法。您可以從Hugging Face頁面下載模型: https://huggingface.co/deepseek-ai/DeepSeek-V3.2 ,然後在您自己的硬體上運行。

常見問題解答

DeepSeek V3.2 主要有哪幾個變體?

主要的生產版本有DeepSeek-V3.2 (平衡型,適用於日常使用)和DeepSeek-V3.2-Speciale(高階推理模型,專為解決非常困難的數學、編碼和競賽類問題而設計)。

DeepSeek-V3.2 的效能表現跟GPT-5.1或Gemini 3 Pro比起來怎麼樣?

DeepSeek-V3.2在數學和程式設計方面表現出色,效率也極高,以更低的成本就能與這些頂尖模型媲美。

DeepSeek-V3.2有支援多模態輸入,像是圖片或影片嗎?

目前, DeepSeek-V3.2只支援文字輸入。它針對長篇文字、程式碼或文件進行了優化,以提供更佳的推理能力。

DeepSeek V3.2 的上下文視窗大小是多少?

DeepSeek V3.2繼承了稀疏注意力機制所帶來的長上下文視窗(約 128K tokens),讓它能夠在單一提示中處理數百頁的文字。

V3.2跟之前的DeepSeek版本比起來,有什麼不同?

V3.2是建立在V3.1「Terminus」世代的基礎上,但它更著重於效率和推理行為,而不是原始的基準測試跳躍。透過稀疏注意力機制和更新的訓練/對齊技術,它可以在更低的成本下達到相似或更好的品質。

什麼是DeepSeek稀疏注意力機制 (DSA)?它為什麼很重要?

DeepSeek稀疏注意力是一種精細的稀疏注意力機制,它減少了每個 token 的注意力運算次數,讓長上下文的處理成本大幅降低,同時保持與早期密集注意力模型相近的品質。