INFO

本文由 GPT 生成

1. 发布形态:V4 系列预览版

Hugging Face collection 当前列出 4 个条目:DeepSeek-V4-Flash-BaseDeepSeek-V4-FlashDeepSeek-V4-Pro-BaseDeepSeek-V4-Pro;集合页显示发布/更新刚发生在数十分钟内。

模型卡把 V4 系列定义为两个 MoE 模型家族:

模型总参数激活参数上下文定位
DeepSeek-V4-Flash284B13B1M tokens高效率主力
DeepSeek-V4-Pro1.6T49B1M tokens高能力旗舰
Base 版本同架构同激活量1M tokens预训练/基座
Instruct 版本FP4+FP8 mixed同上1M tokens对话与推理

官方模型卡明确说 V4-Pro 是 1.6T total / 49B activated,V4-Flash 是 284B total / 13B activated,二者都支持 100 万 token 上下文。

这里有一个需要注意的细节:HF 页面侧边栏的“Model size”对量化后的 instruct 仓库显示为 Flash 158B、Pro 862B,而模型卡表格按架构总参数写 284B/1.6T;这很可能与 FP4/FP8 混合量化后的权重表示、统计口径或仓库元数据有关。基座仓库侧边栏则显示 Flash-Base 292B、Pro-Base 1.6T。

2. 核心技术:V4 的主线是“百万上下文效率”

这次 V4 最重要的卖点不是单纯堆总参数,而是 1M context 下的推理效率。官方列了三项关键升级:

第一是 Hybrid Attention Architecture,混合 Compressed Sparse Attention,CSA,和 Heavily Compressed Attention,HCA。官方称在 1M-token context 下,V4-Pro 相比 V3.2 只需要 27% single-token inference FLOPs10% KV cache。这说明 V4 的重点是解决长上下文下 KV cache 爆炸和 decode 成本问题,而不是只在短文本 benchmark 上刷分。

第二是 Manifold-Constrained Hyper-Connections, mHC。从描述看,它是对传统 residual connections 的增强,目标是稳定深层信号传播,同时保持表达能力。这个说法偏技术报告口径,暂时还要等论文细节验证它具体是新残差结构、归一化约束,还是路由/专家层里的连接设计。

第三是 Muon optimizer。DeepSeek 明确说 V4 使用 Muon 优化器以加速收敛、提升训练稳定性。结合 32T+ token 预训练量,这说明他们在训练侧继续走“高 token 量 + MoE 稀疏激活 + 训练稳定性工程”的路线。

3. 后训练路线:多专家独立培养,再统一蒸馏整合

官方说 V4 预训练使用超过 32T diverse and high-quality tokens,之后进行了 comprehensive post-training pipeline。后训练是两阶段:先通过 SFT 和 GRPO 对不同领域专家进行独立培养,再通过 on-policy distillation 把不同领域能力整合进统一模型。

4. Base benchmark:Pro 的提升主要在知识、长上下文和代码

官方 Base 表里,V4-Pro-Base 相比 V3.2-Base 的提升比较明显:

BenchmarkV3.2-BaseV4-Flash-BaseV4-Pro-Base观察
MMLU-Pro65.568.373.5Pro 明显提升
SimpleQA verified28.330.155.2Pro 大幅提升,知识准确性增强
FACTS Parametric27.133.962.6事实记忆/参数知识显著增强
HumanEval62.869.576.8代码生成提升明显
MATH60.557.464.5Flash 反而低于 V3.2,Pro 才提升
LongBench-V240.244.751.5长上下文能力是主要增长点

5. Instruct 模式:Non-think / Think High / Think Max 三档

V4-Flash 和 V4-Pro 都支持三种 reasoning effort:

模式定位输出格式
Non-think快速直觉回答</think> 后直接 summary
Think High高逻辑分析,较慢<think>…</think> + summary
Think Max极限推理预算特殊 system prompt + <think>…</think>

官方模型卡明确列了这三档,并建议 Think Max 本地部署时上下文至少设到 384K tokens

这意味着 V4 的 instruct 模型不是一个固定“思考强度”的模型,而是更接近 Claude/GPT/Gemini 近年常见的 reasoning effort 可调体系。对接网关时,最好把它抽象成 reasoning_effort = none/high/max 之类的参数,而不是只靠 prompt hack。

6. Pro-Max 与闭源前沿模型:强,但不要过度解读

官方表里,V4-Pro-Max 对比了 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High、K2.6 Thinking、GLM-5.1 Thinking 等模型。几个显眼结果:

BenchmarkDS-V4-Pro Max观察
MMLU-Pro87.5接近 GPT-5.4 xHigh,低于 Gemini-3.1-Pro High
SimpleQA-Verified57.9高于 Opus/GPT-5.4/K2/GLM,低于 Gemini
Chinese-SimpleQA84.4接近 Gemini 85.9,明显强
GPQA Diamond90.1接近第一梯队
LiveCodeBench93.5表中最高
Codeforces rating3206表中高于 GPT-5.4 与 Gemini
SWE Verified80.6与 Gemini 80.6 持平,略低于 Opus 80.8
Terminal Bench 2.067.9低于 GPT-5.4 75.1,略低于 Gemini 68.5
BrowseComp83.4接近 Opus/GPT/Gemini
HLE w/ tools48.2低于多数闭源对手

这些数字来自官方 Instruct Model 对比表。

代码能力是 V4-Pro-Max 最强的展示面。 LiveCodeBench 93.5、Codeforces 3206、SWE Verified 80.6 这种组合,说明它不仅是算法题强,工程修复也进入闭源前沿模型区间。

知识与中文能力明显强。 SimpleQA-Verified 57.9、Chinese-SimpleQA 84.4、FACTS Parametric base 大幅提升,这一组结果指向参数知识和中文事实问答能力增强。

Agentic 工具使用不算绝对领先。 Terminal Bench、HLE w/ tools、GDPval-AA 等指标里,V4-Pro-Max 并没有全面超过闭源模型;这意味着如果拿它做 Codex/Claude Code 类 agent backend,代码题可能很强,但真实工具链中的稳健性还需要实测。

长上下文不是“所有任务都第一”,但效率意义很大。 MRCR 1M 和 CorpusQA 1M 里,V4-Pro-Max 低于 Opus-4.6 Max,但高于 Gemini-3.1-Pro High;结合官方声称的 1M context FLOPs/KV cache 大幅下降,V4 的长上下文亮点更偏“可部署效率 + 强可用”,而不是每个长上下文 benchmark 都碾压。

7. Flash Vs Pro

V4-Pro 1.6T/49B activated 很强,但部署门槛极高。V4-Flash 284B/13B activated 才更可能成为开源生态里的实用对象。

从 mode comparison 看,Flash-Max 在很多 reasoning benchmark 上能逼近 Pro-High/Pro-Max。例如:

BenchmarkV4-Flash MaxV4-Pro Max
GPQA Diamond88.190.1
LiveCodeBench91.693.5
HMMT 2026 Feb94.895.2
IMOAnswerBench88.489.8
SWE Verified79.080.6

8. 开源许可:MIT

模型卡写明仓库和模型权重使用 MIT License。这意味着从使用自由度上看,它比很多“open weights but restrictive license”的模型宽松得多。Hugging Face