INFO
本文由 GPT 生成
1. 发布形态:V4 系列预览版
Hugging Face collection 当前列出 4 个条目:DeepSeek-V4-Flash-Base、DeepSeek-V4-Flash、DeepSeek-V4-Pro-Base、DeepSeek-V4-Pro;集合页显示发布/更新刚发生在数十分钟内。
模型卡把 V4 系列定义为两个 MoE 模型家族:
| 模型 | 总参数 | 激活参数 | 上下文 | 定位 |
|---|---|---|---|---|
| DeepSeek-V4-Flash | 284B | 13B | 1M tokens | 高效率主力 |
| DeepSeek-V4-Pro | 1.6T | 49B | 1M tokens | 高能力旗舰 |
| Base 版本 | 同架构 | 同激活量 | 1M tokens | 预训练/基座 |
| Instruct 版本 | FP4+FP8 mixed | 同上 | 1M tokens | 对话与推理 |
官方模型卡明确说 V4-Pro 是 1.6T total / 49B activated,V4-Flash 是 284B total / 13B activated,二者都支持 100 万 token 上下文。
这里有一个需要注意的细节:HF 页面侧边栏的“Model size”对量化后的 instruct 仓库显示为 Flash 158B、Pro 862B,而模型卡表格按架构总参数写 284B/1.6T;这很可能与 FP4/FP8 混合量化后的权重表示、统计口径或仓库元数据有关。基座仓库侧边栏则显示 Flash-Base 292B、Pro-Base 1.6T。
2. 核心技术:V4 的主线是“百万上下文效率”
这次 V4 最重要的卖点不是单纯堆总参数,而是 1M context 下的推理效率。官方列了三项关键升级:
第一是 Hybrid Attention Architecture,混合 Compressed Sparse Attention,CSA,和 Heavily Compressed Attention,HCA。官方称在 1M-token context 下,V4-Pro 相比 V3.2 只需要 27% single-token inference FLOPs 和 10% KV cache。这说明 V4 的重点是解决长上下文下 KV cache 爆炸和 decode 成本问题,而不是只在短文本 benchmark 上刷分。
第二是 Manifold-Constrained Hyper-Connections, mHC。从描述看,它是对传统 residual connections 的增强,目标是稳定深层信号传播,同时保持表达能力。这个说法偏技术报告口径,暂时还要等论文细节验证它具体是新残差结构、归一化约束,还是路由/专家层里的连接设计。
第三是 Muon optimizer。DeepSeek 明确说 V4 使用 Muon 优化器以加速收敛、提升训练稳定性。结合 32T+ token 预训练量,这说明他们在训练侧继续走“高 token 量 + MoE 稀疏激活 + 训练稳定性工程”的路线。
3. 后训练路线:多专家独立培养,再统一蒸馏整合
官方说 V4 预训练使用超过 32T diverse and high-quality tokens,之后进行了 comprehensive post-training pipeline。后训练是两阶段:先通过 SFT 和 GRPO 对不同领域专家进行独立培养,再通过 on-policy distillation 把不同领域能力整合进统一模型。
4. Base benchmark:Pro 的提升主要在知识、长上下文和代码
官方 Base 表里,V4-Pro-Base 相比 V3.2-Base 的提升比较明显:
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base | 观察 |
|---|---|---|---|---|
| MMLU-Pro | 65.5 | 68.3 | 73.5 | Pro 明显提升 |
| SimpleQA verified | 28.3 | 30.1 | 55.2 | Pro 大幅提升,知识准确性增强 |
| FACTS Parametric | 27.1 | 33.9 | 62.6 | 事实记忆/参数知识显著增强 |
| HumanEval | 62.8 | 69.5 | 76.8 | 代码生成提升明显 |
| MATH | 60.5 | 57.4 | 64.5 | Flash 反而低于 V3.2,Pro 才提升 |
| LongBench-V2 | 40.2 | 44.7 | 51.5 | 长上下文能力是主要增长点 |
5. Instruct 模式:Non-think / Think High / Think Max 三档
V4-Flash 和 V4-Pro 都支持三种 reasoning effort:
| 模式 | 定位 | 输出格式 |
|---|---|---|
| Non-think | 快速直觉回答 | </think> 后直接 summary |
| Think High | 高逻辑分析,较慢 | <think>…</think> + summary |
| Think Max | 极限推理预算 | 特殊 system prompt + <think>…</think> |
官方模型卡明确列了这三档,并建议 Think Max 本地部署时上下文至少设到 384K tokens。
这意味着 V4 的 instruct 模型不是一个固定“思考强度”的模型,而是更接近 Claude/GPT/Gemini 近年常见的 reasoning effort 可调体系。对接网关时,最好把它抽象成 reasoning_effort = none/high/max 之类的参数,而不是只靠 prompt hack。
6. Pro-Max 与闭源前沿模型:强,但不要过度解读
官方表里,V4-Pro-Max 对比了 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High、K2.6 Thinking、GLM-5.1 Thinking 等模型。几个显眼结果:
| Benchmark | DS-V4-Pro Max | 观察 |
|---|---|---|
| MMLU-Pro | 87.5 | 接近 GPT-5.4 xHigh,低于 Gemini-3.1-Pro High |
| SimpleQA-Verified | 57.9 | 高于 Opus/GPT-5.4/K2/GLM,低于 Gemini |
| Chinese-SimpleQA | 84.4 | 接近 Gemini 85.9,明显强 |
| GPQA Diamond | 90.1 | 接近第一梯队 |
| LiveCodeBench | 93.5 | 表中最高 |
| Codeforces rating | 3206 | 表中高于 GPT-5.4 与 Gemini |
| SWE Verified | 80.6 | 与 Gemini 80.6 持平,略低于 Opus 80.8 |
| Terminal Bench 2.0 | 67.9 | 低于 GPT-5.4 75.1,略低于 Gemini 68.5 |
| BrowseComp | 83.4 | 接近 Opus/GPT/Gemini |
| HLE w/ tools | 48.2 | 低于多数闭源对手 |
这些数字来自官方 Instruct Model 对比表。
代码能力是 V4-Pro-Max 最强的展示面。 LiveCodeBench 93.5、Codeforces 3206、SWE Verified 80.6 这种组合,说明它不仅是算法题强,工程修复也进入闭源前沿模型区间。
知识与中文能力明显强。 SimpleQA-Verified 57.9、Chinese-SimpleQA 84.4、FACTS Parametric base 大幅提升,这一组结果指向参数知识和中文事实问答能力增强。
Agentic 工具使用不算绝对领先。 Terminal Bench、HLE w/ tools、GDPval-AA 等指标里,V4-Pro-Max 并没有全面超过闭源模型;这意味着如果拿它做 Codex/Claude Code 类 agent backend,代码题可能很强,但真实工具链中的稳健性还需要实测。
长上下文不是“所有任务都第一”,但效率意义很大。 MRCR 1M 和 CorpusQA 1M 里,V4-Pro-Max 低于 Opus-4.6 Max,但高于 Gemini-3.1-Pro High;结合官方声称的 1M context FLOPs/KV cache 大幅下降,V4 的长上下文亮点更偏“可部署效率 + 强可用”,而不是每个长上下文 benchmark 都碾压。
7. Flash Vs Pro
V4-Pro 1.6T/49B activated 很强,但部署门槛极高。V4-Flash 284B/13B activated 才更可能成为开源生态里的实用对象。
从 mode comparison 看,Flash-Max 在很多 reasoning benchmark 上能逼近 Pro-High/Pro-Max。例如:
| Benchmark | V4-Flash Max | V4-Pro Max |
|---|---|---|
| GPQA Diamond | 88.1 | 90.1 |
| LiveCodeBench | 91.6 | 93.5 |
| HMMT 2026 Feb | 94.8 | 95.2 |
| IMOAnswerBench | 88.4 | 89.8 |
| SWE Verified | 79.0 | 80.6 |
8. 开源许可:MIT
模型卡写明仓库和模型权重使用 MIT License。这意味着从使用自由度上看,它比很多“open weights but restrictive license”的模型宽松得多。Hugging Face