DeepSeek V4 解析

INFO

本文由 GPT 生成

1. 发布形态：V4 系列预览版

Hugging Face collection 当前列出 4 个条目：DeepSeek-V4-Flash-Base、DeepSeek-V4-Flash、DeepSeek-V4-Pro-Base、DeepSeek-V4-Pro；集合页显示发布/更新刚发生在数十分钟内。

模型卡把 V4 系列定义为两个 MoE 模型家族：

模型	总参数	激活参数	上下文	定位
DeepSeek-V4-Flash	284B	13B	1M tokens	高效率主力
DeepSeek-V4-Pro	1.6T	49B	1M tokens	高能力旗舰
Base 版本	同架构	同激活量	1M tokens	预训练/基座
Instruct 版本	FP4+FP8 mixed	同上	1M tokens	对话与推理

官方模型卡明确说 V4-Pro 是 1.6T total / 49B activated，V4-Flash 是 284B total / 13B activated，二者都支持 100 万 token 上下文。

这里有一个需要注意的细节：HF 页面侧边栏的“Model size”对量化后的 instruct 仓库显示为 Flash 158B、Pro 862B，而模型卡表格按架构总参数写 284B/1.6T；这很可能与 FP4/FP8 混合量化后的权重表示、统计口径或仓库元数据有关。基座仓库侧边栏则显示 Flash-Base 292B、Pro-Base 1.6T。

2. 核心技术：V4 的主线是“百万上下文效率”

这次 V4 最重要的卖点不是单纯堆总参数，而是 1M context 下的推理效率。官方列了三项关键升级：

第一是 Hybrid Attention Architecture，混合 Compressed Sparse Attention，CSA，和 Heavily Compressed Attention，HCA。官方称在 1M-token context 下，V4-Pro 相比 V3.2 只需要 27% single-token inference FLOPs 和 10% KV cache。这说明 V4 的重点是解决长上下文下 KV cache 爆炸和 decode 成本问题，而不是只在短文本 benchmark 上刷分。

第二是 Manifold-Constrained Hyper-Connections, mHC。从描述看，它是对传统 residual connections 的增强，目标是稳定深层信号传播，同时保持表达能力。这个说法偏技术报告口径，暂时还要等论文细节验证它具体是新残差结构、归一化约束，还是路由/专家层里的连接设计。

第三是 Muon optimizer。DeepSeek 明确说 V4 使用 Muon 优化器以加速收敛、提升训练稳定性。结合 32T+ token 预训练量，这说明他们在训练侧继续走“高 token 量 + MoE 稀疏激活 + 训练稳定性工程”的路线。

3. 后训练路线：多专家独立培养，再统一蒸馏整合

官方说 V4 预训练使用超过 32T diverse and high-quality tokens，之后进行了 comprehensive post-training pipeline。后训练是两阶段：先通过 SFT 和 GRPO 对不同领域专家进行独立培养，再通过 on-policy distillation 把不同领域能力整合进统一模型。

4. Base benchmark：Pro 的提升主要在知识、长上下文和代码

官方 Base 表里，V4-Pro-Base 相比 V3.2-Base 的提升比较明显：

Benchmark	V3.2-Base	V4-Flash-Base	V4-Pro-Base	观察
MMLU-Pro	65.5	68.3	73.5	Pro 明显提升
SimpleQA verified	28.3	30.1	55.2	Pro 大幅提升，知识准确性增强
FACTS Parametric	27.1	33.9	62.6	事实记忆/参数知识显著增强
HumanEval	62.8	69.5	76.8	代码生成提升明显
MATH	60.5	57.4	64.5	Flash 反而低于 V3.2，Pro 才提升
LongBench-V2	40.2	44.7	51.5	长上下文能力是主要增长点

5. Instruct 模式：Non-think / Think High / Think Max 三档

V4-Flash 和 V4-Pro 都支持三种 reasoning effort：

模式	定位	输出格式
Non-think	快速直觉回答	`</think>` 后直接 summary
Think High	高逻辑分析，较慢	`<think>…</think>` + summary
Think Max	极限推理预算	特殊 system prompt + `<think>…</think>`

官方模型卡明确列了这三档，并建议 Think Max 本地部署时上下文至少设到 384K tokens。

这意味着 V4 的 instruct 模型不是一个固定“思考强度”的模型，而是更接近 Claude/GPT/Gemini 近年常见的 reasoning effort 可调体系。对接网关时，最好把它抽象成 reasoning_effort = none/high/max 之类的参数，而不是只靠 prompt hack。

6. Pro-Max 与闭源前沿模型：强，但不要过度解读

官方表里，V4-Pro-Max 对比了 Opus-4.6 Max、GPT-5.4 xHigh、Gemini-3.1-Pro High、K2.6 Thinking、GLM-5.1 Thinking 等模型。几个显眼结果：

Benchmark	DS-V4-Pro Max	观察
MMLU-Pro	87.5	接近 GPT-5.4 xHigh，低于 Gemini-3.1-Pro High
SimpleQA-Verified	57.9	高于 Opus/GPT-5.4/K2/GLM，低于 Gemini
Chinese-SimpleQA	84.4	接近 Gemini 85.9，明显强
GPQA Diamond	90.1	接近第一梯队
LiveCodeBench	93.5	表中最高
Codeforces rating	3206	表中高于 GPT-5.4 与 Gemini
SWE Verified	80.6	与 Gemini 80.6 持平，略低于 Opus 80.8
Terminal Bench 2.0	67.9	低于 GPT-5.4 75.1，略低于 Gemini 68.5
BrowseComp	83.4	接近 Opus/GPT/Gemini
HLE w/ tools	48.2	低于多数闭源对手

这些数字来自官方 Instruct Model 对比表。

代码能力是 V4-Pro-Max 最强的展示面。 LiveCodeBench 93.5、Codeforces 3206、SWE Verified 80.6 这种组合，说明它不仅是算法题强，工程修复也进入闭源前沿模型区间。

知识与中文能力明显强。 SimpleQA-Verified 57.9、Chinese-SimpleQA 84.4、FACTS Parametric base 大幅提升，这一组结果指向参数知识和中文事实问答能力增强。

Agentic 工具使用不算绝对领先。 Terminal Bench、HLE w/ tools、GDPval-AA 等指标里，V4-Pro-Max 并没有全面超过闭源模型；这意味着如果拿它做 Codex/Claude Code 类 agent backend，代码题可能很强，但真实工具链中的稳健性还需要实测。

长上下文不是“所有任务都第一”，但效率意义很大。 MRCR 1M 和 CorpusQA 1M 里，V4-Pro-Max 低于 Opus-4.6 Max，但高于 Gemini-3.1-Pro High；结合官方声称的 1M context FLOPs/KV cache 大幅下降，V4 的长上下文亮点更偏“可部署效率 + 强可用”，而不是每个长上下文 benchmark 都碾压。

7. Flash Vs Pro

V4-Pro 1.6T/49B activated 很强，但部署门槛极高。V4-Flash 284B/13B activated 才更可能成为开源生态里的实用对象。

从 mode comparison 看，Flash-Max 在很多 reasoning benchmark 上能逼近 Pro-High/Pro-Max。例如：

Benchmark	V4-Flash Max	V4-Pro Max
GPQA Diamond	88.1	90.1
LiveCodeBench	91.6	93.5
HMMT 2026 Feb	94.8	95.2
IMOAnswerBench	88.4	89.8
SWE Verified	79.0	80.6

8. 开源许可：MIT

模型卡写明仓库和模型权重使用 MIT License。这意味着从使用自由度上看，它比很多“open weights but restrictive license”的模型宽松得多。Hugging Face

description	—
tags	ai-generated, deepseek

Kinnari

探索

DeepSeek V4 解析

1. 发布形态：V4 系列预览版

2. 核心技术：V4 的主线是“百万上下文效率”

3. 后训练路线：多专家独立培养，再统一蒸馏整合

4. Base benchmark：Pro 的提升主要在知识、长上下文和代码

5. Instruct 模式：Non-think / Think High / Think Max 三档

6. Pro-Max 与闭源前沿模型：强，但不要过度解读

7. Flash Vs Pro

8. 开源许可：MIT

关系图谱

目录

最近的笔记

Fedora 环境搭建记录

Welcome

Learning Latent Dynamics for Planning from Pixels