DeepSeek-V3-Base:开源 MoE 语言模型崛起,性能逼近 SOTA

在 2024 年底,DeepSeek AI 推出了其最新的混合专家(MoE)语言模型 DeepSeek-V3-Base,这一开源模型以 685B 参数 规模和 256 个专家架构引起了广泛关注。目前,该模型已开放下载(Hugging Face 链接),但暂未提供详细的模型卡。
1. DeepSeek-V3-Base 架构解析
DeepSeek-V3-Base 采用 MoE(Mixture of Experts) 架构,其核心特点是:
- 参数规模:6850 亿参数,但由于 MoE 机制,每次推理仅激活部分专家,计算效率更优。
- 专家数量:256 个专家(Experts),采用 sigmoid 路由策略,每次推理选择 Top-8 专家(topk=8)。
- 高稀疏性:只有一部分专家活跃,从而提高推理速度,降低计算开销。
这种 MoE 机制的关键优势在于:
- 计算高效:并非所有参数都参与计算,减少 GPU 负担。
- 灵活性增强:可以针对不同任务优化不同专家,提高泛化能力。
2. 性能对比:超越 Claude 3.5,逼近 SOTA
DeepSeek-V3-Base 的强大之处,在于其实际性能表现。根据 Aider 多语言编程基准测试,DeepSeek-V3-Base 仅次于 OpenAI o1-2024-12-17 (high),超过了 Claude 3.5 Sonnet、Gemini-Exp-1206 以及前代 DeepSeek Chat V2.5。
Aider 多语言编程测试结果
Aider 基准专注于 LLM 的代码能力评估,涵盖 C++、Go、Java、JavaScript、Python、Rust 等主流编程语言。DeepSeek-V3-Base 的得分如下:
- DeepSeek-V3-Base:48.4%
- Claude 3.5 Sonnet:41.2%
- Gemini-Exp-1206:37.9%
- DeepSeek Chat V2.5:17.8%
🔹 编程能力暴增:与前代 DeepSeek Chat V2.5(17.8%)相比,DeepSeek-V3-Base 提升近 31%,实现跨代飞跃。
此外,DeepSeek-V3 还在 LiveBench 基准测试 中表现突出,在推理、编程、数学、数据分析、语言能力等多个维度均展现了 领先于 Gemini-2.0-Flash-Exp 和 Claude 3.5 Sonnet 的竞争力。
3. DeepSeek-V3 vs. DeepSeek-V2 关键参数对比
根据 Hugging Face 研究人员 Vaibhav (VB) Srivastav 的分析,DeepSeek-V3 相较于 V2 进行了显著扩展:
参数 | DeepSeek-V2 | DeepSeek-V3 |
---|---|---|
词汇表大小(vocab_size) | 102400 | 129280 |
隐藏层大小(hidden_size) | 4096 | 7168 |
中间层大小(intermediate_size) | 11008 | 18432 |
隐藏层数量(layers) | 30 | 61 |
注意力头(attention heads) | 32 | 128 |
最大位置嵌入(max position embeddings) | 2048 | 4096 |
🔹 更大规模,更强性能:DeepSeek-V3 采用了更大的参数规模、更多的隐藏层和更强的注意力机制,使其在推理和代码生成等任务上更具优势。
🔹 激活函数变化:
- DeepSeek-V2 使用 Softmax
- DeepSeek-V3 采用 Sigmoid
- Sigmoid 可能优化了模型的路由策略,使 MoE 结构更高效。
4. 社区反馈:开源模型崛起,挑战 Claude 3.5
DeepSeek-V3-Base 的发布引起了 AI 社区的广泛讨论:
- 挑战 Claude 3.5:许多用户表示 DeepSeek-V3 已经成为 Claude 3.5 的强劲对手,在一定程度上甚至可以取代 Claude 3.5。
- 开源逼近 SOTA:DeepSeek-V3 的出现进一步缩小了开源模型与 SOTA(State-of-the-Art)模型的性能差距,意味着 2025 年可能成为开源 AI 的重要转折点。
🚀 网友热评:
“Claude 终于迎来了真正的挑战者!”
“开源模型正在以惊人的速度赶超 SOTA,2025 年 AI 竞争将达到新高度!”
5. 结论:DeepSeek-V3-Base,下一代开源 LLM 先锋
- 技术突破:685B MoE 架构+Top-8 专家+Sigmoid 路由,使计算更高效。
- 编程能力飞跃:Aider 基准测试得分 48.4%,远超前代 DeepSeek Chat V2.5(17.8%)。
- 挑战闭源巨头:在 LiveBench 等多个测试中逼近 OpenAI 和 Anthropic 的 SOTA 级模型。
- 社区认可:AI 社区对其表现高度评价,认为开源 AI 正在逐步赶超闭源对手。
随着 DeepSeek-V3-Base 的发布,开源 AI 正在迎来又一波技术突破,未来 AI 领域的竞争将更加激烈。