DeepSeek-V3-Base：开源 MoE 语言模型崛起，性能逼近 SOTA

superadmin 3 月 17, 2025 39 0

在 2024 年底，DeepSeek AI 推出了其最新的混合专家（MoE）语言模型 DeepSeek-V3-Base，这一开源模型以 685B 参数 规模和 256 个专家架构引起了广泛关注。目前，该模型已开放下载（Hugging Face 链接），但暂未提供详细的模型卡。

1. DeepSeek-V3-Base 架构解析

DeepSeek-V3-Base 采用 MoE（Mixture of Experts） 架构，其核心特点是：

参数规模：6850 亿参数，但由于 MoE 机制，每次推理仅激活部分专家，计算效率更优。
专家数量：256 个专家（Experts），采用 sigmoid 路由策略，每次推理选择 Top-8 专家（topk=8）。
高稀疏性：只有一部分专家活跃，从而提高推理速度，降低计算开销。

这种 MoE 机制的关键优势在于：

计算高效：并非所有参数都参与计算，减少 GPU 负担。
灵活性增强：可以针对不同任务优化不同专家，提高泛化能力。

2. 性能对比：超越 Claude 3.5，逼近 SOTA

DeepSeek-V3-Base 的强大之处，在于其实际性能表现。根据 Aider 多语言编程基准测试，DeepSeek-V3-Base 仅次于 OpenAI o1-2024-12-17 (high)，超过了 Claude 3.5 Sonnet、Gemini-Exp-1206 以及前代 DeepSeek Chat V2.5。

Aider 多语言编程测试结果

Aider 基准专注于 LLM 的代码能力评估，涵盖 C++、Go、Java、JavaScript、Python、Rust 等主流编程语言。DeepSeek-V3-Base 的得分如下：

DeepSeek-V3-Base：48.4%
Claude 3.5 Sonnet：41.2%
Gemini-Exp-1206：37.9%
DeepSeek Chat V2.5：17.8%

🔹 编程能力暴增：与前代 DeepSeek Chat V2.5（17.8%）相比，DeepSeek-V3-Base 提升近 31%，实现跨代飞跃。

此外，DeepSeek-V3 还在 LiveBench 基准测试 中表现突出，在推理、编程、数学、数据分析、语言能力等多个维度均展现了 领先于 Gemini-2.0-Flash-Exp 和 Claude 3.5 Sonnet 的竞争力。

3. DeepSeek-V3 vs. DeepSeek-V2 关键参数对比

根据 Hugging Face 研究人员 Vaibhav (VB) Srivastav 的分析，DeepSeek-V3 相较于 V2 进行了显著扩展：

参数	DeepSeek-V2	DeepSeek-V3
词汇表大小（vocab_size）	102400	129280
隐藏层大小（hidden_size）	4096	7168
中间层大小（intermediate_size）	11008	18432
隐藏层数量（layers）	30	61
注意力头（attention heads）	32	128
最大位置嵌入（max position embeddings）	2048	4096

🔹 更大规模，更强性能：DeepSeek-V3 采用了更大的参数规模、更多的隐藏层和更强的注意力机制，使其在推理和代码生成等任务上更具优势。

🔹 激活函数变化：

DeepSeek-V2 使用 Softmax
DeepSeek-V3 采用 Sigmoid
Sigmoid 可能优化了模型的路由策略，使 MoE 结构更高效。

4. 社区反馈：开源模型崛起，挑战 Claude 3.5

DeepSeek-V3-Base 的发布引起了 AI 社区的广泛讨论：

挑战 Claude 3.5：许多用户表示 DeepSeek-V3 已经成为 Claude 3.5 的强劲对手，在一定程度上甚至可以取代 Claude 3.5。
开源逼近 SOTA：DeepSeek-V3 的出现进一步缩小了开源模型与 SOTA（State-of-the-Art）模型的性能差距，意味着 2025 年可能成为开源 AI 的重要转折点。

🚀 网友热评：

“Claude 终于迎来了真正的挑战者！”
“开源模型正在以惊人的速度赶超 SOTA，2025 年 AI 竞争将达到新高度！”

5. 结论：DeepSeek-V3-Base，下一代开源 LLM 先锋

技术突破：685B MoE 架构+Top-8 专家+Sigmoid 路由，使计算更高效。
编程能力飞跃：Aider 基准测试得分 48.4%，远超前代 DeepSeek Chat V2.5（17.8%）。
挑战闭源巨头：在 LiveBench 等多个测试中逼近 OpenAI 和 Anthropic 的 SOTA 级模型。
社区认可：AI 社区对其表现高度评价，认为开源 AI 正在逐步赶超闭源对手。

随着 DeepSeek-V3-Base 的发布，开源 AI 正在迎来又一波技术突破，未来 AI 领域的竞争将更加激烈。

DeepSeek-V3-Base：开源 MoE 语言模型崛起，性能逼近 SOTA

1. DeepSeek-V3-Base 架构解析

2. 性能对比：超越 Claude 3.5，逼近 SOTA

Aider 多语言编程测试结果

3. DeepSeek-V3 vs. DeepSeek-V2 关键参数对比

4. 社区反馈：开源模型崛起，挑战 Claude 3.5

5. 结论：DeepSeek-V3-Base，下一代开源 LLM 先锋

标签

近期文章

近期评论

归档

分类

热门标签

1. DeepSeek-V3-Base 架构解析

2. 性能对比：超越 Claude 3.5，逼近 SOTA

Aider 多语言编程测试结果

3. DeepSeek-V3 vs. DeepSeek-V2 关键参数对比

4. 社区反馈：开源模型崛起，挑战 Claude 3.5

5. 结论：DeepSeek-V3-Base，下一代开源 LLM 先锋

标签

相关推荐

近期文章

近期评论

归档

分类

热门标签