DeepSeek 的研究和思考

1- 关于 🔍DeepSeek 的研究和思考

1.1- 🔎几个事实

1.1.1- 1️⃣ DeepSeek 不是套壳或蒸馏🇺🇸大模型

虽然部分中国大模型采用套壳或蒸馏策略,但 DeepSeek 并非如此。

✨✨✨

1.1.2- 2️⃣ 核心架构基于 ⚙️Transformer,创新与优化并行

DeepSeek 在架构和工程设计上进行了多项✨创新与优化,以提高效率。

1.1.2.1- 🔧架构创新

  • 🤖混合专家模型(MoE):通过分工训练多个专家模块,仅激活部分专家进行推理(37B 参数,而非全模型 671B 参数),减少计算负担。采用自然负载均衡和共享专家机制,避免部分专家负载过重。
  • 🎯多头潜注意力(MLA):引入潜向量(latent variables),优化注意力机制,减少内存占用,提高推理效率。
  • 🔢多令牌预测(MTP):在特定场景下同时预测多个 token,提高信号密度,增强数学、代码、文本摘要能力。
  • 🧠思维链(CoT):采用 Long CoT 数据微调,强化推理能力,并结合强化学习优化推理路径。
  • ⏩双重流水线(DualPipe):通过数据切换减少流水线气泡,提高计算利用率。
  • 🦾R1-Zero 训练方式:探索纯强化学习(RL)训练,不依赖 SFT(监督微调)。

1.1.2.2- 🚀工程优化

  • ⚡FP8 混合精度训练:相比 FP16,占用更少内存,同时保留 FP16/FP32 精度节省计算资源。
  • 📡底层通信优化:开发高效通信内核,优化带宽利用,支持大规模部署。

以🚗汽车工业为例,美国车强调大排量提升马力,而日本车更注重工程优化,在较小排量下实现同等动力输出。DeepSeek 采用类似策略,通过优化提升大模型性能。

✨✨✨

1.1.3- 3️⃣ 训练成本并非宣传中的 " 神迹 "

部分宣传称 DeepSeek 训练成本仅💰550 万美元,比 Meta 低 1/10,比 OpenAI 低 1/20。但实际情况是:

  • 目前🇺🇸训练数千亿参数模型的成本也未必高达 2000 万美元。
  • DeepSeek 主要依赖前人经验,减少试错成本,使成本降低至约 1/3。
  • 计算成本在过去几年持续下降,简单对比不同机构的训练成本并无实际意义。

📝总结:DeepSeek 成本控制优秀,但未必如宣传般夸张。类似💊创新药研发与仿制药的成本差异,前者探索新路径,后者则基于已有经验优化。

✨✨✨

1.2- 💡几个观点

1️⃣ DeepSeek 代表开源力量的胜利

  • 开源生态的繁荣会促进 LLM 技术的进一步发展。
  • Meta 及其他开源团队可能基于 DeepSeek 的成果进行更多优化。

2️⃣ 开源与闭源竞争仍在继续

  • OpenAI 目前的策略虽显简单粗暴,但大规模投入可能带来新的质变。
  • 从 AI 发展历史来看,算力仍然是决定性因素。

3️⃣ 开源 LLM 提高效率,降低 API 依赖

  • 若开源模型质量与闭源相当甚至更优,购买 OpenAI API 的必要性降低。
  • 私有部署、自主微调的应用将更具潜力,未来推理芯片与 LLM 生态将更加丰富。

4️⃣ 基础大模型将🛒商品化

  • To B:关键在于 LLM 如何嵌入生产流程,提升效率。
  • To C:流量入口将决定最终价值。

5️⃣ 算力需求不会下降

  • 📈Jevons 悖论:蒸汽机效率提高,煤炭消耗反而增加。
  • LLM 计算成本下降,会带动更广泛的应用,从而增加整体算力需求。

6️⃣ 数据需求仍然旺盛

  • 算法优化让模型训练更快,对高质量数据的需求反而更强。
  • "🍚巧妇难为无米之炊 ",数据仍是 AI 发展的核心资源。

✨✨✨

1.3- 🔬研究方法与致谢

在研究过程中,我们与多位学术界和工业界专家进行了交流。由于尚未获得公开署名许可,暂不提及具体姓名,在此特别表达感谢!

🏢关于 Archerman Capital

  • 🇺🇸成长期股权投资机构,专注于人工智能、数据基础设施、网络安全等领域。
  • 投资组合包括 Databricks、Scale AI、Tenstorrent 等。
  • 采用研究驱动、第一性原理的方法。
  • 总部位于波士顿,在纽约和硅谷设有投资团队。