DeepSeek-R1：颠覆 LLM 市场的开源挑战者

Why managing AI risk presents new challenges

Aliquet morbi justo auctor cursus auctor aliquam. Neque elit blandit et quis tortor vel ut lectus morbi. Amet mus nunc rhoncus sit sagittis pellentesque eleifend lobortis commodo vestibulum hendrerit proin varius lorem ultrices quam velit sed consequat duis. Lectus condimentum maecenas adipiscing massa neque erat porttitor in adipiscing aliquam auctor aliquam eu phasellus egestas lectus hendrerit sit malesuada tincidunt quisque volutpat aliquet vitae lorem odio feugiat lectus sem purus.

Lorem ipsum dolor sit amet consectetur lobortis pellentesque sit ullamcorpe.
Mauris aliquet faucibus iaculis vitae ullamco consectetur praesent luctus.
Posuere enim mi pharetra neque proin condimentum maecenas adipiscing.
Posuere enim mi pharetra neque proin nibh dolor amet vitae feugiat.

The difficult of using AI to improve risk management

Viverra mi ut nulla eu mattis in purus. Habitant donec mauris id consectetur. Tempus consequat ornare dui tortor feugiat cursus. Pellentesque massa molestie phasellus enim lobortis pellentesque sit ullamcorper purus. Elementum ante nunc quam pulvinar. Volutpat nibh dolor amet vitae feugiat varius augue justo elit. Vitae amet curabitur in sagittis arcu montes tortor. In enim pulvinar pharetra sagittis fermentum. Ultricies non eu faucibus praesent tristique dolor tellus bibendum. Cursus bibendum nunc enim.

Id suspendisse massa mauris amet volutpat adipiscing odio eu pellentesque tristique nisi.

How to bring AI into managing risk

Mattis quisque amet pharetra nisl congue nulla orci. Nibh commodo maecenas adipiscing adipiscing. Blandit ut odio urna arcu quam eleifend donec neque. Augue nisl arcu malesuada interdum risus lectus sed. Pulvinar aliquam morbi arcu commodo. Accumsan elementum elit vitae pellentesque sit. Nibh elementum morbi feugiat amet aliquet. Ultrices duis lobortis mauris nibh pellentesque mattis est maecenas. Tellus pellentesque vivamus massa purus arcu sagittis. Viverra consectetur praesent luctus faucibus phasellus integer fermentum mattis donec.

Pros and cons of using AI to manage risks

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

Vestibulum faucibus semper vitae imperdiet at eget sed diam ullamcorper vulputate.
Quam mi proin libero morbi viverra ultrices odio sem felis mattis etiam faucibus morbi.
Tincidunt ac eu aliquet turpis amet morbi at hendrerit donec pharetra tellus vel nec.
Sollicitudin egestas sit bibendum malesuada pulvinar sit aliquet turpis lacus ultricies.

“Lacus donec arcu amet diam vestibulum nunc nulla malesuada velit curabitur mauris tempus nunc curabitur dignig pharetra metus consequat.”

Benefits and opportunities for risk managers applying AI

好吧，这太令人兴奋了： DeepSeek-R1 是一种开源推理模型在复杂的问题解决任务中，它可以与OpenAI的o1相媲美，同时价格便宜90-95％。我们认为这一突破凸显了开源人工智能日益增长的潜力及其对云计算格局的影响。

你可以在这里阅读这篇论文： DeepSeek-R1：通过强化学习激励 LLM 的推理能力。

以下是商业和从业者要点的要点：

业务：

成本： （比 OpenAI）便宜约 95% 可以提高使用高级人工智能推理能力的利润，并改善初创企业、研究人员和注重预算的企业的可及性。我们预计，这种可负担性将提高多达20倍，从而提高可访问性，从而可以生产更多的人工智能应用程序。
开源: 该模型遵循 MIT 许可证，它允许免费商业和学术用途。这对于任何有兴趣在DeepSeek模型之上进行构建的人都至关重要，也为将用于创建DeepSeek的开创性方法应用于其他开源模型开辟了机会。
特产：基准比较表明，DeepSeek-R1在数学推理和软件工程任务方面表现出色，而OpenAI的o1在常识和问题解决方面表现更好。
战略影响： 我们完全希望其他人工智能提供商在这种免费和开源的竞争模式面前重新评估其定价策略。

实际启示:

DeepSeek的发现突显了小型精简模型在特殊任务中的可行性，可提供高性能和较低的资源需求。
DeepSeek-R1 中的 RL 和冷启动方法相结合，为应对复杂的推理挑战提供了一条可扩展且有效的途径。

背景：理解 AI 推理模型

推理模型通过处理需要逻辑推断、问题解决和决策的任务来改变人工智能。与传统的模式识别模型不同，它们模仿人类的认知，从而推动了数学、编程和科学研究等复杂领域的进步。

DeepSeek-R1（DS-R1）是人工智能推理领域的突破，它使用多阶段训练流程，在强化学习之前集成了冷启动数据，确保了高复杂度任务的坚实基础。它建立在V3-Base模型基础上，具有6710亿个参数的混合专家（MoE）框架，每个代币仅激活370亿个以实现最佳效率。这种设计最大限度地提高了性能，同时最大限度地减少了资源的使用，使其成为企业级工作负载的理想之选。

DeepSeek还开源了该模型和六种基于Qwen和Llama架构的精简变体（15B—70B的参数），为开发人员提供了灵活的部署选项。

DeepSeek-R1 与 OpenAI 的 o1 相比如何？

以下是论文中提供的DeepSeek-R1基准测试性能，展示了R1与OpenAI-O1-1217的比较。

DeepSeek-R1 更擅长...
- 显示详细推理： 它提供了完整、透明的思想链（成千上万的代币）。能够观察模型用来得出合理答案（包括边缘案例和意想不到的后果）的多方面推理过程真是令人着迷
- 成本效益和开放性： 托管版本可免费使用（每日限额），并且可以公开访问。用户也可以从中复制他们的GitHub存储库在自己选择的人工智能基础设施上部署 DS-R1。

ChatGPT-o1 更擅长...
- 高级科学任务： 表现出接近博士级别的物理、化学和生物学表现。
- 高水平比赛表现： 在国际海事组织资格考试中达到83％的准确率，在Codeforces上达到第89个百分位数。

他们同样擅长...
- 数学与编码： 两者都能很好地处理复杂的数学（例如几何、组合学）和编程任务。
- 一般逻辑推理： 两者都可以分解多步逻辑问题并得出正确的解决方案。

OpenAI 的 o1 系列于 2024 年底推出，通过允许模型在生成响应之前更长时间 “思考”，引入了一种新颖的人工智能推理方法。这一增强使 o1 能够在科学、编码和数学方面表现出色。但是，DeepSeek-R1在这些基准测试中表现出竞争力，与o1在关键推理任务中的能力相当。

对于希望利用人工智能处理关键工作负载的企业来说，DeepSeek-R1和OpenAI的专有模型之间的平等地位改变了游戏规则。作为一种开源解决方案，DeepSeek-R1提供了更大的可访问性，使组织能够在不受供应商锁定的情况下试验、定制和部署强大的推理模型。这符合GMI Cloud的愿景，即提供按需灵活的GPU资源以推动人工智能创新。

对人工智能发展的影响

DeepSeek-R1似乎没有明显的缺点，但以下是可以被视为局限性的因素：

有限的额外微调： 目前没有官方的方法可以根据该模型进行微调或进行强化学习。我们期待着将来对这些产品进行开源。
自发的固执： DS-R1 的推理表现非常出色，但一些测试表明它比 o1 更 “固执”，有时可能无法扩展话题。
能力有限： 尽管 DS-R1 在推理任务方面表现出色，但在函数调用、复杂的角色扮演和 JSON 输出等领域却落后于 DeepSeek-v3。未来的改进将侧重于利用思想链 (CoT) 方法来完成这些任务。
语言优化: DS-R1 针对中文和英文进行了优化，因此在生成响应时会出现语言混合。
即时限制： DS-R1 难以应对少量镜头提示，目前建议使用零镜头设置以获得最佳性能。未来的工作将完善即时工程以提高可用性和稳定性。

‍

DeepSeek-R1：技术观察

强调强化学习 (RL) 而不是监督式微调 (SFT)

可能是最令人惊讶的一句话： “我们直接将 RL 应用于基础模型，而无需依赖监督微调 (SFT) 作为初步步骤。” — DeepSeek-R1 论文，第 4 页

DeepSeek R1与常见的LLM训练模式（预训练 + 大规模SFT）大胆地背道而驰，几乎完全依赖RL进行微调。这种方法最大限度地减少了对大量标签数据集的依赖，并允许模型以自主方式 “边做边学”。这种模式转变使模型摆脱了传统的 “预设模式”，在适应性、复杂推理和自主学习方面取得了显著提高。

组相对策略优化降低了 RL 的成本

这引起了我们的注意，可以至少部分解释为什么DeepSeek-R1的训练如此具有成本效益。

通俗地说（请理解这一点）公平摘要）：该模型的教学方法是同时考虑一组答案，然后对它们进行比较以确定每个答案的相对 “好” 程度。通过 “奖励” 产生越来越好答案的模型，研究人员可以降低RL的培训成本。

‍

紧急推理能力（自我验证、反思、长链推理）

在纯粹的 RL 制度下，DeepSeek R1 自发开发了高级功能：

自我验证： 它会在最终确定答案之前检查中间推理步骤，类似于学生仔细检查自己的作业。
反思： 它会重新审视过去的推论，识别错误，并根据这些见解完善解决方案。
长链推理： DeepSeek R1 可以无缝处理多步逻辑或数学挑战，这表明在 RL 驱动的训练中自然会产生强大的问题解决深度。

不，它还没有自我意识。报纸本身拒绝使用这个词。但是，当模型自我演变为自发行为时，界限变得越来越模糊，许多人会将这种行为描述为（由于缺少更好的术语） 从概念上讲 “自我意识” 的批判性思维，能够自我参考自己以前的想法，以识别先前方法中的错误。我们很好奇这会走向何方，但是强化学习无疑产生了一个有趣的结果，研究人员强调这是一个 “哈哈时刻”

这就引出了一个问题：某种东西在什么时候具有自我意识？我们将在将来的某个时候继续讨论这个话题。

“冷启动” 和多阶段训练的作用

尽管DeepSeek R1主要依赖于RL，但本文揭示了一个关键的 “冷启动” 阶段，其中使用少量高质量的思想链（CoT）数据来稳定初始训练。这种微妙的细节与这样的印象背道而驰纯 RL 从零开始——仍然有最低限度的指导设置，以确保训练不会过早失败。此外，还精心策划了语言一致性奖励和多目标优化（例如，将推理、写作和角色扮演任务相结合），以生成均衡、高性能的模型。这些衡量标准突出表明，尽管 “纯粹的RL” 叙述至关重要，但一定程度的精心设计对于取得有效结果至关重要。

展望未来

GMI Cloud已经托管了用于一般用途的DeepSeek-V3，并为客户提供了专用的DeepSeek-R1端点。公共终端节点将于 2025 年 2 月上线。如果你想亲自测试 DeepSeek 的功能，请不要犹豫在这里联系我们。

‍