Deepseek-R1:開放原始碼挑戰者推動 LLM 市場

我們看了 Deepseek-R1 的研究論文及其含義,以了解為什麼它如此突破性。

2025-01-28

Why managing AI risk presents new challenges

Aliquet morbi justo auctor cursus auctor aliquam. Neque elit blandit et quis tortor vel ut lectus morbi. Amet mus nunc rhoncus sit sagittis pellentesque eleifend lobortis commodo vestibulum hendrerit proin varius lorem ultrices quam velit sed consequat duis. Lectus condimentum maecenas adipiscing massa neque erat porttitor in adipiscing aliquam auctor aliquam eu phasellus egestas lectus hendrerit sit malesuada tincidunt quisque volutpat aliquet vitae lorem odio feugiat lectus sem purus.

  • Lorem ipsum dolor sit amet consectetur lobortis pellentesque sit ullamcorpe.
  • Mauris aliquet faucibus iaculis vitae ullamco consectetur praesent luctus.
  • Posuere enim mi pharetra neque proin condimentum maecenas adipiscing.
  • Posuere enim mi pharetra neque proin nibh dolor amet vitae feugiat.

The difficult of using AI to improve risk management

Viverra mi ut nulla eu mattis in purus. Habitant donec mauris id consectetur. Tempus consequat ornare dui tortor feugiat cursus. Pellentesque massa molestie phasellus enim lobortis pellentesque sit ullamcorper purus. Elementum ante nunc quam pulvinar. Volutpat nibh dolor amet vitae feugiat varius augue justo elit. Vitae amet curabitur in sagittis arcu montes tortor. In enim pulvinar pharetra sagittis fermentum. Ultricies non eu faucibus praesent tristique dolor tellus bibendum. Cursus bibendum nunc enim.

Id suspendisse massa mauris amet volutpat adipiscing odio eu pellentesque tristique nisi.

How to bring AI into managing risk

Mattis quisque amet pharetra nisl congue nulla orci. Nibh commodo maecenas adipiscing adipiscing. Blandit ut odio urna arcu quam eleifend donec neque. Augue nisl arcu malesuada interdum risus lectus sed. Pulvinar aliquam morbi arcu commodo. Accumsan elementum elit vitae pellentesque sit. Nibh elementum morbi feugiat amet aliquet. Ultrices duis lobortis mauris nibh pellentesque mattis est maecenas. Tellus pellentesque vivamus massa purus arcu sagittis. Viverra consectetur praesent luctus faucibus phasellus integer fermentum mattis donec.

Pros and cons of using AI to manage risks

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

  1. Vestibulum faucibus semper vitae imperdiet at eget sed diam ullamcorper vulputate.
  2. Quam mi proin libero morbi viverra ultrices odio sem felis mattis etiam faucibus morbi.
  3. Tincidunt ac eu aliquet turpis amet morbi at hendrerit donec pharetra tellus vel nec.
  4. Sollicitudin egestas sit bibendum malesuada pulvinar sit aliquet turpis lacus ultricies.
“Lacus donec arcu amet diam vestibulum nunc nulla malesuada velit curabitur mauris tempus nunc curabitur dignig pharetra metus consequat.”
Benefits and opportunities for risk managers applying AI

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

好吧,這很令人興奮: DeepSeek-R1 是一種開源推理模型 它在複雜的問題解決任務中與 OpenAI 的 o1 競爭,同時價格更高 90-95%。我們認為這項突破是突出開源 AI 不斷增加的潛力以及其對雲計算環境的影響。

您可以在這裡閱讀論文: Deepseek-R1:通過強化學習激勵 LLM 的推理能力

以下是商業和從業人員的精采摘要:

業務:

  • 成本: 比 OpenAI 便宜約 95%,可提高使用先進的 AI 推理功能的利潤,並改善初創企業、研究人員和預算注意識的企業的可訪問性。我們預計價格的可負擔性增加多達 20 倍,以提高可訪問性,使得更多 AI 應用程序生產可行。
  • 開放原始碼: 模型遵循 MIT 授權,允許免費商業和學術使用。對於任何有興趣建立 DeepSeek 模型的人來說,這對於創建 DeepSeek 的突破性方法開啟了機會,以應用於其他開源模型。
  • 特色:基準比較表明 Deepseek-R1 在數學推理和軟件工程任務中表現出色,而 OpenAI 的 o1 在一般知識和解決問題方面表現更好。
  • 戰略意義: 我們完全希望其他 AI 供應商在這種免費和開源發布的競爭模式前重新評估其定價策略。

實際影響:

  • DeepSeek 的發現強調了較小的蒸餾模型可用於專業任務,提供高性能和更低的資源需求。
  • Deepseek-R1 中的 RL 和冷啟動方法的結合提供了一個可擴展且有效的途徑,用於解決複雜的推理挑戰。

背景:了解 AI 推理模型

推理模型正在解決需要邏輯推論、解決問題和決策的任務來改變 AI。與傳統模式識別模型不同,它們模仿人類認知,在數學,編碼和科學研究等複雜領域中實現了進步。

Deepseek-R1 (DS-R1) 是 AI 推理方面的突破,採用多階段培訓流程,在加強學習之前整合冷啟動數據,確保為高複雜性任務提供堅實的基礎。它建立在 V3-Base 模型上,具有 671 億參數的專家(MoE)框架,每個令牌僅激活 37 億,以獲得最佳效率。此設計可最大化效能,同時最大限度地減少資源使用,因此非常適合企業級工作負載。

DeepSeek 還提供基於 Qwen 和 Llama 架構的開源模型和六種蒸餾變體(1.5B—70B 參數),為開發人員提供靈活的部署選項。

深入搜尋 R1 與開放 AI 的 o1 相比如何?

以下是論文中提供的 DeepSeek-R1 基準性能,展示了 R1 與 OpenAI-O1-1217 的比較。

  • 深搜-R1 更擅長...
    • 顯示詳細的推理: 它提供了一個完整,透明的思想鏈(數千個代幣)。能夠觀看模型用來提出合理答案的多方面的推理過程(包括邊緣案例和意外後果),真是令人著迷。
    • 成本效益和開放性: 託管版本是免費使用(每日限制),並且可以公開訪問。用戶也可以從中複製它 他們的 GitHub 存儲庫 在自己選擇的 AI 基礎架構上部署 DS-R1。
  • 聊天 GPT-O1 更好...
    • 高級科學任務: 在物理、化學和生物學方面展現近博士水平的表現。
    • 高水平競賽表現: 在 IMO 資格考試中達到 83% 的準確度,在編碼力量上達到第 89 個百分位數。
  • 他們同樣擅長...
    • 數學與編碼: 兩者都可以很好地處理複雜的數學(例如幾何,組合)和編程任務。
    • 一般邏輯推理: 兩者都可以解決多步驟邏輯問題並找到正確的解決方案。

OpenAI 的 o1 系列於 2024 年底推出,通過允許模型在產生響應之前「思考」更長時間來對 AI 推理引入了一種新穎的方法。這項增強功能使 o1 能夠在科學、編碼和數學方面卓越。然而,Deepseek-R1 在這些基準上展現了競爭力的表現,與 o1 在關鍵推理任務中匹配的能力。

Deepseek-R1 與 OpenAI 的專有模型之間的平等性對於希望利用 AI 處理關鍵工作負載的企業來說是一個改變遊戲的因素。作為開放原始碼解決方案,DeepSeek-R1 提供更好的可訪問性,使組織能夠嘗試、自訂和部署強大的推理模型,而無需供應商鎖定。這與 GMI Cloud 提供隨需靈活的 GPU 資源,以推動 AI 創新的願景一致。

對 AI 發展的影響

Deepseek-R1 似乎沒有明顯的缺點,但以下是可以將其視為限制的內容:

  • 有限的額外微調: 目前沒有官方方法可以根據模型進行精準調整或進行強化學習。我們期待未來的公開採購。
  • 自發的韌性: DS-R1 在推理方面表現非常好,但有些測試表明它比 o1 更「固執」,有時可能無法擴展主題。
  • 功能有限: 雖然 DS-R1 在推理任務上表現出色,但在函數調用、複雜角色扮演和 JSON 輸出等領域中落後 DeepSeek-v3。未來的改進將專注於利用思想鏈(CoT)方法進行這些任務。
  • 語言優化: DS-R1 針對中文和英文進行了優化,在產生回應時導致語言混合。
  • 提示限制: DS-R1 無法執行少量拍攝提示,目前建議使用零拍攝設定,以達到最佳效能。未來的工作將改善快速的工程,以提高可用性和穩定性。

深搜-R1:關於技術的觀察

強調強化學習(RL)而不是監督微調(SFT)

可能最令人驚訝的一句話: 「我們直接將 RL 應用到基礎模型,而不依賴監督微調(SFT)作為初步步驟。」— Deepseek-R1 論文,頁 4

DeepSeek R1 大膽遠離常見的 LLM 培訓模式(預訓 + 大規模 SFT),幾乎完全依賴 RL 進行微調。這種方法最大程度地減少對大量標籤的數據集的依賴性,並允許模型以自主的方式「通過做學習」。這種模式改變使模型脫離傳統的「預設模式」,從而在適應能力、複雜的推理和自主學習方面帶來了顯著的增長。

群組相對策略最佳化降低 RL 成本

這在論文中引起了我們的注意力,並可能至少解釋了為什麼 Deepseek-R1 如此具有成本效益的訓練。

從外行的話來說(請理解這一點 只是 摘要):模型是通過一次思考一組答案,然後對比它們以確定每個答案的相對「好」來教授模型。通過「獎勵」產生越來越好的答案的模型,研究人員實現了更便宜的 RL 培訓成本。

新興推理能力(自我驗證,反思,長鏈推理)

在純 RL 制度下,DeepSeek R1 自然開發了進階功能:

  • 自我驗證: 在完成答案之前,它會檢查中間推理步驟,就像學生重複檢查自己的工作一樣。
  • 反射: 它會重新檢視過去的推論、識別錯誤,並根據這些洞察精細化解決方案。
  • 長鏈推理: DeepSeek R1 無縫處理多步驟邏輯或數學挑戰,表明從 RL 驅動的培訓中自然出現的強大問題解決深度。

不,它還沒有自我意識(尚未)。該論文本身拒絕使用這個術語。但是當模型自我演化的自發行為時,該線條越來越模糊,許多人將其描述為(因為缺少更好的術語) 從概念上講 「自我意識」批判性思維,能夠自我參考自己以前的思想,以識別先前的方法中的錯誤。我們很好奇這會發展到哪裡,但是強化學習肯定產生了一個有趣的結果,研究人員強調這是一個「哈哈時刻」

這引起了一個問題:什麼時候某種東西是自我意識的?我們將在未來有時候追求這個主題。

「冷啟動」和多階段培訓的作用

儘管 DeepSeek R1 主要依賴於 RL,但該文章揭示了一個關鍵的「冷啟動」階段,其中使用少量高質量的思想鏈(CoT)數據來穩定初始訓練。這種微妙的細節反映出的印象 從零開始 RL —— 仍有最小的引導設定,以確保訓練不會提早崩潰。此外,語言一致性獎勵和多目標優化(例如,結合推理,寫作和角色扮演任務)都經過精心編排,以產生平衡、高效能的模型。這些措施強調了,雖然「純 RL」敘述是核心的,但一定程度的仔細工程對有效結果至關重要。

展望未來

GMI 雲已經為一般用途託管 DeepSeek-v3,並為客戶提供專用的 DeepSeek-R1 端點。公用端點將於 2025 年 2 月推出。如果您想自己測試 DeepSeek 的功能,請不要猶豫 在這裡聯繫我們

立即開始使用

試用 GMI Cloud 算力租賃服務,即刻體驗高效的 AI 佈建。

一鍵啟用
14 天試用
無長期合約綁定
無須安裝設定
On-demand GPU 方案

開始於

$4.39 /GPU-小時

立即開始使用
Reserved 方案

低至

$2.50/ GPU-小時

立即開始使用