DeepSeek-R1:開源模型挑戰 LLM 市場霸主

我們深入研究了 DeepSeek-R1 的研究論文,了解為什麼這個突破如此重要。

January 28, 2025

Why managing AI risk presents new challenges

Aliquet morbi justo auctor cursus auctor aliquam. Neque elit blandit et quis tortor vel ut lectus morbi. Amet mus nunc rhoncus sit sagittis pellentesque eleifend lobortis commodo vestibulum hendrerit proin varius lorem ultrices quam velit sed consequat duis. Lectus condimentum maecenas adipiscing massa neque erat porttitor in adipiscing aliquam auctor aliquam eu phasellus egestas lectus hendrerit sit malesuada tincidunt quisque volutpat aliquet vitae lorem odio feugiat lectus sem purus.

  • Lorem ipsum dolor sit amet consectetur lobortis pellentesque sit ullamcorpe.
  • Mauris aliquet faucibus iaculis vitae ullamco consectetur praesent luctus.
  • Posuere enim mi pharetra neque proin condimentum maecenas adipiscing.
  • Posuere enim mi pharetra neque proin nibh dolor amet vitae feugiat.

The difficult of using AI to improve risk management

Viverra mi ut nulla eu mattis in purus. Habitant donec mauris id consectetur. Tempus consequat ornare dui tortor feugiat cursus. Pellentesque massa molestie phasellus enim lobortis pellentesque sit ullamcorper purus. Elementum ante nunc quam pulvinar. Volutpat nibh dolor amet vitae feugiat varius augue justo elit. Vitae amet curabitur in sagittis arcu montes tortor. In enim pulvinar pharetra sagittis fermentum. Ultricies non eu faucibus praesent tristique dolor tellus bibendum. Cursus bibendum nunc enim.

Id suspendisse massa mauris amet volutpat adipiscing odio eu pellentesque tristique nisi.

How to bring AI into managing risk

Mattis quisque amet pharetra nisl congue nulla orci. Nibh commodo maecenas adipiscing adipiscing. Blandit ut odio urna arcu quam eleifend donec neque. Augue nisl arcu malesuada interdum risus lectus sed. Pulvinar aliquam morbi arcu commodo. Accumsan elementum elit vitae pellentesque sit. Nibh elementum morbi feugiat amet aliquet. Ultrices duis lobortis mauris nibh pellentesque mattis est maecenas. Tellus pellentesque vivamus massa purus arcu sagittis. Viverra consectetur praesent luctus faucibus phasellus integer fermentum mattis donec.

Pros and cons of using AI to manage risks

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

  1. Vestibulum faucibus semper vitae imperdiet at eget sed diam ullamcorper vulputate.
  2. Quam mi proin libero morbi viverra ultrices odio sem felis mattis etiam faucibus morbi.
  3. Tincidunt ac eu aliquet turpis amet morbi at hendrerit donec pharetra tellus vel nec.
  4. Sollicitudin egestas sit bibendum malesuada pulvinar sit aliquet turpis lacus ultricies.
“Lacus donec arcu amet diam vestibulum nunc nulla malesuada velit curabitur mauris tempus nunc curabitur dignig pharetra metus consequat.”
Benefits and opportunities for risk managers applying AI

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

2025一月底, 大語言模型 – DeepSeek 正式登場,其論文一出,立刻引發一陣熱論。DeepSeek-R1 是一種開源推理模型 ,在複雜的問題解決能力上可以與 OpenAI 的 o1 匹敵,但成本卻低了 90-95% (這部分還在美國正在調查,本文只針對論文內容做討論)。這個突破顯示了開源 AI 的潛力日益增長,也將影響整個雲端運算產業。

您可以在這裡閱讀論文全文: Deepseek-R1:通過強化學習激勵 LLM 的推理能力

以下是商業和實務應用重點:

商業層面:

  • 成本優勢: DeepSeek-R1 比 OpenAI 便宜約 95%,這大幅提升了企業使用進階 AI 推理功能的利潤空間。成本降低高達20倍,不僅讓新創公司、研究人員和預算有限的企業更容易使用,也讓更多 AI 應用變得可行。
  • 開放原始碼: DeepSeek-R1 採用 MIT 授權,這意味著任何人都可以免費將它用於商業和學術用途。開發者能以此為基礎進行開發,而且 DeepSeek 的突破性技術方法也可以應用在其他開源模型上,這讓整個開源 AI 社群都能受益。
  • 專長領域:基準測試顯示 DeepSeek-R1 在數學推理和軟體工程任務上表現特別出色。相比之下,OpenAI 的 o1 在一般知識和問題解決方面略勝一籌。這種優劣互補的情況,讓使用者能根據自己的需求選擇最適合的工具。
  • 策略影響:一個免費且開源的強大競爭者出現,預期會讓其他 AI 供應商不得不重新思考他們的定價策略。這可能會引發整個 AI 市場的價格重新調整,最終受益的將是所有使用者。

實務應用觀點:

DeepSeek 的研究發現突顯了幾個重要趨勢。首先,較小的精簡版模型在特定任務上也能達到高效能,同時又能降低資源需求。其次,他們結合強化學習和冷啟動的方法,為解決複雜推理問題提供了一個可擴展且有效的途徑。

深入了解 AI 推理模型

推理模型正在改變 AI 的發展方向。不同於傳統的模式識別模型,這類模型能模仿人類的思維方式,進行邏輯推理、解決問題和做出決策,這讓它在數學、程式設計和科學研究等複雜領域有重大突破。

DeepSeek-R1(簡稱 DS-R1)在 AI 推理領域帶來重大突破。它採用多階段訓練流程,在進行強化學習前先使用冷啟動資料,為處理高複雜度任務打下穩固基礎。這個模型以 V3-Base 為基礎,採用專家混合架構(MoE),總共有 6,710 億個參數,但每次處理只會啟動 370 億個參數,這樣的設計既能達到最佳效能,又能將資源使用降到最低,特別適合企業級的工作負載。

DeepSeek 還開源了六個蒸餾版模型,參數量從 15 億到 700 億不等,採用 Qwen 和 Llama 架構,讓開發者能根據需求選擇合適的部署方案。

深入搜尋 R1 與開放 AI 的 o1 相比如何?

根據論文提供的基準測試結果,我們可以比較 DeepSeek-R1 和 OpenAI-o1-1217 的表現:

  • DeepSeek-R1 的優勢:
    • 詳細的推理過程:它能提供完整且透明的思考鏈(可處理數萬個詞元)。我們可以清楚看到模型如何通過多角度思考來得出合理答案,包括考慮邊界情況和未預期的後果。
    • 成本效益與開放性:提供免費使用(有每日限額),且可以公開存取。使用者也能從 GitHub 下載,在自己選擇的 AI 基礎設施上部署。
  • ChatGPT-o1 的優勢:
    • 進階科學任務:在物理、化學和生物領域展現近乎博士級的表現。
    • 高階競賽表現:在國際數學奧林匹亞資格考試中達到 83% 的準確率,在 Codeforces 程式競賽中達到前 89% 的水準。
  • 兩者表現相當的領域:
    • 數學與編碼: 數學與編程:兩者都能很好地處理複雜的數學問題(如幾何、組合數學)和程式設計任務。
    • 一般邏輯推理: 兩者都能分解多步驟邏輯問題並得出正確解答。

OpenAI 在 2024 年底推出的 o1 系列採用了創新方法,讓模型在生成回應前能有更長的「思考」時間。這項改進讓 o1 在科學、編程和數學領域表現出色。不過,DeepSeek-R1 在這些測試中展現出相當的實力,在關鍵推理任務上能與 o1 匹敵。

對企業來說,DeepSeek-R1 能達到與 OpenAI 專有模型相當的表現,這是一個重大突破。作為開源方案,DeepSeek-R1 讓組織能更自由地實驗、客製化和部署強大的推理模型,不會受限於特定供應商。這也符合 GMI Cloud 的願景:提供隨需求擴展的 GPU 資源,推動 AI 創新。

DeepSeek-R1 的限制

雖然 DeepSeek-R1 表現優異,但仍有一些值得注意的限制:

  • 無法額外微調:目前還沒有官方提供的方法可以進行微調或強化學習。我們期待未來能開源這部分功能。
  • 偶爾較為固執:雖然在推理方面表現出色,但測試顯示它比 o1 更「固執」,有時候不太願意擴展討論主題。
  • 功能限制:雖然在推理任務上表現優異,但在函式呼叫、複雜角色扮演和 JSON 輸出等方面,還是比不上 DeepSeek-V3。未來會著重透過思維鏈(Chain-of-Thought)方法改善這些功能。
  • 語言優化:目前主要針對中文和英文優化,在產生回應時可能會混用兩種語言。
  • 提示詞限制:在少樣本提示(few-shot prompting)方面表現較差,建議使用零樣本設定來獲得最佳效果。未來會改進提示詞工程,提升易用性和穩定性。

DeepSeek-R1 的技術特點

強化學習(RL)優於監督微調(SFT)

最令人驚訝的是,DeepSeek-R1 團隊表示:「我們直接對基礎模型應用強化學習,不依賴監督式微調作為前置步驟。」這打破了傳統的語言模型訓練模式(預訓練 + 大規模監督式微調)。這種方法減少了對大量標記數據的依賴,讓模型能透過「實作中學習」的方式自主成長。這個突破讓模型擺脫傳統的「既定模式」,在適應性、複雜推理和自主學習方面都有明顯進步。

群組相對策略優化降低強化學習 (RL) 成本

根據論文分析,這可能是 DeepSeek-R1 訓練成本如此低的關鍵原因之一。

簡單來說,這個模型的學習方式類似於:同時考慮一組可能的答案,然後比較它們的相對「優劣」。透過「獎勵」產生越來越好的答案,研究團隊成功降低了強化學習的訓練成本。

自發性推理能力(自我驗證,反思能力,長鏈推理)

在純強化學習的訓練下,DeepSeek-R1 自然發展出了一些進階能力:

  • 自我驗證: 會在給出最終答案前檢查中間推理步驟,就像學生會檢查自己的作業一樣。
  • 反斯能力: 它會重新檢視過去的推論、識別錯誤,並根據這些洞察精細化解決方案。
  • 長鏈推理: 能順暢處理多步驟的邏輯或數學挑戰,顯示出在強化學習驅動下自然形成的深度解題能力。

研究團隊特別強調,這並不代表模型已經有了自我意識。但當模型能夠自發展現出這種「類似自我意識」的批判性思考,能夠參考自己先前的想法來找出方法中的錯誤,確實讓人印象深刻。這個發現讓研究人員感到驚喜,也讓我們不禁思考:到底什麼才算是真正的自我意識?這是個值得未來深入探討的話題。

「冷啟動」和多階段訓練的作用

雖然 DeepSeek-R1 主要依賴強化學習,但論文揭示了一個關鍵的「冷啟動」階段:使用少量高品質的思維鏈(Chain-of-Thought)資料來穩定初期訓練。這個細節說明它並非完全從零開始的純強化學習,而是需要一個最基本的引導設定,以確保訓練不會在早期就失敗。此外,研究團隊還精心設計了語言一致性獎勵和多目標優化(結合推理、寫作和角色扮演任務),才產生出表現均衡且優異的模型。

展望未來

GMI Cloud 目前已經提供 DeepSeek-V3 作為一般用途使用,也為客戶提供專屬的 DeepSeek-R1 端點。公開端點將在 2025 年 2 月推出。如果您想親自測試 DeepSeek 的功能,歡迎聯繫我們

立即開始使用

試用 GMI Cloud 算力租賃服務,即刻體驗高效的 AI 佈建。

一鍵啟用
14 天試用
無長期合約綁定
無須安裝設定
On-demand GPU 方案

開始於

$4.39 /GPU-小時

立即開始使用
Reserved 方案

低至

$2.50/ GPU-小時

立即開始使用