딥시크-R1: LLM 시장을 뒤흔들게 하는 오픈 소스 챌린저

DeepSek-R1의 연구 논문과 그 의미를 살펴보고 왜 그렇게 획기적인지 이해했습니다.

2025-01-28

Why managing AI risk presents new challenges

Aliquet morbi justo auctor cursus auctor aliquam. Neque elit blandit et quis tortor vel ut lectus morbi. Amet mus nunc rhoncus sit sagittis pellentesque eleifend lobortis commodo vestibulum hendrerit proin varius lorem ultrices quam velit sed consequat duis. Lectus condimentum maecenas adipiscing massa neque erat porttitor in adipiscing aliquam auctor aliquam eu phasellus egestas lectus hendrerit sit malesuada tincidunt quisque volutpat aliquet vitae lorem odio feugiat lectus sem purus.

  • Lorem ipsum dolor sit amet consectetur lobortis pellentesque sit ullamcorpe.
  • Mauris aliquet faucibus iaculis vitae ullamco consectetur praesent luctus.
  • Posuere enim mi pharetra neque proin condimentum maecenas adipiscing.
  • Posuere enim mi pharetra neque proin nibh dolor amet vitae feugiat.

The difficult of using AI to improve risk management

Viverra mi ut nulla eu mattis in purus. Habitant donec mauris id consectetur. Tempus consequat ornare dui tortor feugiat cursus. Pellentesque massa molestie phasellus enim lobortis pellentesque sit ullamcorper purus. Elementum ante nunc quam pulvinar. Volutpat nibh dolor amet vitae feugiat varius augue justo elit. Vitae amet curabitur in sagittis arcu montes tortor. In enim pulvinar pharetra sagittis fermentum. Ultricies non eu faucibus praesent tristique dolor tellus bibendum. Cursus bibendum nunc enim.

Id suspendisse massa mauris amet volutpat adipiscing odio eu pellentesque tristique nisi.

How to bring AI into managing risk

Mattis quisque amet pharetra nisl congue nulla orci. Nibh commodo maecenas adipiscing adipiscing. Blandit ut odio urna arcu quam eleifend donec neque. Augue nisl arcu malesuada interdum risus lectus sed. Pulvinar aliquam morbi arcu commodo. Accumsan elementum elit vitae pellentesque sit. Nibh elementum morbi feugiat amet aliquet. Ultrices duis lobortis mauris nibh pellentesque mattis est maecenas. Tellus pellentesque vivamus massa purus arcu sagittis. Viverra consectetur praesent luctus faucibus phasellus integer fermentum mattis donec.

Pros and cons of using AI to manage risks

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

  1. Vestibulum faucibus semper vitae imperdiet at eget sed diam ullamcorper vulputate.
  2. Quam mi proin libero morbi viverra ultrices odio sem felis mattis etiam faucibus morbi.
  3. Tincidunt ac eu aliquet turpis amet morbi at hendrerit donec pharetra tellus vel nec.
  4. Sollicitudin egestas sit bibendum malesuada pulvinar sit aliquet turpis lacus ultricies.
“Lacus donec arcu amet diam vestibulum nunc nulla malesuada velit curabitur mauris tempus nunc curabitur dignig pharetra metus consequat.”
Benefits and opportunities for risk managers applying AI

Commodo velit viverra neque aliquet tincidunt feugiat. Amet proin cras pharetra mauris leo. In vitae mattis sit fermentum. Maecenas nullam egestas lorem tincidunt eleifend est felis tincidunt. Etiam dictum consectetur blandit tortor vitae. Eget integer tortor in mattis velit ante purus ante.

이것은 흥미진진합니다. 딥시크-R1은 오픈 소스 추론 모델입니다 복잡한 문제 해결 작업에서 OpenAI의 o1에 필적하는 동시에 90-95% 더 저렴합니다.우리는 이러한 혁신이 오픈 소스 AI의 증가하는 잠재력과 클라우드 컴퓨팅 환경에 미치는 영향을 강조하는 것으로 보고 있습니다.

여기에서 논문을 읽을 수 있습니다. DeepSeek-R1: 강화 학습을 통한 LLM의 추론 능력 인센티브.

다음은 비즈니스 및 실무자가 얻을 수 있는 주요 내용입니다.

비즈니스:

  • 비용: OpenAI보다 95% 정도 저렴하면 고급 AI 추론 기능을 사용할 때 마진이 향상되고 신생 기업, 연구자 및 예산에 민감한 기업의 접근성이 향상됩니다.이렇게 가격이 최대 20배 증가하여 접근성이 개선되어 더 많은 AI 애플리케이션을 생산할 수 있을 것으로 예상됩니다.
  • 오픈 소스: 모델은 다음을 따릅니다. MIT 라이선스상업적 및 학술적 사용을 무료로 허용합니다.이는 DeepSeek의 모델을 기반으로 구축하는 데 관심이 있는 모든 사람에게 매우 중요하며 DeepSeek를 만드는 데 사용된 획기적인 방법을 다른 오픈 소스 모델에 적용할 수 있는 기회를 열어줍니다.
  • 특산품: 벤치마크 비교에 따르면 DeepSeek-R1은 수학적 추론 및 소프트웨어 엔지니어링 작업에서 탁월한 반면 OpenAI의 o1은 일반 지식 및 문제 해결에서 더 나은 성능을 보입니다.
  • 전략적 시사점: 우리는 다른 AI 제공업체들이 무료 및 오픈 소스로 출시된 이 경쟁 모델을 바탕으로 가격 전략을 재평가할 것으로 기대합니다.

실용적 시사점:

  • DeepSeek의 연구 결과는 리소스 요구 사항이 낮으면서 고성능을 제공하는 특수 작업을 위한 소형 증류 모델의 실행 가능성을 강조합니다.
  • DeepSeek-R1에서 RL과 콜드 스타트 접근 방식을 결합하면 복잡한 추론 문제를 해결할 수 있는 확장 가능하고 효과적인 경로를 제공합니다.

배경: AI 추론 모델의 이해

추론 모델은 논리적 추론, 문제 해결 및 의사 결정이 필요한 작업을 처리하여 AI를 혁신하고 있습니다.기존 패턴 인식 모델과는 달리 인간의 인지 능력을 모방하여 수학, 코딩, 과학 연구와 같은 복잡한 분야의 발전을 가능하게 합니다.

DeepSeek-R1 (DS-R1) 은 강화 학습 전에 콜드 스타트 데이터를 통합하는 다단계 학습 프로세스를 사용하여 복잡성이 높은 작업을 위한 강력한 기반을 보장하는 AI 추론의 혁신입니다.V3-Base 모델을 기반으로 하며, 6,710억 개의 매개변수가 포함된 전문가 (MoE) 프레임워크가 혼합되어 있어 토큰당 370억 개만 활성화하여 효율성을 최적화합니다.이 설계는 리소스 사용을 최소화하면서 성능을 극대화하므로 엔터프라이즈급 워크로드에 적합합니다.

DeepSeek는 또한 Qwen 및 Lama 아키텍처를 기반으로 하는 모델과 6개의 증류된 변형 (1.5B~70B 매개변수) 을 오픈 소스로 제공하여 개발자에게 유연한 배포 옵션을 제공합니다.

딥시크-R1은 오픈AI의 o1과 어떻게 다른가요?

아래는 백서에 제공된 DeepSeek-R1 벤치마크 성능으로, R1이 OpenAI-O1-1217과 어떻게 비교되는지 보여줍니다.

  • 딥시크-R1이 더 좋은 점은...
    • 자세한 추론 표시: 완전하고 투명한 사고 방식 (수만 개의 토큰) 을 제공합니다.모델이 합리적인 해답을 제시하기 위해 사용하는 다각적인 추론 프로세스를 볼 수 있다는 것은 정말 흥미롭습니다 (극단적인 경우와 의도하지 않은 결과 포함).
    • 비용 효율성 및 개방성: 호스팅된 버전은 무료로 사용할 수 있으며 (일일 제한 있음) 공개적으로 액세스할 수 있습니다.사용자는 다음에서 복사할 수도 있습니다. 그들의 깃허브 리포지토리 자신이 선택한 AI 인프라에 DS-R1 를 배포할 수 있습니다.
  • 챗GPT-O1이 더 좋은 점은...
    • 고급 과학 과제: 물리학, 화학 및 생물학 분야에서 박사 수준에 가까운 성과를 보여줍니다.
    • 높은 수준의 경쟁 성과: IMO 자격 시험에서 83% 의 정확도를 달성하고 코드포스에서 89번째 백분위수를 달성합니다.
  • 그들은 똑같이 잘합니다...
    • 수학 및 코딩: 둘 다 복잡한 수학 (예: 기하학, 조합론) 및 프로그래밍 작업을 잘 처리합니다.
    • 일반 논리적 추론: 둘 다 다단계 논리적 문제를 분석하고 올바른 해결책을 찾을 수 있습니다.

2024년 말에 출시된 OpenAI의 o1 시리즈는 모델이 응답을 생성하기 전에 더 오래 “생각”할 수 있도록 함으로써 AI 추론에 대한 새로운 접근 방식을 도입했습니다.이러한 개선 덕분에 o1은 과학, 코딩 및 수학 분야에서 탁월한 성과를 거둘 수 있습니다.그러나 DeepSeek-R1은 이러한 벤치마크 전반에서 주요 추론 작업에서 o1의 역량에 필적하는 경쟁력을 입증했습니다.

DeepSeek-R1과 OpenAI의 독점 모델 간의 동등성은 중요한 워크로드에 AI를 활용하려는 기업에 판도를 바꿀 것입니다.오픈 소스 솔루션인 DeepSeek-R1은 조직이 벤더에 종속되지 않고도 강력한 추론 모델을 실험, 사용자 지정 및 배포할 수 있도록 뛰어난 접근성을 제공합니다.이는 AI 혁신을 강화하기 위해 유연한 온디맨드 GPU 리소스를 제공한다는 GMI Cloud의 비전과 일치합니다.

AI 개발에 미치는 영향

DeepSeek-R1에는 명백한 단점이 없는 것 같지만 제한 사항으로 간주할 수 있는 사항은 다음과 같습니다.

  • 제한된 추가 미세 조정: 모델을 기반으로 미세 조정하거나 강화 학습을 수행할 수 있는 공식적인 방법은 현재 없습니다.향후에는 이러한 방법들을 오픈소싱할 수 있을 것으로 기대하고 있습니다.
  • 자발적인 완고함: DS-R1 추론 능력이 매우 뛰어나지만, 일부 테스트에서는 o1보다 더 “완고한” 것으로 나타나 때때로 주제를 확장하는 데 실패할 수 있습니다.
  • 제한된 기능: DeepSeek-v3은 추론 작업에서는 뛰어나지만 함수 호출, 복잡한 역할 수행 및 JSON 출력과 같은 영역에서는 DeepSeek-v3보다 뒤쳐집니다. DS-R1향후 개선 사항은 이러한 작업에 CoT (Chain-of-Thought) 방법을 활용하는 데 초점을 맞출 예정입니다.
  • 언어 최적화: DS-R1은 중국어와 영어에 최적화되어 있어 응답을 생성할 때 언어가 혼합됩니다.
  • 프롬프트 제한: DS-R1 제품은 적은 수의 샷 프롬프트와 제로 샷 설정을 사용하는 것이 현재 최적의 성능을 위해 권장됩니다.향후 작업에서는 프롬프트 엔지니어링을 개선하여 사용성과 견고성을 개선할 예정입니다.

딥시크-R1: 기술 관찰

감독형 미세 조정 (SFT) 대신 강화 학습 (RL) 에 강조

아마도 가장 놀라운 줄은 다음과 같습니다. “우리는 예비 단계로 감독된 미세 조정 (SFT) 에 의존하지 않고 기본 모델에 RL을 직접 적용합니다.” — DeepSeek-R1 논문, 4페이지

DeepSeek R1은 미세 조정을 위해 거의 전적으로 RL에 의존한다는 점에서 일반적인 LLM 학습 패턴 (사전 교육+대규모 SFT) 과 과감하게 다릅니다.이 접근 방식은 레이블이 지정된 방대한 데이터 세트에 대한 의존도를 최소화하고 모델이 자율적으로 “실습을 통해 학습”할 수 있도록 합니다.이러한 패러다임 변화로 인해 모델은 기존의 “사전 설정된 패턴”에서 벗어나 적응성, 복잡한 추론 및 자기 주도 학습이 크게 향상되었습니다.

그룹 관련 정책 최적화로 RL 비용 절감

이것은 논문에서 우리의 시선을 사로잡았으며 DeepSeek-R1이 교육 비용면에서 그토록 비용 효율적인 이유의 일부를 설명할 수 있을 것입니다.

평신도의 관점에서 (이해해 주세요) 다만 요약): 한 번에 답변 그룹에 대해 생각한 다음 이를 비교하여 각 답변이 얼마나 “우수”한지 결정하는 방식으로 모델을 학습합니다.연구진은 점점 더 나은 해답을 제시하는 모델에 “보상”을 제공함으로써 RL에 대한 교육 비용을 절감할 수 있습니다.

창발적 추론 능력 (자기 검증, 성찰, 롱체인 추론)

순수한 RL 체제 하에서 DeepSeek R1은 자발적으로 고급 기능을 개발했습니다.

  • 자체 검증: 답을 확정하기 전에 중간 추론 단계를 확인합니다. 마치 학생이 자신의 작업을 다시 확인하는 것과 같습니다.
  • 반사: 과거의 추론을 재검토하고, 오류를 식별하고, 이러한 통찰력을 기반으로 솔루션을 개선합니다.
  • 롱체인 추론: DeepSeek R1은 다단계 논리적 또는 수학적 문제를 원활하게 처리하여 RL 기반 교육에서 자연스럽게 나타난 강력한 문제 해결 깊이를 나타냅니다.

아니요, (아직) 스스로 인식하지 못합니다.논문 자체에서는 이 용어 사용을 거부하고 있습니다.하지만 많은 사람들이 그렇게 묘사할 수 있는 자발적 행동 (더 나은 용어가 없기 때문에) 이 모델이 스스로 진화하면서 그 경계가 점점 모호해지고 있습니다. 개념적으로 “자기 인식” 비판적 사고: 자신의 이전 생각을 스스로 참조하여 이전 접근 방식의 실수를 식별할 수 있습니다.이것이 어디로 가는지 궁금하긴 하지만, 강화 학습을 통해 연구자들이 “아하 모멘트”라고 강조한 흥미로운 결과가 나온 것은 확실합니다.

이것은 한 가지 질문을 던집니다. 어느 시점에서 스스로를 인식할 수 있는 것일까요?이 주제는 앞으로 언젠가 다루게 될 것입니다.

“콜드 스타트”의 역할 및 다단계 교육

DeepSeek R1은 주로 RL에 의존하지만, 이 기사에서는 소량의 고품질 사고 체인 (CoT) 데이터를 사용하여 초기 훈련을 안정화하는 중요한 “콜드 스타트” 단계에 대해 설명합니다.이러한 미묘한 세부 사항은 다음과 같은 인상을 상쇄합니다. 순수한 0부터 시작하는 RL — 교육이 일찍 끝나지 않도록 하기 위한 최소한의 안내 설정이 있습니다.또한 언어 일관성 보상과 다중 목표 최적화 (예: 추론, 글쓰기, 역할극 작업 결합) 를 세심하게 조율하여 균형 잡힌 고성능 모델을 만들 수 있습니다.이러한 측정치를 통해 “순수한 RL” 내러티브가 중심이긴 하지만 효과적인 결과를 얻으려면 어느 정도의 세심한 엔지니어링이 필수적이라는 점을 알 수 있습니다.

앞을 내다보며

GMI Cloud는 이미 고객 전용 DeepSeek-R1 엔드포인트와 함께 범용 용도로 DeepSeek-v3를 호스팅하고 있습니다.퍼블릭 엔드포인트는 2025년 2월에 제공될 예정입니다.DeepSeek의 기능을 직접 테스트해보고 싶다면 주저하지 말고 테스트해 보세요. 여기로 연락주세요..

오늘 시작하세요

GMI Cloud를 사용해 보고 AI 요구 사항에 적합한지 직접 확인해 보세요.

시작해 보세요
14일 평가판
장기 커밋 없음
설정 필요 없음
온디맨드 GPU

에서 시작

GPU 시간당 4.39달러

GPU 시간당 4.39달러
프라이빗 클라우드

최저

GPU-시간당 2.50달러

GPU-시간당 2.50달러