DeepSeek는 High-Flyer Capital Management의 지원을 받는 중국 AI 연구소로, OpenAI의 o1 모델에 도전하기 위해 DeepSeek-R1-Lite-Preview라는 추론 AI 모델을 출시함.
이 모델은 LLM의 논리적 및 수학적 추론 능력을 테스트하는 AIME 및 MATH와 같은 엄격한 벤치마크에서 OpenAI의 o1-preview와 동등한 성능을 보임.
DeepSeek-R1-Lite-Preview 모델은 "사고의 연쇄" 추론을 도입하여 사용자에게 문제 해결 과정에 대한 자세한 단계별 설명을 제공함. 이 기능은 AI 모델의 투명성 부족이라는 일반적인 비판을 해결하여 사용자가 모델의 결론 뒤에 있는 추론을 이해할 수 있도록 함.
DeepSeek-R1-Lite-Preview는 추론 길이가 길어질수록 성능이 향상된다는 추론 스케일링 법칙을 드러냄. 회사는 모델이 추론 길이가 증가함에 따라 AIME 점수에서 꾸준한 개선을 보인다고 보고함.
DeepSeek-R1-Lite-Preview의 도입은 데이터와 계산 능력을 증가시키면 모델의 능력이 지속적으로 향상된다는 전통적인 AI 스케일링 법칙에 대한 증가하는 비판 속에서 이루어짐. 대신 DeepSeek는 테스트 시간 컴퓨팅 기술을 사용하여 모델이 복잡한 작업을 보다 효과적으로 처리할 수 있도록 추론 중 추가 처리 시간을 허용함.
DeepSeek의 새로운 모델은 웹 기반 챗봇인 DeepSeek Chat을 통해 제공되며, 사용자는 모델의 기능을 직접 경험할 수 있음. 그러나 현재 사용은 하루 50 메시지로 제한됨.
인상적인 성능에도 불구하고 이 모델은 규제 압력으로 인해 정치적으로 민감한 주제에 대한 제한을 포함하여 중국에서 개발된 AI 시스템이 직면하는 일반적인 도전 과제에 직면함.
DeepSeek는 R1 모델과 관련 API의 오픈 소스 버전을 곧 출시할 계획이며, 이는 AI 개발의 투명성과 접근성을 강화하겠다는 의지를 나타냄. 이 움직임은 ByteDance, Alibaba 및 Baidu와 같은 주요 중국 기술 기업 간의 경쟁을 심화시킬 것으로 예상됨.
Alibaba는 최근 1M의 확장된 컨텍스트 길이를 가진 Qwen2.5-Turbo를 출시했으며, 이는 대략 100만 개의 영어 단어 또는 150만 개의 중국어 문자에 해당함. 이는 10개의 소설, 150시간의 음성 또는 30,000줄의 코드에 해당함.