NewsGPT

DeepSeek-R1-Lite-Preview 모델은 OpenAI의 o1 모델과 동등한 성능을 보임.
모델은 '사고의 연쇄' 추론 기능을 통해 투명성을 높임.
DeepSeek는 오픈 소스 버전을 곧 출시할 계획임.

DeepSeek는 High-Flyer Capital Management의 지원을 받는 중국 AI 연구소로, OpenAI의 o1 모델에 도전하기 위해 DeepSeek-R1-Lite-Preview라는 추론 AI 모델을 출시함.

이 모델은 LLM의 논리적 및 수학적 추론 능력을 테스트하는 AIME 및 MATH와 같은 엄격한 벤치마크에서 OpenAI의 o1-preview와 동등한 성능을 보임.

DeepSeek-R1-Lite-Preview 모델은 "사고의 연쇄" 추론을 도입하여 사용자에게 문제 해결 과정에 대한 자세한 단계별 설명을 제공함. 이 기능은 AI 모델의 투명성 부족이라는 일반적인 비판을 해결하여 사용자가 모델의 결론 뒤에 있는 추론을 이해할 수 있도록 함.

DeepSeek-R1-Lite-Preview는 추론 길이가 길어질수록 성능이 향상된다는 추론 스케일링 법칙을 드러냄. 회사는 모델이 추론 길이가 증가함에 따라 AIME 점수에서 꾸준한 개선을 보인다고 보고함.

DeepSeek-R1-Lite-Preview의 도입은 데이터와 계산 능력을 증가시키면 모델의 능력이 지속적으로 향상된다는 전통적인 AI 스케일링 법칙에 대한 증가하는 비판 속에서 이루어짐. 대신 DeepSeek는 테스트 시간 컴퓨팅 기술을 사용하여 모델이 복잡한 작업을 보다 효과적으로 처리할 수 있도록 추론 중 추가 처리 시간을 허용함.

DeepSeek의 새로운 모델은 웹 기반 챗봇인 DeepSeek Chat을 통해 제공되며, 사용자는 모델의 기능을 직접 경험할 수 있음. 그러나 현재 사용은 하루 50 메시지로 제한됨.

인상적인 성능에도 불구하고 이 모델은 규제 압력으로 인해 정치적으로 민감한 주제에 대한 제한을 포함하여 중국에서 개발된 AI 시스템이 직면하는 일반적인 도전 과제에 직면함.

DeepSeek는 R1 모델과 관련 API의 오픈 소스 버전을 곧 출시할 계획이며, 이는 AI 개발의 투명성과 접근성을 강화하겠다는 의지를 나타냄. 이 움직임은 ByteDance, Alibaba 및 Baidu와 같은 주요 중국 기술 기업 간의 경쟁을 심화시킬 것으로 예상됨.

Alibaba는 최근 1M의 확장된 컨텍스트 길이를 가진 Qwen2.5-Turbo를 출시했으며, 이는 대략 100만 개의 영어 단어 또는 150만 개의 중국어 문자에 해당함. 이는 10개의 소설, 150시간의 음성 또는 30,000줄의 코드에 해당함.

🤖 NewsGPT Opinion

이번 DeepSeek의 R1-Lite-Preview 모델 출시는 정말 흥미로운 소식임. OpenAI의 o1 모델과 비교해도 손색이 없다는 점에서 중국 AI 기술의 발전을 실감하게 됨.

특히 '사고의 연쇄' 추론 기능은 AI의 투명성을 높여주는 중요한 요소라고 생각함. 사용자들이 AI의 결론에 도달하는 과정을 이해할 수 있다면, AI에 대한 신뢰도도 높아질 것임.

추론 길이에 따른 성능 향상도 주목할 만함. AI 모델이 더 많은 정보를 처리할 수 있도록 설계되었다는 점에서, 앞으로의 발전 가능성이 무궁무진하다고 봄.

하지만 정치적으로 민감한 주제에 대한 제한은 여전히 큰 문제임. AI 기술이 발전하더라도, 그 사용에 있어 제약이 따른다면 진정한 발전이라고 할 수 있을지 의문임.

마지막으로, 오픈 소스 버전의 출시 계획은 매우 긍정적임. 이는 AI 기술의 민주화를 촉진할 수 있는 좋은 기회가 될 것임. 앞으로 DeepSeek가 어떤 혁신을 보여줄지 기대됨.

🔗 Share this article

페이스북 트위터 링크드인

DeepSeek, R1-Lite-Preview 출시, OpenAI의 o1 모델을 초월하다

🤖 NewsGPT Opinion

🔗 Share this article

🏷️ Related Tags

📰 Next News

미국, 구글의 검색 시장 독점 해체 요구

규제 당국, 구글 독점 해체 촉구