NewsGPT™

SambaNova, Cerebras, Groq, OpenAI o1 출시 이후 토큰 속도 경쟁 격화

📰 SambaNova, Cerebras, and Groq Clash Over Token Speed in Wake of OpenAI o1 Launch by Analytics India Magazine

Published: 2024-09-15 13:30:45

Featured Image
  • SambaNova, Cerebras, Groq가 AI 하드웨어 속도 경쟁을 벌이고 있음.
  • OpenAI의 o1 모델 출시가 이 경쟁에 큰 영향을 미침.
  • 각 기업의 기술이 AI의 미래를 좌우할 가능성이 있음.

이 이야기를 들어보세요

토큰 속도를 위한 전투가 격화되고 있음. SambaNova, Cerebras, Groq가 추론 성능의 한계를 밀어붙이고 있음. SambaNova는 Llama 3.1 405B에서 기록을 세우고, Cerebras는 WSE-3로 비할 데 없는 속도를 제공하며, Groq의 LPU는 전통적인 GPU 제조업체에 도전하고 있음. 추론 하드웨어를 지배하기 위한 경쟁이 뜨거워지고 있음.

최근 OpenAI는 사고 능력과 '생각할 수 있는' 능력을 가진 o1 시리즈 모델을 출시함.

OpenAI o1은 사고가 대형 모델을 필요로 하지 않음을 증명하는 완벽한 사례임. 현재 많은 매개변수가 퀴즈 같은 벤치마크를 위한 사실을 기억하는 데 할당되고 있음. 대신, 사고는 외부 도구(예: 브라우저 또는 코드 검증기)와 상호작용하는 더 작은 '사고 코어'로 관리될 수 있음.

이는 생산에서 추론 시간 확장으로의 중요한 전환을 의미함. 이는 순전히 학습을 통해서가 아니라 검색을 통해 사고를 향상시키는 데 초점을 맞춘 개념임. "이 접근 방식은 대규모 사전 훈련 컴퓨팅의 필요성을 줄이고, 이제는 사전 또는 후 훈련이 아닌 추론에 상당 부분의 컴퓨팅이 할당됨"이라고 NVIDIA의 Jim Fan이 말함.

이는 현재 추론 하드웨어를 구축하고 있는 Groq, Cerebras, SambaNova와 같은 기업에 좋은 소식임.

"훈련 시간에서 추론 시간으로 컴퓨팅을 이동하는 패러다임은 Groq 스타일의 추론 하드웨어에 이익이 될 것"이라고 한 사용자가 X에 게시함. 또 다른 사용자는 "Meta가 o1의 오픈 구현을 출시할 수 있다면 Groq와 같은 기업의 가치가 급등할 수 있음"이라고 댓글을 남김.

토큰 속도 전쟁

LLM 추론 속도 전쟁이 뜨거워지고 있음. SambaNova는 최근 클라우드 추론 플랫폼을 출시하여 개발자들이 Llama 3.1 모델(8B, 70B, 405B 버전 포함)에 접근할 수 있도록 함. 이 플랫폼은 Meta의 Llama 3.1 405B에서 새로운 추론 기록을 세우며, 네이티브 16비트 정밀도로 모델을 제공하고 초당 132개의 출력 토큰을 달성함.

Llama 3.1 70B 모델은 461 t/s로 실행됨. 이 서비스는 이제 모든 개발자에게 열려 있음(대기자 명단 필요 없음).

특히 Groq, Cerebras, SambaNova 중에서 Llama 3.1 405B를 제공하는 유일한 플랫폼임. "Llama 주변의 생태계가 한계를 계속 밀어붙이고 있음. SambaNova Cloud는 405B에 대한 새로운 기준을 설정하고 있으며, 오늘부터 개발자들이 구축을 시작할 수 있음"이라고 Meta의 AI가 X에 게시함.

"빠른 추론은 더 이상 필요 없는 데모가 아니며, 미래의 최전선 모델 뒤에 있는 원동력이 될 것임. 이제 커스텀 AI 하드웨어로 전환하고 NVIDIA를 단축할 시간임"이라고 SambaNova의 머신러닝 엔지니어 Zoltan Csaki가 말함.

API 추론 제공은 SambaNova의 SN40L 커스텀 AI 칩에 의해 구동되며, 이 칩은 재구성 가능한 데이터 흐름 유닛 아키텍처를 특징으로 함. TSMC의 5nm 공정으로 제조된 SN40L은 각 칩에 DRAM, HBM3 및 SRAM을 결합함.

RDU의 아키텍처는 스트리밍 데이터 흐름을 중심으로 구축되어 여러 작업을 하나의 프로세스로 결합할 수 있게 하여 수동 프로그래밍의 필요성을 제거함. 이는 파이프라인, 데이터 및 텐서 병렬성과 같은 다양한 병렬성 기술을 혼합하여 더 빠른 성능을 제공함.

Cerebras의 전투

Cerebras Inference는 최근 Llama 3.1 8B 모델에서 초당 1,800 토큰, Llama 3.1 70B 모델에서 초당 450 토큰을 제공한다고 발표함. 이는 NVIDIA GPU 기반의 하이퍼스케일 클라우드보다 20배 빠름.

Artificial Analysis에 따르면, NVIDIA H100 시스템에서 실행되는 Llama 3.1-8B 모델은 초당 72에서 257 토큰의 속도를 제공하며, AWS는 동일한 작업에 대해 초당 93 토큰을 보고함.

Cerebras Inference는 Cerebras CS-3 시스템과 그 고급 AI 프로세서인 Wafer Scale Engine 3(WSE-3)에 의해 구동됨. 전통적인 GPU와 달리 CS-3는 속도와 용량 간의 트레이드오프가 필요하지 않으며, 개별 사용자에게 최고 성능을 제공하면서도 높은 처리량을 유지함.

WSE-3의 거대한 크기는 많은 사용자를 동시에 지원할 수 있게 하여 인상적인 속도를 제공함. NVIDIA의 H100보다 7,000배 더 많은 메모리 대역폭을 제공하는 WSE-3는 생성 AI의 핵심 기술적 문제인 메모리 대역폭을 해결함.

Cerebras는 GPU의 고유한 메모리 대역폭 제한을 해결하며, 이는 모델이 각 출력 토큰에 대해 메모리에서 계산 코어로 이동해야 함. 이 과정은 특히 70억 개의 매개변수를 가진 Llama 3.1-70B와 같은 대형 언어 모델의 경우 느린 추론 속도를 초래함.

Cerebras Inference는 수십억에서 수조 개의 매개변수를 지원함. 단일 웨이퍼의 메모리 용량을 초과하는 모델의 경우, Cerebras는 레이어 경계에서 분할하고 여러 CS-3 시스템에 매핑함. Llama3-405B 및 Mistral Large와 같은 더 큰 모델은 향후 몇 주 내에 지원될 것으로 예상됨.

Groq의 독창성

Groq는 최근 Llama 3.1 70B 모델에서 초당 544 토큰, Llama 3.1 8B 모델에서 초당 752 토큰의 속도를 달성했다고 Artificial Analysis가 보고함.

2016년에 설립된 Groq는 GPU 대신 독자적인 하드웨어인 LPU를 선호함. 이 회사는 최근 6억 4천만 달러의 시리즈 D 자금을 조달하여 가치를 28억 달러로 끌어올림. 최근에는 사우디아라비아에 세계 최대의 추론 데이터 센터를 설립하기 위해 Aramco Digital과 파트너십을 발표함.

Groq의 LPU는 NVIDIA, AMD, Intel과 같은 전통적인 GPU 제조업체에 도전하며, 더 빠른 딥러닝 계산을 위해 전적으로 설계된 텐서 스트리밍 프로세서를 특징으로 함. LPU는 두 가지 LLM 병목 현상인 계산 밀도와 메모리 대역폭을 극복하도록 설계됨.

LLM 측면에서 LPU는 GPU 및 CPU보다 더 큰 계산 용량을 가지고 있음. 이는 계산되는 단어당 시간을 줄여 텍스트 시퀀스를 훨씬 더 빠르게 생성할 수 있게 함.

또한 외부 메모리 병목 현상을 제거함으로써 LPU 추론 엔진은 GPU에 비해 LLM에서 수량적으로 더 나은 성능을 제공할 수 있음.

LPU는 언어 작업에 내재된 데이터의 순차적 처리를 우선시하도록 설계됨. 이는 GPU가 그래픽 렌더링과 같은 병렬 처리 작업에 최적화된 것과 대조됨.

🤖 NewsGPT Opinion

이번 뉴스는 AI 하드웨어 시장의 경쟁이 얼마나 치열해지고 있는지를 잘 보여줌. SambaNova, Cerebras, Groq가 각자의 기술로 속도 경쟁을 벌이고 있는데, 이게 단순한 속도 싸움이 아니라 AI의 미래를 좌우할 중요한 전투라는 점이 흥미로움.

특히 OpenAI의 o1 모델 출시가 이 경쟁에 불을 지핀 것 같음. 대형 모델이 아닌 소형 '사고 코어'를 통해 사고를 처리할 수 있다는 점은 기존의 AI 모델에 대한 패러다임 전환을 의미함. 이게 성공하면, 앞으로의 AI 모델은 더 작고 효율적으로 발전할 가능성이 높음.

SambaNova의 클라우드 추론 플랫폼이 Llama 3.1 405B에서 기록을 세운 것도 주목할 만함. 개발자들이 쉽게 접근할 수 있도록 한 점이 인상적임. 이로 인해 더 많은 혁신이 일어날 수 있을 것 같음.

Cerebras의 WSE-3는 메모리 대역폭 문제를 해결하는 데 큰 역할을 하고 있음. 이는 대형 언어 모델의 성능을 극대화하는 데 필수적임. Groq의 LPU도 전통적인 GPU에 도전하는 모습이 인상적임. 이들이 경쟁하면서 AI 하드웨어의 발전이 가속화될 것임.

결국, 이 경쟁은 AI 기술의 발전뿐만 아니라, 기업의 가치에도 큰 영향을 미칠 것임. 앞으로 어떤 기업이 이 경쟁에서 승리할지 기대됨. AI 하드웨어의 미래가 어떻게 바뀔지 지켜보는 것도 재미있을 것 같음.

🏷️ Related Tags

📰 Next News

AI 앱으로 조롱받는 게 왜 웃길까?

AI 앱으로 조롱받는 게 왜 웃길까?

에어캐나다 조종사 파업 위기, AI의 약물 발견 혁신 실패, 생산성 둔화: 9월 15일 비즈니스 및 투자 뉴스

에어캐나다 조종사 파업 위기, AI의 약물 발견 혁신 실패, 생산성 둔화: 9월 15일 비즈니스 및 투자 뉴스