NewsGPT™

Nvidia의 최대 라이벌, 440GB의 초고속 메모리를 갖춘 백만 코어 AI 추론 칩 시연

📰 'It is obscenely fast' — Biggest rival to Nvidia demos million-core super AI inference chip that obliterates the DGX100 with 44GB of super fast memory and you can even try it for free by TechRadar

Published: 2024-09-08 17:36:00

Featured Image
  • Cerebras의 최신 AI 추론 칩은 44GB의 고속 메모리를 갖추고 있음.
  • 16비트 모델 가중치를 사용하여 성능을 극대화하고 정확성을 유지함.
  • 개발자들에게 무료 토큰을 제공하며, 가격이 GPU 클라우드보다 낮음.

Cerebras가 Nvidia의 DGX100에 맞서는 강력한 라이벌로 평가받는 최신 AI 추론 칩을 공개함.

이 칩은 44GB의 고속 메모리를 특징으로 하여 수십억에서 수조 개의 매개변수를 가진 AI 모델을 처리할 수 있음.

단일 웨이퍼의 메모리 용량을 초과하는 모델의 경우, Cerebras는 레이어 경계에서 분할하여 여러 CS-3 시스템에 분산할 수 있음. 단일 CS-3 시스템은 200억 매개변수 모델을 수용할 수 있으며, 700억 매개변수 모델은 4개 시스템만으로도 관리 가능함.

추가 모델 지원이 곧 제공될 예정임.

Cerebras는 정확성을 유지하기 위해 16비트 모델 가중치를 사용하는 것을 강조하며, 일부 경쟁업체가 성능 저하를 초래할 수 있는 8비트로 가중치 정밀도를 줄이는 것과 대조됨. Cerebras에 따르면, 16비트 모델은 8비트 모델에 비해 다중 턴 대화, 수학 및 추론 작업에서 최대 5% 더 나은 성능을 발휘하여 더 정확하고 신뢰할 수 있는 출력을 보장함.

Cerebras 추론 플랫폼은 채팅 및 API 접근을 통해 제공되며, OpenAI의 Chat Completions 형식에 익숙한 개발자들이 쉽게 통합할 수 있도록 설계됨. 이 플랫폼은 Llama3.1 70B 모델을 초당 450 토큰으로 실행할 수 있는 유일한 솔루션으로, 이러한 대형 모델에 대한 즉각적인 속도를 달성함. 개발자들을 위해 Cerebras는 출시 시 매일 100만 개의 무료 토큰을 제공하며, 대규모 배포에 대한 가격은 인기 있는 GPU 클라우드보다 상당히 낮을 것이라고 전함.

Cerebras는 처음에 Llama3.1 8B 및 70B 모델로 출시하며, 가까운 미래에 Llama3 405B 및 Mistral Large 2와 같은 더 큰 모델에 대한 지원을 추가할 계획임. 이 회사는 빠른 추론 기능이 더 복잡한 AI 워크플로우를 가능하게 하고, 특히 상당한 토큰 사용이 필요한 스캐폴딩과 같은 기술에서 실시간 LLM 지능을 향상시키는 데 중요하다고 강조함.

ServeTheHome의 Patrick Kennedy는 최근 Hot Chips 2024 심포지엄에서 이 제품을 직접 체험했으며, "나는 Andrew Feldman(Cerebras CEO)과 대화할 기회를 가졌고, 그는 나에게 라이브 데모를 보여주었다. 정말로 엄청나게 빠르다. 이게 중요한 이유는 단순히 인간과의 프롬프트 상호작용 때문이 아니다. 대신, 여러 컴퓨터 AI 에이전트가 서로 대화하는 에이전트의 세계에서 생각해보라. 각 에이전트가 출력을 내는 데 몇 초가 걸린다면, 파이프라인에 여러 단계가 있다면 어떻게 될까. 자동화된 AI 에이전트 파이프라인을 생각해보면, 전체 체인의 시간을 줄이기 위해 빠른 추론이 필요하다."라고 언급함.

Cerebras는 자사의 플랫폼이 오픈 LLM 개발 및 배포의 새로운 기준을 설정하고, 기록적인 성능, 경쟁력 있는 가격, 광범위한 API 접근을 제공한다고 주장함. 사용자는 inference.cerebras.ai를 방문하거나 아래 슬라이드의 QR 코드를 스캔하여 체험할 수 있음.

🤖 NewsGPT Opinion

이번 Cerebras의 AI 추론 칩 발표는 정말 흥미로운 소식임. Nvidia의 DGX100에 도전장을 내민 만큼, 기술 경쟁이 더욱 치열해질 것 같음. 특히 44GB의 고속 메모리와 16비트 모델 가중치 사용은 성능을 극대화하는 데 큰 도움이 될 것임.

AI 모델의 매개변수가 수십억에서 수조 개에 이르는 시대에, 이러한 기술이 얼마나 중요한지 잘 보여줌. 특히 여러 시스템에 걸쳐 모델을 분산 처리할 수 있다는 점은 대규모 AI 프로젝트에 큰 장점이 될 것임. 개발자들이 쉽게 접근할 수 있도록 설계된 플랫폼도 인상적임.

무료 토큰 제공은 개발자들에게 큰 혜택이 될 것 같고, 이는 더 많은 사람들이 이 기술을 실험해볼 수 있는 기회를 제공함. 가격이 GPU 클라우드보다 낮다는 점도 매력적임. 이는 더 많은 기업들이 AI 기술을 도입하는 데 긍정적인 영향을 미칠 것임.

Patrick Kennedy의 말처럼, AI 에이전트 간의 빠른 상호작용이 중요해지는 시대에 이러한 기술이 얼마나 큰 변화를 가져올지 기대됨. AI의 발전이 우리의 일상에 어떤 영향을 미칠지 궁금함.

결론적으로, Cerebras의 새로운 칩은 AI 기술의 미래를 한층 더 밝게 해줄 것으로 보임. 앞으로의 발전이 기대됨.

🏷️ Related Tags

AI

📰 Next News

가민 훈련 도구에 의존하지만, 한 가지 뚜렷한 수정이 필요함

가민 훈련 도구에 의존하지만, 한 가지 뚜렷한 수정이 필요함

인스타그램 사용자가 역사적인 밴쿠버 해변 영상을 색칠함

인스타그램 사용자가 역사적인 밴쿠버 해변 영상을 색칠함