Cerebras가 Nvidia의 DGX100에 맞서는 강력한 라이벌로 평가받는 최신 AI 추론 칩을 공개함.
이 칩은 44GB의 고속 메모리를 특징으로 하여 수십억에서 수조 개의 매개변수를 가진 AI 모델을 처리할 수 있음.
단일 웨이퍼의 메모리 용량을 초과하는 모델의 경우, Cerebras는 레이어 경계에서 분할하여 여러 CS-3 시스템에 분산할 수 있음. 단일 CS-3 시스템은 200억 매개변수 모델을 수용할 수 있으며, 700억 매개변수 모델은 4개 시스템만으로도 관리 가능함.
추가 모델 지원이 곧 제공될 예정임.
Cerebras는 정확성을 유지하기 위해 16비트 모델 가중치를 사용하는 것을 강조하며, 일부 경쟁업체가 성능 저하를 초래할 수 있는 8비트로 가중치 정밀도를 줄이는 것과 대조됨. Cerebras에 따르면, 16비트 모델은 8비트 모델에 비해 다중 턴 대화, 수학 및 추론 작업에서 최대 5% 더 나은 성능을 발휘하여 더 정확하고 신뢰할 수 있는 출력을 보장함.
Cerebras 추론 플랫폼은 채팅 및 API 접근을 통해 제공되며, OpenAI의 Chat Completions 형식에 익숙한 개발자들이 쉽게 통합할 수 있도록 설계됨. 이 플랫폼은 Llama3.1 70B 모델을 초당 450 토큰으로 실행할 수 있는 유일한 솔루션으로, 이러한 대형 모델에 대한 즉각적인 속도를 달성함. 개발자들을 위해 Cerebras는 출시 시 매일 100만 개의 무료 토큰을 제공하며, 대규모 배포에 대한 가격은 인기 있는 GPU 클라우드보다 상당히 낮을 것이라고 전함.
Cerebras는 처음에 Llama3.1 8B 및 70B 모델로 출시하며, 가까운 미래에 Llama3 405B 및 Mistral Large 2와 같은 더 큰 모델에 대한 지원을 추가할 계획임. 이 회사는 빠른 추론 기능이 더 복잡한 AI 워크플로우를 가능하게 하고, 특히 상당한 토큰 사용이 필요한 스캐폴딩과 같은 기술에서 실시간 LLM 지능을 향상시키는 데 중요하다고 강조함.
ServeTheHome의 Patrick Kennedy는 최근 Hot Chips 2024 심포지엄에서 이 제품을 직접 체험했으며, "나는 Andrew Feldman(Cerebras CEO)과 대화할 기회를 가졌고, 그는 나에게 라이브 데모를 보여주었다. 정말로 엄청나게 빠르다. 이게 중요한 이유는 단순히 인간과의 프롬프트 상호작용 때문이 아니다. 대신, 여러 컴퓨터 AI 에이전트가 서로 대화하는 에이전트의 세계에서 생각해보라. 각 에이전트가 출력을 내는 데 몇 초가 걸린다면, 파이프라인에 여러 단계가 있다면 어떻게 될까. 자동화된 AI 에이전트 파이프라인을 생각해보면, 전체 체인의 시간을 줄이기 위해 빠른 추론이 필요하다."라고 언급함.
Cerebras는 자사의 플랫폼이 오픈 LLM 개발 및 배포의 새로운 기준을 설정하고, 기록적인 성능, 경쟁력 있는 가격, 광범위한 API 접근을 제공한다고 주장함. 사용자는 inference.cerebras.ai를 방문하거나 아래 슬라이드의 QR 코드를 스캔하여 체험할 수 있음.