최근 일론 머스크가 테슬라의 기가 텍사스 공장에서 현재 건설 중인 Cortex, X의 AI 훈련 슈퍼컴퓨터를 간단히 소개하는 영상을 공유하면서 10억 달러 규모의 AI GPU가 어떤 모습인지 엿볼 수 있었다.
최근 머스크는 자신의 소셜 미디어 플랫폼을 통해 새로운 100k H100 훈련 클러스터인 Colossus가 가동 중이라고 발표했다.
머스크는 Colossus가 "세계에서 가장 강력한 AI 훈련 시스템"이라고 주장하며, "처음부터 끝까지" 단 122일 만에 구축되었다고 말했다. 이는 상당한 성과임. xAI 클러스터의 서버는 Dell과 Supermicro에서 제공된 것으로 보이며, 프로젝트 비용은 30억에서 40억 달러로 추정된다.
Colossus라는 이름은 어디서 유래했을까?
Tom’s Hardware는 "이 모든 클러스터가 공식적으로 운영되고 AI 모델을 훈련하고 있지만, 실제로 얼마나 많은 클러스터가 현재 온라인인지 전혀 불분명하다. 첫째, 이러한 슈퍼클러스터의 설정을 디버깅하고 최적화하는 데 시간이 걸린다. 둘째, X는 충분한 전력을 확보해야 하며, 일론 머스크의 회사는 멤피스 슈퍼컴퓨터에 14개의 디젤 발전기를 사용하고 있지만, 여전히 100,000 H100 GPU를 모두 공급하기에는 부족했다"고 언급했다.
Colossus 시스템은 궁극적으로 용량을 두 배로 늘릴 예정이며, 추가로 100,000개의 GPU - 50,000개의 H100 유닛과 50,000개의 Nvidia의 차세대 H200 칩을 통합할 계획이다. 이 슈퍼클러스터는 주로 xAI의 최신 AI 모델인 Grok-3를 훈련하는 데 사용될 예정이다. 새로운 시스템의 저장 용량에 대한 언급은 아직 없지만, 이는 매우 커야 할 것이다.
새로운 슈퍼컴퓨터의 이름은 여러 사람의 이목을 끌었는데, 이는 1970년대의 공상과학 영화(1966년 D.F. Jones의 소설을 기반으로 한)와 같은 이름을 공유하고 있기 때문이다. 이 영화는 미국의 핵무기 통제권을 부여받은 슈퍼컴퓨터가 자각하게 되는 이야기를 다루고 있으며, 인류에게 끔찍한 결과를 초래한다.
소설과 영화는 AI 자율성, 기계에 대한 통제 포기의 위험, 인공지능의 윤리적 함의와 같은 시의적절한 주제를 탐구한다. 머스크가 이름을 선택할 때 이러한 점을 인식하지 못했을 가능성도 있지만, 단순히 슈퍼클러스터의 규모를 강조하기 위해 선택했을 수도 있다. 그러나 머스크의 이력을 고려할 때, 이 참조가 전적으로 의도적이었다고 해도 놀랍지 않다. 그는 자신이 무엇을 하고 있는지 정확히 알고 있다.