대형 언어 모델(LLM)이 벽에 부딪혔나? 마이크로소프트의 CEO 사티아 나델라가 마이크로소프트 이그나이트 2024에서 이 뜨거운 이슈를 다루며 솔직한 의견을 제시함.
"우리가 스케일링 법칙에 부딪혔는지에 대한 논란이 많음. 계속될 것인가? 결국 기억해야 할 것은, 이것들이 물리 법칙이 아니라는 것임. 이는 단지 경험적 관찰일 뿐이며, 오랫동안 유효했던 무어의 법칙과 비슷함"이라고 말함.
나델라는 회의론과 논쟁을 환영하며, 이는 모델 아키텍처, 데이터 체계 및 시스템 아키텍처와 같은 혁신을 촉진하는 데 유익하다고 언급함. 그는 또한 OpenAI의 새로운 스케일링 법칙인 테스트 시간 컴퓨팅에 대해 논의하며, 이는 OpenAI의 o1에 의해 구동되는 Copilot Think Deeper와 같은 기능에 통합될 것이라고 설명함.
최근 실적 발표에서 NVIDIA의 CEO 젠슨 황은 OpenAI o1이 많은 컴퓨팅 자원을 소모하는 '테스트 시간 스케일링'이라는 새로운 스케일링 법칙을 도입했다고 언급함. 마이크로소프트는 OpenAI를 위해 테스트 시간 컴퓨팅을 확장하기 위해 NVIDIA와 긴밀히 협력하고 있음.
나델라는 가장 효율적인 방법으로 가치를 극대화하는 것의 중요성을 강조함. "지난 달, H200s가 사용 가능해졌고, 우리는 매우 흥분하고 있음"이라고 말함. 그는 H100과 H200 간의 스택 최적화를 통해 Azure가 추론부터 훈련까지 모든 것에 대한 성능을 제공할 수 있다고 덧붙임.
효율성 전쟁: 토큰, 와트, 그리고 달러
"와트당 토큰과 달러는 성능의 새로운 통화에 대해 생각하는 가장 좋은 방법임"이라고 나델라가 말하며, 마이크로소프트는 새로운 데이터 센터 인텔리전스 공장을 계속 구축할 것이라고 덧붙임.
나델라는 에너지 소비(와트로 측정)와 비용(달러로 측정)을 고려하여 토큰 생성의 효율성을 반영하는 새로운 지표를 소개함. 이는 사용된 에너지(와트) 단위와 지출된 달러마다 특정 수의 토큰이 생성된다는 것을 의미함.
진전을 이루었음에도 불구하고, NVIDIA는 여전히 추론 문제를 해결하지 못함. 황은 관련된 어려움을 인정하며, 그들의 목표는 낮은 대기 시간으로 토큰을 생성하는 것이라고 공유함.
"추론은 매우 어려움. 그 이유는 정확도가 높아야 하고... 높은 처리량이 필요하여 비용을 가능한 한 낮게 유지해야 함. 그러나 대기 시간도 낮아야 함. 높은 처리량과 낮은 대기 시간을 가진 컴퓨터는 구축하기가 매우 어려움"이라고 말함.
"우리의 희망과 꿈은 언젠가 세상이 많은 추론을 하게 되는 것임"이라고 황이 덧붙이며, 수천 개의 AI 네이티브 스타트업이 토큰을 생성할 것이라고 말함.
마이크로소프트는 또한 Azure에서 NVIDIA Blackwell AI 인프라의 미리보기를 발표함.
"Blackwell은 정말 놀라움. 단일 NVLink 도메인에 72개의 GPU가 있으며, 백엔드에서 Infiniband와 결합될 때 이 랙은 가장 최첨단 훈련 및 추론 작업을 위해 최적화됨. 우리는 Blackwell을 갖게 되어 매우 흥분하고 있음"이라고 나델라가 말함.
NVIDIA 외에도 마이크로소프트는 AMD와도 긴밀히 협력하고 있음. "우리는 AMD의 MI300X GPU로 구동되는 VM을 제공한 첫 번째 클라우드였으며, 이 인프라를 사용하여 Azure OpenAI를 지원하고 있음. 오늘 우리는 AMD와 공동 설계한 Azure HBv5를 소개함"이라고 말함.
나델라는 Azure HBv5가 다른 모든 클라우드 가상 머신보다 최대 8배 빠르며, 고성능 컴퓨팅의 새로운 기준을 설정하고 내년에는 일반적으로 사용 가능할 것이라고 확인함.
제품으로서의 데이터 센터
최근 No Priors와의 팟캐스트에서 황은 NVIDIA가 이제 데이터 센터를 단순한 GPU가 아닌 제품으로 보고 있다고 설명함.
"우리 회사에는 데이터 센터를 제품으로 보는 이니셔티브가 있음. 우리는 이를 제품으로 판매하지 않지만, 계획부터 최적화, 조정 및 운영 유지까지 제품처럼 다뤄야 함"이라고 말하며, 데이터 센터가 아이폰처럼 아름답게 되기를 목표로 하고 있다고 덧붙임.
그러나 그는 에너지, 자본 및 공급망이 컴퓨팅 확장에 있어 주요 도전 과제가 되고 있다고 인정함. 흥미롭게도 AI 기술을 지원하기 위한 데이터 센터에 대한 수요가 증가함에 따라, 마이크로소프트, 구글 및 아마존과 같은 기술 대기업들이 원자력 발전소 운영자와 계약을 체결함.
황은 지능이 컴퓨팅 파워 위에 구축된다고 강조하며 데이터 센터의 진화를 경탄함. 처음에는 데이터 센터가 단순히 데이터를 저장하는 데 사용되었지만, 이제는 새로운 토큰을 생성하고 있음.
"우리는 파일을 저장하는 것이 아니라 토큰을 생성하는 단일 테넌트 데이터 센터를 만들고 있음. 이 토큰은 다시 지능처럼 보이는 것으로 재구성됨"이라고 설명함.
황에 따르면, 지능 또는 토큰은 여러 형태를 취할 수 있음. "로봇 동작, 아미노산의 서열, 화학 사슬 등이 될 수 있으며 가능성은 무궁무진함"이라고 덧붙임.
한편, Groq의 CEO 조나단 로스는 최근 LinkedIn 게시물에서 생성적 AI를 인터넷 및 모바일 전화와 비교하며, 인터넷이 정보 시대의 일부로서 데이터를 고충실도로 복제하고 전 세계에 배포하는 것이 주 기능이었다고 설명함.
반면 생성적 AI는 다르다고 로스는 말함. "복사하는 것이 아님. 데이터나 정보에 관한 것이 아님. 컴퓨팅에 관한 것임"이라고 강조함.
컴퓨팅은 새로운 통화
올해 초 Lex Fridman과의 인터뷰에서 OpenAI의 CEO 샘 알트먼은 "컴퓨팅이 미래의 통화가 될 것임. 이는 세계에서 가장 가치 있는 상품이 될 수 있으며, 우리는 컴퓨팅 자원을 확장하는 데 상당한 투자를 해야 함"이라고 말함.
비슷한 맥락에서 알트먼은 모든 사람이 GPT-7의 컴퓨팅 자원의 일부에 접근할 수 있는 개념을 제안함. "미래가 보편적 기본 소득보다 보편적 기본 컴퓨팅에 더 가까운 모습일 것이라고 생각함. 모든 사람이 GPT-7 컴퓨팅의 일부를 받는 것"이라고 알트먼이 추측함.
이는 OpenAI가 2026년까지 첫 번째 자체 AI 칩을 출시하기 위해 TSMC 및 Broadcom과 파트너십을 계획하고 있는 이유를 설명함.
한편, 일론 머스크의 xAI는 세계에서 가장 크고 강력한 AI 슈퍼컴퓨터인 Colossus를 구축했으며, 이는 멤피스에 위치한 100,000개의 NVIDIA H100 GPU로 구성된 액체 냉각 클러스터임. xAI는 현재 이를 두 배로 늘려 200,000개의 NVIDIA Hopper GPU를 결합할 계획임.
추론 전쟁
또한 OpenAI의 새로운 스케일링 방법은 Groq, Sambanova 및 Cerebras와 같은 주요 추론 칩 제조업체들이 성능을 개선하도록 촉구하여 Llama 모델을 기록적인 속도로 실행할 수 있게 함.
Cerebras는 최근 4050억 개의 매개변수를 가진 Llama 3.1 모델이 초당 969개의 토큰으로 실행되고 있다고 공유함. 한편 Groq는 Llama 3.1 70B에 대한 새로운 엔드포인트를 출시하여 추측적 디코딩을 활용하여 초당 1,665개의 토큰을 달성함. Sambanova의 Llama 3.1 405B 모델은 현재 초당 최대 200개의 토큰으로 실행되고 있음.
한편 NVIDIA는 공급업체에 과열 문제를 해결하기 위해 여러 번 랙을 재설계하도록 요청한 것으로 알려짐. 이에 Groq의 서니 마드라는 Groq의 클러스터 사진을 게시하며 "여기서는 공기 냉각됨"이라고 캡션을 달음.
그러나 황은 이러한 보고서를 일축하며 Blackwell 생산이 순조롭게 진행되고 있다고 주장함. NVIDIA의 CFO는 회사가 3분기에 고객에게 13,000개의 GPU 샘플을 배송했으며, OpenAI에 첫 번째 Blackwell DGX 엔지니어링 샘플 중 하나를 포함했다고 밝혔음.
한편 SambaNova AI의 로드리고 리앙은 "Sambanova의 데이터스케일 랙은 단지 738파운드이며, 특별한 냉각이나 전력이 필요하지 않으며, NVIDIA 랙보다 성능이 뛰어나면서도 전력의 10분의 1만 사용함"이라고 말함.