AMD의 최근 AI 발전 행사에서 새로운 5세대 EYPC 프로세서, MI325x 가속기 및 새로운 네트워킹 기술이 발표됨.
이 새로운 제품들은 노후화된 데이터 센터가 직면한 문제인 동적 작업 부하 관리, 에너지 효율성 및 공간 문제를 해결하는 것을 목표로 함.
AMD의 서버 사업부 수석 부사장 겸 총괄 관리자 Dan McNamara와 함께 데이터 센터와 HPC의 미래, AMD가 데이터 센터에서 시장 점유율을 확장하는 데 성공한 이유, 그리고 네트워킹 기술이 AI 발전을 더욱 촉진하는 데 필요한 돌파구에 대해 이야기할 기회를 가짐.
수익 기준으로 34%의 시장 점유율을 축하함. 이 성공의 이유는 무엇인가?
2017년처럼 시장에 재진입할 때는 세 가지가 중요함. 신뢰, 실행, 품질. 고객들은 제품을 받을 것이라는 확신이 필요함. 그 다음은 성능, 전력, 비용의 비율임. 우리는 이 기준을 100%로 로드맵에 반영함.
새로운 프로그램이나 제품을 살펴볼 때, Lisa Su(AMD CEO)가 가장 먼저 묻는 것은 진행 상황임. 경제적 가치가 있어야 쉽게 채택할 수 있음.
우리는 매 세대마다 더 나아짐. 우리는 이제 궤도에 올랐음. 밀란은 우리에게 큰 전환점이었음. 나폴리와 로마도 좋았고 클라우드에 진입했지만, 밀란은 기업과 클라우드 전반에 걸쳐 우리의 범위를 확장함.
이 성장을 계속하기 위한 계획은 무엇인가?
이제 우리는 더 이상 경쟁자가 아니라 리더로 여겨짐. 그래서 우리가 여기까지 온 이유임. 하지만 여기까지 온 것이 앞으로 나아가는 데는 도움이 되지 않음. 그래서 나에게는 세 가지가 중요함. 제품 리더십을 확장하고, 성능, 코어당 성능, 소켓당 성능, 밀도, 에너지 효율성, TCO 등을 다양한 클라우드 및 기업 작업 부하에 걸쳐 다루는 것임. 그리고 AI와 노후화된 시스템의 리프레시라는 두 가지 주요 주제를 다루는 것임.
주기가 길어짐. 일주일 전에 고객과 함께 있었는데, 그는 내 플릿의 50% 이상이 4년 됐다고 말함. 그래서 리프레시와 통합을 추진하는 것이 중요함. 그리고 그와 함께 소프트웨어 라이센스 문제를 어떻게 도와줄 수 있는지에 대한 것이기도 함. Broadcom은 새로운 가격 모델로 많은 혼란을 일으켰음. AI도 마찬가지임. CPU는 이 혼합 작업 부하 환경에서 중요함.
AI 작업 부하에 대해, LUMI에서 일하는 데이터 과학자들이 보고한 바와 같이 컴퓨팅의 수익이 감소하고 있으며 네트워크 개선에 집중해야 한다는 주장에 동의하는가?
네트워크는 매우 중요함. 메모리 대역폭과 유사함. 네트워크 대역폭도 비슷함. 코어에 데이터를 공급해야 함. GPU와의 네트워크 간의 연결이 중요함. LUMI가 구축될 때는 백사이드가 없었음. CPU와 GPU 간의 일관된 캐시 인터페이스를 사용함. GPU는 병렬 처리를 위해 매우 중요함. 그래서 우리는 AI NIC를 구축하고 있음.
우리는 돌파구를 마련할 것임. 월요일에 큰 하이퍼 스케일러와 저녁을 먹었는데, 그들조차도 컴퓨팅에 끝이 없다는 것에 놀라워함. 흥미진진함.
더 많은 컴퓨팅을 얻는 것에 대해, 수출 금지가 칩 개발에 미치는 영향은 무엇인가?
우리는 우리의 아키텍처 덕분에 이를 준수할 수 있으며 중국과 같은 다른 지역에도 서비스를 제공할 수 있다고 믿음. 그들은 결국 문제를 스스로 해결해야 할 것임. 현재 GPU나 가속기를 구축하는 모든 사람들은 설정된 요구 사항을 충족하기 위해 방법을 찾고 있음.
그래서, 이것이 억제하고 있는 것은 아닌가?
아니오.
좋아, AI 작업 부하로 돌아가서. AI 작업 부하는 전통적인 작업 부하보다 훨씬 더 많은 에너지를 필요로 함. 이 문제는 누구의 고민이어야 하며, 칩 개발 시 고려 사항인가?
나는 정말로 국가 차원에서 시작해야 한다고 믿음. 기술에서 뒤처지지 않으려면 어떤 나라에서든 상관없음. 그래서 나는 거기서 시작해야 한다고 생각함. 그런 다음 데이터 센터 제공자들이 문제를 해결해야 함. 미국에서는 주 경계를 넘는 것이 불가능함. 캘리포니아에서 피닉스로 AI 컴퓨팅을 구축하려면 합의에 도달하는 데 1년이 걸림. 주 경계를 넘는 것은 전력 전송이 매우 어렵기 때문임. 그래서 이것은 미국이 해결해야 할 문제임.
성능과 효율성에 대해, 나는 이 두 가지가 함께 간다고 생각함. EYPC로 우리가 한 일을 보면, 성능당 전력을 증가시켰지만 전체 칩의 TDP도 증가시켰음. 그래서 성능이 증가했지만 전력 소비도 증가했음. 하지만 비즈니스를 운영할 때, 매출이 지출보다 훨씬 더 가파르게 증가하기를 원함. 그래서 나는 성능과 효율성을 이렇게 바라봄.
상위 라인을 더 높이는 것이 더 쉬운가, 아니면 하위 라인을 더 낮추는 것이 더 쉬운가?
상황에 따라 다름. Turnin과 관련하여, 일부 하이퍼 스케일러는 '더 많은 성능을 원하지 않고, 더 낮은 전력과 비용을 원한다'고 말함. 다른 이들은 '성능당 비용을 원하고 전력을 감수하겠다'고 말함. 그래서 제공자의 전략에 따라 다름. 결국 우리는 칩을 제공하지만 그들은 서비스를 제공함.
우리는 둘 다 할 수 있으며, 예를 들어 줄 수 있음. 성능 대비 가격을 위해 전체 가격을 줄이기 위해 TDP를 낮춰 성능에 만족할 수 있는 지점까지 낮춤. 반면에 다른 경우는 '당신의 성능은 필요 없고, 같은 성능에 더 낮은 비용을 원한다'는 것이기 때문에 조금 더 어려움. 우리는 고객에게 '여기서 당신의 위치가 어디인지 보여주고, 여기서 운영하고 싶다면 그렇게 할 수 있다'고 보여줌.