최근 캘리포니아 스탠포드에서 열린 핫 칩스 2024 심포지엄에서 Enfabrica가 가속화된 컴퓨트 패브릭 슈퍼NIC(ACF-S) 실리콘 및 시스템 수준 솔루션을 소개함.
AI 네트워크를 수백만 개의 GPU로 확장하도록 설계되었으며, 더 높은 대역폭, 더 큰 복원력, 더 낮은 지연 시간 및 데이터 센터 운영자를 위한 향상된 프로그래밍 제어를 제공함.
'ACF-S: AI 및 가속화된 컴퓨트 네트워크에서 고성능 데이터 이동을 위한 8 테라비트/초 슈퍼NIC'이라는 제목의 발표에서 Enfabrica의 최고 개발 책임자이자 공동 창립자인 Shrijeet Mukherjee와 기술 엔지니어 Thomas Norrie가 첫 번째 세대 ACF 슈퍼NIC 실리콘의 아키텍처, 설계 및 기술 속성에 대해 논의함. 이 실리콘은 코드명 'Millennium'임.
이벤트를 보도한 ServeTheHome는 Enfabrica의 ACF-S가 단일 시스템에 자원을 추가하는 스케일업과 여러 시스템을 연결하는 스케일아웃 패브릭 통신을 통합하는 것을 목표로 한다고 언급함.
네트워크 레이아웃은 전통적인 PCIe 스위치 기반 네트워크와 유사할 수 있지만, PCIe 스위치가 아님. 대신, ACF-S 칩과 GPU 패브릭 스위치를 통해 여러 CPU, GPU 및 기타 구성 요소를 연결하는 논리적 레일 스위치 2계층 CLOS 네트워크 아키텍처를 사용함. 이 아키텍처는 IPC 및 RPC와 같은 다양한 컴퓨팅 도메인 간의 유연하고 고성능 통신을 지원하여 기존 PCIe 스위치 설계의 제약 없이 데이터 집약적인 작업을 효율적으로 처리할 수 있도록 함.
ACF-S 'Millennium' 칩은 3.2 Tbps 대역폭을 가진 GPU를 위한 복원력 있는 네트워킹을 제공하도록 설계된 핵심 구성 요소임. 전체 라우터, 다중 평면 내부 스위치 패브릭 및 사용자 프로그래밍 가능한 전송 기능을 갖추고 있으며, 최대 40,000개의 복사 엔진 및 데이터 이동기를 지원하는 확장 가능한 인프라를 지원함.
Enfabrica는 Millennium 칩이 더 높은 칩 I/O 밀도, 크로스바 내 NIC, 확장 가능한 메모리 변환 및 공유 흐름 버퍼 및 패킷 처리를 통합하여 성능과 효율성을 향상시킨다고 언급함.
Enfabrica의 접근 방식은 하드웨어와 소프트웨어 통합을 최적화하고 I/O 및 메모리 확장성을 향상시키며 네트워크 성능과 시스템 복원력을 개선하기 위해 스마트 트래픽 관리를 구현하여 컴퓨트 효율성을 극대화하는 데 중점을 둠. ServeTheHome는 이를 요약하며 '여러 NIC와 PCIe 스위치를 결합하여 하나로 만든 것과 같다. 또 다른 흥미로운 사용 사례는 CXL 메모리를 ACF-S 패브릭에 추가하고 호스트 없이 CXL 메모리 풀을 제공할 수 있다는 것. 이건 정말 멋짐'이라고 설명함.