인공지능의 빠르게 발전하는 세계에서 모바일 폰, PC, 심지어 라즈베리 파이와 같은 엣지 장치에서 대형 AI 모델을 실행하려는 수요가 증가하고 있음.
하지만 CPU와 같은 제한된 자원을 가진 장치에서 이러한 모델을 효율적으로 배포하는 것은 여전히 큰 장애물임. 전통적으로 NPUs와 GPUs와 같은 전용 하드웨어 가속기가 이 작업을 위한 솔루션으로 사용되어 왔음. 하지만 CPU만으로 비슷하거나 더 나은 성능을 달성할 수 있다면 어떨까? 여기서 마이크로소프트 리서치 아시아의 새로운 기술인 T-MAC이 등장함. T-MAC 기술은 대형 AI 모델의 속도를 높여 폰에서 4-5배 더 빠르게 실행할 수 있게 해줌, 모두 CPU만으로 가능함.
문제: 폰에서 대형 AI 모델 실행하기
폰이나 작은 PC에서 AI를 실행하려고 할 때 두 가지 큰 문제에 직면함: 공간과 전력. 이러한 모델은 잘 작동하기 위해 많은 공간과 에너지가 필요함. 이를 돕기 위해 우리는 종종 모델 '양자화'라는 트릭을 사용함. 이는 모델의 크기를 줄이기 위해 부품의 비트 수를 낮추는 것을 의미함. 이 방법은 공간을 절약하는 데 도움이 되지만, 수학적 처리 방식 때문에 모델 속도를 저하시킬 수 있음. 일반적으로 이러한 저비트 부품을 다시 고비트로 변경해야 하므로 느리고 속도에 좋지 않음.
해결책: T-MAC 기술
T-MAC 기술은 구식의 느린 방법 대신 '룩업 테이블'(LUT) 방식을 사용하여 수학을 처리함. 이는 모델이 먼저 비트를 고비트로 변경할 필요가 없음을 의미함. 이로 인해 시간과 전력을 절약하여 모델이 더 빠르게 실행되고 에너지를 덜 사용하게 됨. T-MAC을 사용하면 폰과 작은 장치에서 AI 모델을 NPUs와 같은 특수 하드웨어보다 더 빠르게 실행할 수 있음.
T-MAC의 작동 원리: 속도의 혁신
T-MAC의 혁신의 핵심은 전통적인 곱셈-누적(MAC) 접근 방식을 대체하는 룩업 테이블(LUT) 기반의 컴퓨팅 패러다임을 사용하는 것임. 이 패러다임 전환 덕분에 T-MAC은 룩업 테이블을 사용하여 저비트 계산을 직접 수행할 수 있어 다른 시스템에서 요구되는 비효율적인 비양자화 작업을 제거함. 이러한 곱셈 및 덧셈 작업 수의 감소는 T-MAC에서 관찰되는 속도 향상의 핵심임.
예를 들어, 최신 Qualcomm Snapdragon X Elite 칩셋이 장착된 Surface AI PC에서 대형 모델을 실행할 때 T-MAC은 인상적인 결과를 보여줌: 3B BitNet-b1.58 모델은 초당 최대 48개의 토큰을 생성할 수 있었고, 2비트 7B llama 모델은 초당 최대 30개의 토큰, 4비트 7B llama 모델은 초당 최대 20개의 토큰을 생성할 수 있었음. 이러한 수치는 T-MAC의 효율성을 강조할 뿐만 아니라 특정 시나리오에서 NPUs를 초월할 수 있음을 보여줌. 예를 들어, llama-2-7B-4bit 모델을 배포할 때 NPU는 초당 10.4개의 토큰을 생성할 수 있었지만, T-MAC을 사용하는 CPU는 두 개의 코어로 초당 12.6개의 토큰을 생성할 수 있었고, 추가 코어를 사용하면 최대 22개의 토큰을 생성할 수 있었음.
기술적 세부사항: T-MAC이 성능을 최적화하는 방법
T-MAC의 효율성은 비트 중심 관점에서 저비트 행렬 곱셈 계산을 처리하는 능력에 있음. 전통적인 방법과 달리 T-MAC은 다양한 데이터 유형에 대해 개별적으로 맞춤화할 필요 없이 단일 비트에 대한 최적의 데이터 구조를 설계하고 이를 쌓아 올려 더 높은 비트 수준으로 확장함. 이 접근 방식은 계산 과정을 단순화하고 혼합 정밀도 작업과 관련된 복잡성을 줄임.
또한 T-MAC은 CPU에서 매우 효율적인 테이블 조회 명령어(TBL/PSHUF)를 활용하여 무작위 메모리 접근 성능을 크게 향상시킴. 이 기술은 룩업 테이블을 빠른 온칩 메모리에 저장하고, 더 나은 캐시 적중률을 위해 가중치를 재배치하며, 데이터 재사용을 극대화하기 위해 최적의 행렬 타일링 방법을 설계하여 데이터 흐름과 메모리 사용을 최적화함.
성능 벤치마크: T-MAC vs. 전통적인 방법
T-MAC이 구식 방법(예: llama.cpp)과 비교할 때 속도 향상이 뚜렷함. T-MAC은 4비트에서 1비트 수학을 최대 11배 더 빠르게 수행할 수 있으며, 사용된 장치에 따라 다름. 또한 T-MAC은 비트 수가 줄어들수록 잘 확장됨. 이는 모델이 더 적은 비트를 사용할 때도 계속해서 더 빨라질 수 있음을 의미함, 이는 구식 방법에서는 불가능함.
저사양 장치인 라즈베리 파이 5의 경우, T-MAC은 3B BitNet-b1.58 모델에 대해 초당 11개의 토큰을 생성할 수 있음. 이는 T-MAC이 고사양 PC와 저사양 장치 모두에서 잘 작동할 수 있음을 보여주며, AI를 위한 유연하고 강력한 도구임.
전력 효율성: T-MAC으로 에너지 소비 줄이기
속도 이점 외에도 T-MAC은 상당한 전력 효율성 이점을 제공함. 이 기술은 전통적인 방법에 비해 동일한 생성 속도를 달성하는 데 필요한 코어 수를 최대 1/4에서 1/6까지 줄여 에너지 소비를 낮춤. 이 효율성은 배터리 수명과 전력 소비가 중요한 고려 사항인 모바일 및 엣지 장치에서 특히 중요함.
결론: 엣지 장치에서 AI의 미래
T-MAC은 작은 장치에서 AI를 위한 큰 진전을 의미함. 스마트한 룩업 테이블 방식을 사용하여 대형 AI 모델을 더 빠르고 적은 전력으로 실행할 수 있게 해줌. 이는 폰, 작은 PC 및 대형 GPU나 NPU를 위한 공간이나 전력이 없는 다른 장치에서 AI를 사용할 수 있는 새로운 방법을 열어줌.
마이크로소프트 리서치 아시아는 T-MAC을 오픈 소스로 제공하였으므로 누구나 이를 시도하고 자신의 AI 작업에 사용할 수 있음. AI가 계속 성장함에 따라 T-MAC과 같은 도구는 AI를 더 많은 곳으로 가져가고, 모든 종류의 장치에서 더 빠르고 쉽게 사용할 수 있도록 도와줄 것임. 폰에서의 AI의 미래는 밝음, 더 빠른 속도와 더 스마트한 전력 사용 덕분에 T-MAC과 같은 새로운 기술 덕분임.