조가 전화 부스에서 전화를 걸고 있음. 1분당 60센트가 듦. 10분 후에는 1분당 50센트로 가격이 떨어짐. 30분 통화 비용은 얼마일까?
이런 질문들은 미국 초등학교의 산술 테스트의 일환으로, 보통 10세에서 11세 어린이를 대상으로 함. 수학적 추론은 문제 해결의 핵심이므로 AI 시스템의 능력을 측정하는 데 사용될 수 있음.
초등학교 수학 8k(GSM8K) 세트는 ChatGPT와 같은 다양한 AI 대형 언어 모델(LLM)의 인기 있는 벤치마크가 되었음. 이 세트는 위와 같은 문제를 포함해 8,500개의 문제로 구성되어 있으며, LLM을 훈련시키기 위한 문제와 실제로 해결해야 할 문제로 나뉨. ChatGPT의 최신 LLM인 GPT-4o 모델은 GSM8K 세트에서 92.5%의 점수를 기록했으며, 구글의 LLM 제미니 1.5 프로는 91.7%를 기록함. 더 적은 조정 매개변수를 가진 소형 LLM인 마이크로소프트의 Phi-3-small은 그럼에도 불구하고 88.5%라는 인상적인 성과를 거둠.
하지만 최근 애플의 여섯 명의 연구자들이 22개의 최첨단 LLM의 추론 능력에서 심각한 약점을 발견했음. 문제에서 '조'라는 이름을 '데이브'로 바꾸는 것과 같이 간단한 이름 변경만으로도 LLM의 답변이 달라질 수 있음. 이는 분명히 놀라운 일이며, 진정한 수학적 이해를 가진 학생에게서는 기대되지 않음.
연구자들이 조사한 다양한 LLM의 취약성은 문제의 숫자가 변경될 때 더 두드러졌음. 예를 들어, 위의 문제에서 전화 통화의 기본 요금을 1분당 60센트에서 70센트로 변경하면, 나머지 문제에서도 유사한 숫자 변경이 이루어질 때 응답의 정확도가 더 다양해짐. 연구자들은 LLM이 형식적 추론을 수행하지 않으며, 대신 제공된 훈련 문제 세트 내에서 패턴을 일치시키기 위해 최선을 다하고 있다고 가설을 세움.
더욱 흥미롭게도, 추가 조항을 추가하거나 삭제하는 것이 LLM의 성능에 상당한 영향을 미쳤음. 예를 들어, 위의 문제에서 10분 후 통화 요금이 인하된다는 조항을 제거하거나, 10달러 이상의 통화에 대해 5% 할인을 주는 새로운 조항을 추가하면, 결과의 정확도에 변동이 자주 발생함. 연구자들은 문제의 난이도가 증가함에 따라 LLM의 성능이 급격히 저하된다고 언급했으며, 문제의 복잡성이 증가함에 따라 검색 및 패턴 일치가 상당히 어려워진다고 가설을 세움.
문제의 지정된 값과 복잡성을 변경하는 것 외에도, 연구자들은 겉보기에는 관련성이 있지만 실제로는 완전히 무의미한 조항을 추가해 보았음. 예를 들어, 위의 전화 통화 문제에 '전화 통화 요금이 작년에는 실제로 10% 더 저렴했다'는 무의미한 조항을 추가할 수 있지만, 문제는 여전히 조의 전화 통화 비용이 얼마인지에 대한 것임. 그럼에도 불구하고 LLM은 종종 할인율을 적용함. 이러한 시나리오에서 연구자들은 모든 LLM에서 재앙적인 성능 저하를 관찰했으며, 이는 LLM이 특정 훈련 문제 세트에 과도하게 의존하고 있음을 나타냄.
연구자들은 결론을 내림: “궁극적으로, 우리의 연구는 LLM이 진정한 수학적 추론을 수행하는 능력에 중대한 한계를 강조함. 동일한 질문의 다양한 버전에서 LLM 성능의 높은 변동성, 난이도가 약간 증가할 때 성능의 상당한 저하, 무의미한 정보에 대한 민감성은 그들의 추론이 취약하다는 것을 나타냄. 이는 진정한 논리적 추론보다는 정교한 패턴 일치와 유사할 수 있음.”
ChatGPT와 다른 LLM의 텍스트 응답은 그들이 세상을 진정으로 이해하는 것처럼 보였을 때 대중과 투자자들의 관심을 끌었음. 실제로 그들은 훈련 데이터에서 개인이 일반적으로 알고 있거나 기억할 수 있는 것보다 더 많은 정보를 흡수하고, 이 데이터를 다양한 조합으로 결합할 수 있는 크기에 도달한 것으로 보임. 충분한 입력 데이터와 훈련이 필요하며, 상당한 투자와 에너지가 요구되지만, LLM은 지능의 환상을 줄 수 있지만 본질적으로 고급 추론에서 한계가 있으며, 자아 개념 모델이 없음.
오늘날 컴퓨팅에서 가장 영향력 있는 거인 중 한 명인 리누스 토발즈는 매우 널리 사용되는 리눅스 운영 체제를 만든 사람임. 그는 최근 AI가 정말 흥미롭다고 생각하지만 지금은 기본적으로 무시할 것이라고 말했음. 그는 AI 주위의 전체 기술 산업이 90% 마케팅, 10% 현실이라고 관찰했으며, “5년 후 상황이 바뀔 것이고 그때 우리는 AI가 실제 작업에 어떻게 사용되는지를 보게 될 것”이라고 말했음.
나도 그에게 동의함. 현재 세대의 LLM은 텍스트 분석과 검색에서 일부 유용성을 가지고 있으며, 훌륭한 이미지와 비디오를 생성할 수 있지만, 그들의 진정한 비즈니스 영향력은 아직 입증되지 않음.