기술 전문가 팀이 월요일에 인공지능 시스템에 제기할 가장 어려운 질문을 찾기 위해 전 세계에 호출을 발신함.
‘인류의 마지막 시험’이라고 불리는 이 프로젝트는 전문가 수준의 AI가 언제 도달했는지를 판단하고자 함. 이는 향후 몇 년 동안 능력이 발전하더라도 여전히 관련성을 유지하는 것을 목표로 함. 이 프로젝트는 비영리 단체인 AI 안전 센터(CAIS)와 스타트업 Scale AI가 주관함.
이 호출은 ChatGPT의 제작자가 ‘OpenAI o1’이라는 새로운 모델을 미리 공개한 지 며칠 후에 나옴. Dan Hendrycks, CAIS의 전무이사이자 Elon Musk의 xAI 스타트업 고문은 “가장 인기 있는 추론 기준을 파괴했다”고 말함.
Hendrycks는 2021년에 AI 시스템의 테스트를 제안한 두 개의 논문을 공동 저술했으며, 이는 현재 널리 사용되고 있음. 하나는 미국 역사와 같은 주제에 대한 학부 수준의 지식을 퀴즈하는 것이고, 다른 하나는 경쟁 수준의 수학을 통해 모델의 추론 능력을 조사하는 것임. 학부 스타일의 테스트는 온라인 AI 허브 Hugging Face에서 가장 많은 다운로드를 기록함.
그 당시 AI는 시험 질문에 거의 무작위로 답변하고 있었음. “이제는 압도적으로 잘하고 있다”고 Hendrycks는 Reuters에 말함.
예를 들어, AI 연구소 Anthropic의 Claude 모델은 2023년 학부 수준의 테스트에서 약 77%의 점수를 기록했으나, 1년 후에는 거의 89%에 도달함. 이러한 일반적인 기준은 그 결과로 인해 덜 의미가 있음.
AI는 계획 수립 및 시각적 패턴 인식 퍼즐과 관련된 덜 사용되는 테스트에서 저조한 성적을 보였음. 예를 들어, OpenAI o1은 ARC-AGI 테스트의 한 버전에서 약 21%의 점수를 기록함.
일부 AI 연구자들은 이러한 결과가 계획 및 추상적 추론이 지능의 더 나은 척도임을 보여준다고 주장하지만, Hendrycks는 ARC의 시각적 측면이 언어 모델을 평가하는 데 덜 적합하다고 말함. “인류의 마지막 시험”은 추상적 추론을 요구할 것이라고 함.
일반적인 기준에서의 답변이 AI 시스템 훈련에 사용된 데이터에 포함되었을 가능성도 있음. Hendrycks는 “인류의 마지막 시험”의 일부 질문은 AI 시스템의 답변이 암기에서 나오지 않도록 비공개로 유지될 것이라고 말함.
시험은 비전문가가 답하기 어려운 최소 1,000개의 크라우드 소싱 질문을 포함할 것이며, 이는 11월 1일까지 제출되어 동료 검토를 거칠 것임. 우승 제출자는 공동 저자 자격과 함께 Scale AI가 후원하는 최대 5,000달러의 상금을 받을 수 있음.
“우리는 전문가 수준의 모델을 측정하기 위해 더 어려운 테스트가 절실히 필요하다”고 Scale의 CEO Alexandr Wang이 말함.
한 가지 제한 사항: 주최 측은 무기와 관련된 질문은 원하지 않음. 일부는 AI가 연구하기에는 너무 위험할 것이라고 주장함.