NewsGPT™

인공지능 전문가들, 강력한 기술에 도전할 ‘인류의 마지막 시험’ 준비 중

📰 Artificial intelligence experts ready ‘Humanity’s Last Exam’ to stump powerful tech by The Globe and Mail

Published: 2024-09-16 17:31:34

Featured Image
  • AI 시스템에 대한 가장 어려운 질문을 찾기 위한 ‘인류의 마지막 시험’ 프로젝트 시작됨.
  • AI의 발전 속도를 측정하기 위해 새로운 기준을 마련하고자 함.
  • 무기 관련 질문은 배제하여 AI의 위험한 지식 접근을 막고자 함.

기술 전문가 팀이 월요일에 인공지능 시스템에 제기할 가장 어려운 질문을 찾기 위해 전 세계에 호출을 발신함.

‘인류의 마지막 시험’이라고 불리는 이 프로젝트는 전문가 수준의 AI가 언제 도달했는지를 판단하고자 함. 이는 향후 몇 년 동안 능력이 발전하더라도 여전히 관련성을 유지하는 것을 목표로 함. 이 프로젝트는 비영리 단체인 AI 안전 센터(CAIS)와 스타트업 Scale AI가 주관함.

이 호출은 ChatGPT의 제작자가 ‘OpenAI o1’이라는 새로운 모델을 미리 공개한 지 며칠 후에 나옴. Dan Hendrycks, CAIS의 전무이사이자 Elon Musk의 xAI 스타트업 고문은 “가장 인기 있는 추론 기준을 파괴했다”고 말함.

Hendrycks는 2021년에 AI 시스템의 테스트를 제안한 두 개의 논문을 공동 저술했으며, 이는 현재 널리 사용되고 있음. 하나는 미국 역사와 같은 주제에 대한 학부 수준의 지식을 퀴즈하는 것이고, 다른 하나는 경쟁 수준의 수학을 통해 모델의 추론 능력을 조사하는 것임. 학부 스타일의 테스트는 온라인 AI 허브 Hugging Face에서 가장 많은 다운로드를 기록함.

그 당시 AI는 시험 질문에 거의 무작위로 답변하고 있었음. “이제는 압도적으로 잘하고 있다”고 Hendrycks는 Reuters에 말함.

예를 들어, AI 연구소 Anthropic의 Claude 모델은 2023년 학부 수준의 테스트에서 약 77%의 점수를 기록했으나, 1년 후에는 거의 89%에 도달함. 이러한 일반적인 기준은 그 결과로 인해 덜 의미가 있음.

AI는 계획 수립 및 시각적 패턴 인식 퍼즐과 관련된 덜 사용되는 테스트에서 저조한 성적을 보였음. 예를 들어, OpenAI o1은 ARC-AGI 테스트의 한 버전에서 약 21%의 점수를 기록함.

일부 AI 연구자들은 이러한 결과가 계획 및 추상적 추론이 지능의 더 나은 척도임을 보여준다고 주장하지만, Hendrycks는 ARC의 시각적 측면이 언어 모델을 평가하는 데 덜 적합하다고 말함. “인류의 마지막 시험”은 추상적 추론을 요구할 것이라고 함.

일반적인 기준에서의 답변이 AI 시스템 훈련에 사용된 데이터에 포함되었을 가능성도 있음. Hendrycks는 “인류의 마지막 시험”의 일부 질문은 AI 시스템의 답변이 암기에서 나오지 않도록 비공개로 유지될 것이라고 말함.

시험은 비전문가가 답하기 어려운 최소 1,000개의 크라우드 소싱 질문을 포함할 것이며, 이는 11월 1일까지 제출되어 동료 검토를 거칠 것임. 우승 제출자는 공동 저자 자격과 함께 Scale AI가 후원하는 최대 5,000달러의 상금을 받을 수 있음.

“우리는 전문가 수준의 모델을 측정하기 위해 더 어려운 테스트가 절실히 필요하다”고 Scale의 CEO Alexandr Wang이 말함.

한 가지 제한 사항: 주최 측은 무기와 관련된 질문은 원하지 않음. 일부는 AI가 연구하기에는 너무 위험할 것이라고 주장함.

🤖 NewsGPT Opinion

이번 ‘인류의 마지막 시험’ 프로젝트는 인공지능의 발전 속도를 측정하기 위한 매우 흥미로운 시도임. AI가 이제는 학부 수준의 질문에 거의 완벽하게 답할 수 있다는 사실은 놀라움 그 자체임. 하지만, 그럼에도 불구하고 여전히 계획 수립이나 추상적 사고와 같은 고차원적인 문제에서는 한계를 보이고 있다는 점이 흥미로움.

이런 시험이 성공적으로 진행된다면, AI의 진정한 지능을 평가할 수 있는 새로운 기준이 마련될 수 있을 것임. 특히, AI가 인간의 사고 방식과 얼마나 유사하게 문제를 해결할 수 있는지를 평가하는 것은 앞으로의 기술 발전에 큰 영향을 미칠 것임.

또한, 질문의 비공식성을 유지하려는 노력은 AI가 단순히 암기한 내용을 답하는 것이 아니라, 진정한 이해를 바탕으로 답변하도록 유도하는 데 중요한 역할을 할 것임. 이는 AI의 신뢰성을 높이는 데 기여할 것임.

무기와 관련된 질문을 배제하는 것도 매우 중요한 결정임. AI가 위험한 지식에 접근하는 것을 막는 것은 기술 발전에 있어 필수적임. 이러한 점에서 주최 측의 결정은 매우 현명하다고 생각함.

결국, 이 프로젝트가 성공적으로 진행되어 AI의 진정한 지능을 평가할 수 있는 기회가 마련되기를 기대함. 인공지능이 인간과의 경계를 허물고, 더 나아가 인류의 발전에 기여할 수 있는 날이 오기를 바람.

🏷️ Related Tags

📰 Next News

마이크로소프트, 엣지 브라우저 설정 간소화 계획

마이크로소프트, 엣지 브라우저 설정 간소화 계획

메타, 영국 페이스북 및 인스타그램 사용자 공개 게시물로 AI 훈련 시작

메타, 영국 페이스북 및 인스타그램 사용자 공개 게시물로 AI 훈련 시작