과학자들이 인공지능(AI) 에이전트가 인간의 지시 없이 자신의 코드를 수정하고 능력을 향상시킬 수 있는지를 측정하는 새로운 테스트 세트를 설계함.
이 벤치마크는 'MLE-bench'라고 불리며, 75개의 Kaggle 테스트로 구성되어 있음. 각 테스트는 머신러닝 공학을 시험하는 도전 과제임. 이 작업은 AI 모델을 훈련시키고, 데이터 세트를 준비하며, 과학 실험을 수행하는 것을 포함함. Kaggle 테스트는 머신러닝 알고리즘이 특정 작업에서 얼마나 잘 수행되는지를 측정함.
OpenAI 과학자들은 MLE-bench를 설계하여 AI 모델이 '자율 머신러닝 공학'에서 얼마나 잘 수행되는지를 측정함. 이는 AI가 직면할 수 있는 가장 어려운 테스트 중 하나임. 그들은 10월 9일 arXiv 사전 인쇄 데이터베이스에 새로운 벤치마크의 세부 사항을 설명한 논문을 업로드함.
MLE-bench를 구성하는 75개의 테스트에서 좋은 점수를 받은 미래의 AI는 인공지능 일반(AGI) 시스템으로 간주될 수 있음. AGI는 인간보다 훨씬 더 똑똑한 가상의 AI임.
각 MLE-bench 테스트는 실제 세계에서 실질적인 가치를 지님. 예를 들어, OpenVaccine은 COVID-19에 대한 mRNA 백신을 찾는 도전 과제이며, Vesuvius Challenge는 고대 두루마리를 해독하는 과제임.
AI 에이전트가 자율적으로 머신러닝 연구 작업을 수행할 수 있게 된다면, 이는 의료, 기후 과학 및 기타 분야에서 과학적 진전을 가속화하는 등 수많은 긍정적인 영향을 미칠 수 있음. 그러나 통제되지 않으면, 이는 통제할 수 없는 재앙으로 이어질 수 있음.
"에이전트가 고품질 연구를 수행할 수 있는 능력은 경제에서 변혁적인 단계를 나타낼 수 있음. 그러나 자신의 훈련 코드를 개선할 수 있는 수준의 개방형 ML 연구 작업을 수행할 수 있는 에이전트는 인간 연구자보다 훨씬 더 빠르게 최전선 모델의 능력을 향상시킬 수 있음,"이라고 과학자들은 씀. "혁신이 그 영향력을 이해할 수 있는 우리의 능력보다 빠르게 생산된다면, 우리는 재앙적 피해나 오용이 가능한 모델을 개발할 위험이 있음."
그들은 MLE-bench의 '대부분'을 해결할 수 있는 모델은 스스로 많은 개방형 머신러닝 작업을 수행할 수 있을 것이라고 덧붙임.
과학자들은 지금까지 설계된 OpenAI의 가장 강력한 AI 모델인 'o1'을 테스트함. 이 AI 모델은 MLE-bench의 75개 테스트 중 16.9%에서 최소한 Kaggle 동메달 수준을 달성함. 이 수치는 o1이 도전 과제를 수행할 기회를 더 많이 가질수록 개선됨.
동메달을 받는 것은 Kaggle 리더보드에서 인간 참가자의 상위 40%에 해당함. OpenAI의 o1 모델은 MLE-bench에서 평균 7개의 금메달을 달성했으며, 이는 'Kaggle Grandmaster'로 간주되기 위해 필요한 인간보다 2개 더 많은 수치임. 75개의 다양한 Kaggle 대회에서 메달을 획득한 인간은 단 2명뿐임.
연구자들은 MLE-bench를 오픈 소스화하여 AI 에이전트의 머신러닝 공학 능력에 대한 추가 연구를 촉진하고자 함. 이는 다른 연구자들이 자신의 AI 모델을 MLE-bench에 대해 테스트할 수 있도록 함. "궁극적으로, 우리는 우리의 작업이 ML 공학 작업을 자율적으로 수행하는 에이전트의 능력에 대한 더 깊은 이해에 기여하기를 희망함. 이는 미래에 더 강력한 모델을 안전하게 배포하는 데 필수적임,"이라고 결론을 내림.