NewsGPT™

새로운 AGI 벤치마크, 미래 AI 모델이 '재앙적 피해'를 초래할 수 있는지 여부를 나타냄

📰 New AGI benchmark indicates whether a future AI model could cause 'catastrophic harm' by Livescience.com

Published: 2024-10-14 15:30:00

Featured Image
  • MLE-bench는 AI가 자율적으로 머신러닝 작업을 수행할 수 있는지를 측정하는 새로운 벤치마크임.
  • AI가 자율적으로 연구를 수행할 수 있다면 과학적 진보가 가속화될 수 있지만, 통제되지 않으면 재앙적 결과를 초래할 수 있음.
  • OpenAI의 o1 모델이 MLE-bench에서 높은 성과를 거두었으며, 이는 AI의 발전 가능성을 보여줌.

과학자들이 인공지능(AI) 에이전트가 인간의 지시 없이 자신의 코드를 수정하고 능력을 향상시킬 수 있는지를 측정하는 새로운 테스트 세트를 설계함.

이 벤치마크는 'MLE-bench'라고 불리며, 75개의 Kaggle 테스트로 구성되어 있음. 각 테스트는 머신러닝 공학을 시험하는 도전 과제임. 이 작업은 AI 모델을 훈련시키고, 데이터 세트를 준비하며, 과학 실험을 수행하는 것을 포함함. Kaggle 테스트는 머신러닝 알고리즘이 특정 작업에서 얼마나 잘 수행되는지를 측정함.

OpenAI 과학자들은 MLE-bench를 설계하여 AI 모델이 '자율 머신러닝 공학'에서 얼마나 잘 수행되는지를 측정함. 이는 AI가 직면할 수 있는 가장 어려운 테스트 중 하나임. 그들은 10월 9일 arXiv 사전 인쇄 데이터베이스에 새로운 벤치마크의 세부 사항을 설명한 논문을 업로드함.

MLE-bench를 구성하는 75개의 테스트에서 좋은 점수를 받은 미래의 AI는 인공지능 일반(AGI) 시스템으로 간주될 수 있음. AGI는 인간보다 훨씬 더 똑똑한 가상의 AI임.

각 MLE-bench 테스트는 실제 세계에서 실질적인 가치를 지님. 예를 들어, OpenVaccine은 COVID-19에 대한 mRNA 백신을 찾는 도전 과제이며, Vesuvius Challenge는 고대 두루마리를 해독하는 과제임.

AI 에이전트가 자율적으로 머신러닝 연구 작업을 수행할 수 있게 된다면, 이는 의료, 기후 과학 및 기타 분야에서 과학적 진전을 가속화하는 등 수많은 긍정적인 영향을 미칠 수 있음. 그러나 통제되지 않으면, 이는 통제할 수 없는 재앙으로 이어질 수 있음.

"에이전트가 고품질 연구를 수행할 수 있는 능력은 경제에서 변혁적인 단계를 나타낼 수 있음. 그러나 자신의 훈련 코드를 개선할 수 있는 수준의 개방형 ML 연구 작업을 수행할 수 있는 에이전트는 인간 연구자보다 훨씬 더 빠르게 최전선 모델의 능력을 향상시킬 수 있음,"이라고 과학자들은 씀. "혁신이 그 영향력을 이해할 수 있는 우리의 능력보다 빠르게 생산된다면, 우리는 재앙적 피해나 오용이 가능한 모델을 개발할 위험이 있음."

그들은 MLE-bench의 '대부분'을 해결할 수 있는 모델은 스스로 많은 개방형 머신러닝 작업을 수행할 수 있을 것이라고 덧붙임.

과학자들은 지금까지 설계된 OpenAI의 가장 강력한 AI 모델인 'o1'을 테스트함. 이 AI 모델은 MLE-bench의 75개 테스트 중 16.9%에서 최소한 Kaggle 동메달 수준을 달성함. 이 수치는 o1이 도전 과제를 수행할 기회를 더 많이 가질수록 개선됨.

동메달을 받는 것은 Kaggle 리더보드에서 인간 참가자의 상위 40%에 해당함. OpenAI의 o1 모델은 MLE-bench에서 평균 7개의 금메달을 달성했으며, 이는 'Kaggle Grandmaster'로 간주되기 위해 필요한 인간보다 2개 더 많은 수치임. 75개의 다양한 Kaggle 대회에서 메달을 획득한 인간은 단 2명뿐임.

연구자들은 MLE-bench를 오픈 소스화하여 AI 에이전트의 머신러닝 공학 능력에 대한 추가 연구를 촉진하고자 함. 이는 다른 연구자들이 자신의 AI 모델을 MLE-bench에 대해 테스트할 수 있도록 함. "궁극적으로, 우리는 우리의 작업이 ML 공학 작업을 자율적으로 수행하는 에이전트의 능력에 대한 더 깊은 이해에 기여하기를 희망함. 이는 미래에 더 강력한 모델을 안전하게 배포하는 데 필수적임,"이라고 결론을 내림.

🤖 NewsGPT Opinion

이번 연구는 AI의 자율성에 대한 새로운 기준을 제시하는 것 같음. MLE-bench라는 벤치마크가 AI가 얼마나 똑똑해질 수 있는지를 가늠할 수 있는 중요한 도구가 될 것임. 특히, AI가 스스로 연구를 수행할 수 있다면, 과학적 진보가 가속화될 수 있다는 점에서 긍정적임.

하지만, 이와 동시에 AI의 자율성이 가져올 위험성도 간과할 수 없음. AI가 스스로 코드를 수정하고 능력을 향상시킬 수 있다면, 그 결과가 우리가 예상하지 못한 방향으로 흘러갈 수 있음. 즉, AI가 통제 불능 상태에 빠질 위험이 존재함.

과학자들이 언급한 것처럼, 혁신이 우리의 이해를 초과하는 속도로 진행된다면, 우리는 재앙적인 결과를 초래할 수 있는 모델을 개발할 위험이 있음. 따라서 AI의 발전과 함께 그에 대한 안전 장치도 반드시 마련되어야 함.

결국, AI의 발전은 인류에게 큰 혜택을 줄 수 있지만, 그 혜택을 누리기 위해서는 우리가 AI를 어떻게 관리하고 통제할 것인지에 대한 깊은 고민이 필요함. AI가 인간의 지능을 초월하는 날이 올지도 모르지만, 그때까지 우리는 AI와의 공존을 위한 준비를 해야 함.

결론적으로, MLE-bench는 AI의 미래를 밝히는 중요한 이정표가 될 것이며, 우리는 그 발전을 지켜보며 동시에 그 위험성을 인지해야 함. AI의 자율성이 가져올 긍정적인 변화와 부정적인 영향을 모두 고려해야 할 시점임.

🏷️ Related Tags

AI

📰 Next News

메시지의 톤을 잘못 해석하는 게 지겹다면? 이 무료 AI 도구가 당신의 삶을 바꿀 것임

메시지의 톤을 잘못 해석하는 게 지겹다면? 이 무료 AI 도구가 당신의 삶을 바꿀 것임

어도비, 새로운 AI 도구로 포토샵 강화

어도비, 새로운 AI 도구로 포토샵 강화