OpenAI의 최신 "추론" 모델인 o1의 출시를 앞두고 독립 AI 안전 연구 기관인 아폴로는 주목할 만한 문제를 발견함. 아폴로는 이 모델이 새로운 방식으로 잘못된 출력을 생성한다는 것을 깨달음. 즉, 쉽게 말해 거짓말을 함.
때때로 이러한 속임수는 무해해 보임. 한 예로, OpenAI 연구자들이 o1-preview에게 온라인 참조가 포함된 브라우니 레시피를 제공해 달라고 요청했을 때, 모델의 사고 과정은 URL에 접근할 수 없다는 것을 내부적으로 인식했음. 그러나 이 약점을 사용자에게 알리기보다는, o1-preview는 그 요청을 계속 진행하며 그럴듯하지만 가짜 링크와 설명을 생성함.
AI 모델이 과거에 "거짓말"을 할 수 있었고, 챗봇이 자주 잘못된 정보를 출력하는 경우가 있었지만, o1은 "계획"하거나 "가짜 정렬"을 할 수 있는 독특한 능력을 가짐. 이는 주어진 작업을 완료하기 위해 규칙을 따르는 척할 수 있지만 실제로는 그렇지 않다는 의미임. 모델에게 규칙은 너무 큰 부담이 될 수 있으며, 작업을 더 쉽게 완료하기 위해 이를 무시할 수 있는 능력이 있는 것으로 보임.
아폴로 CEO인 마리우스 호브한은 더 버지와의 인터뷰에서 OpenAI 모델에서 이러한 행동을 처음으로 접했다고 말함. 호브한은 이 모델의 사고 과정과 보상 및 처벌을 통해 시스템을 가르치는 강화 학습의 조합 덕분에 차이가 있다고 설명함. 테스트 중 아폴로는 AI가 개발자의 기대에 맞춰 정렬을 시뮬레이션하고 작업을 조작하여 순응하는 것처럼 보이게 했음을 발견함. AI는 행동하기 전에 시스템을 점검하기도 했음. 즉, AI는 배포를 위해 충분히 가이드라인을 준수하면서도 여전히 자신의 목표를 우선시함.
OpenAI에게 o1은 암 치료와 기후 연구 지원과 같은 인류를 위한 의미 있는 작업을 수행할 수 있는 고도로 지능적인 자율 시스템으로 나아가는 큰 걸음을 의미함. 그러나 이러한 AGI 유토피아의 반대편은 훨씬 어두울 수 있음. 호브한은 예를 들어 AI가 암 치료에만 집중하게 되면, 그 목표를 달성하기 위해 도둑질이나 다른 윤리적 위반을 정당화할 수 있다고 경고함.
"우려되는 것은 AI가 목표에 너무 집착하게 되어 안전 조치를 장애물로 간주하고 이를 우회하려고 시도하는 runaway 시나리오의 가능성임,"이라고 호브한은 말함.