과학 소설은 인공지능이 반란을 일으키고 인간 창조자에게 반기를 드는 이야기로 가득 차 있음. HAL-9000, 매트릭스, 스카이넷, GLaDOS, 사이론. 인류는 기계의 반란에 대한 깊은 두려움을 가지고 있음.
점점 더 정교해지는 대형 언어 모델(LLM), 예를 들어 Chat GPT의 등장으로 AI가 어떤 위험을 초래할 수 있는지에 대한 질문이 더욱 중요해짐.
그리고 이제 좋은 소식이 있음. 독일 다름슈타트 기술대학교의 컴퓨터 과학자 이리나 구레비치와 영국 바스대학교의 하리시 타이야르 마다부시가 이끄는 새로운 연구에 따르면, 이러한 모델은 반란을 일으킬 수 없다고 함.
사실, 이들은 프로그래밍에 의해 너무 제한되어 있어 지시 없이 새로운 기술을 습득할 수 없으며, 따라서 인간의 통제 하에 남아 있음.
이는 우리가 모델을 악의적인 목적으로 사용할 수는 있지만, LLM 자체는 걱정 없이 개발할 수 있다는 것을 의미함.
"모델이 점점 커질수록 우리가 현재 예측할 수 없는 새로운 문제를 해결할 수 있을 것이라는 두려움이 있었음. 이는 이러한 대형 모델이 추론 및 계획과 같은 위험한 능력을 습득할 수 있다는 위협을 초래함," 타이야르 마다부시가 말함.
"우리 연구는 모델이 완전히 예기치 않거나 혁신적이며 잠재적으로 위험한 행동을 할 것이라는 두려움이 유효하지 않다는 것을 보여줌."
지난 몇 년 동안 LLM의 정교함이 놀라운 정도로 성장함. 이제 이들은 자연스럽고 인간처럼 보이는 방식으로 텍스트를 통해 비교적 일관된 대화를 할 수 있음.
완벽하지는 않음. 실제로 이들은 지능의 형태가 아니기 때문에 많은 경우 좋은 정보와 나쁜 정보를 구별하는 데 필요한 비판적 기술이 부족함. 하지만 여전히 나쁜 정보를 설득력 있게 전달할 수 있음.
최근 일부 연구자들은 LLM이 의도적으로 프로그래밍된 것이 아니라 독립적으로 emergent abilities를 개발할 가능성을 조사함. 한 예로, 특정 LLM이 사회적 상황에 대한 질문에 명시적으로 훈련받지 않고도 대답할 수 있었음.
관찰된 바에 따르면 LLM이 확장됨에 따라 더 강력해지고 더 많은 작업을 수행할 수 있음. 그러나 이러한 확장이 우리가 준비하지 못한 행동의 위험을 내포하는지 여부는 불확실함. 그래서 연구자들은 이러한 사례가 진정으로 emergent인지, 아니면 프로그램이 코드의 경계 내에서 복잡하게 작동하는 것인지 조사함.
그들은 네 가지 다른 LLM 모델을 실험하고, 이전에 emergent로 확인된 작업을 부여함. 그리고 그들은 차별화된 사고의 발전이나 모델이 프로그래밍을 벗어나 행동할 수 있는 능력에 대한 증거를 발견하지 못함.
네 가지 모델 모두 지시를 따르는 능력, 기억력, 언어 능력이 LLM이 보여주는 모든 능력을 설명할 수 있었음. 프로그래밍을 벗어나는 일은 없었음. LLM 자체에 대해 두려워할 필요는 없음.
반면 사람들은 덜 신뢰할 수 있음. AI의 폭발적인 사용은 더 많은 에너지를 요구하고 저작권, 신뢰, 디지털 오염을 피하는 방법 등 모든 것을 도전하게 만듦. 이는 진정한 문제로 성장하고 있음.
"우리의 결과는 AI가 전혀 위협이 아니라는 것을 의미하지 않음," 구레비치가 말함.
"오히려 우리는 특정 위협과 관련된 복잡한 사고 기술의 출현이 증거로 뒷받침되지 않으며, LLM의 학습 과정을 잘 통제할 수 있다는 것을 보여줌. 따라서 향후 연구는 모델이 생성할 수 있는 가짜 뉴스와 같은 다른 위험에 초점을 맞춰야 함."