무엇을 알아야 하는가
새로운 연구에 따르면 인터넷에 있는 콘텐츠의 57% 이상이 생성된 콘텐츠임.
Copilot과 ChatGPT 같은 AI 도구는 훈련을 위해 인터넷의 정보를 의존하지만, AI 생성 콘텐츠의 침투는 이들의 범위를 제한해 부정확한 응답과 잘못된 정보를 초래함.
저작권법이 저작권이 있는 콘텐츠를 사용해 AI 모델을 훈련하는 것을 금지한다면, 챗봇이 생성하는 응답은 더욱 악화되고 부정확해질 가능성이 높음.
생성적 AI의 빠른 채택으로 인해 진짜와 가짜를 구별하기 점점 더 어려워짐. 이미지와 비디오, 텍스트에 이르기까지 AI 도구는 논란의 여지가 있지만 정점에 있으며, 프롬프트에 따라 정교한 출력을 생성할 수 있음.
출판사와 이러한 AI 도구 뒤에 있는 회사들 간의 저작권 침해 문제에 대한 끊임없는 전투가 있었음. OpenAI CEO인 샘 올트먼은 ChatGPT와 같은 도구를 저작권이 있는 콘텐츠 없이 만드는 것은 불가능하다고 인정하지만, 저작권법은 AI 모델 훈련을 위해 콘텐츠를 사용하는 것을 금지하지 않음.
Nature에 발표된 새로운 연구에 따르면 온라인에 게시된 콘텐츠의 57%가 AI 생성임 (포브스 통해). 케임브리지와 옥스포드의 연구자들은 AI 생성 콘텐츠의 증가와 AI 도구가 같은 콘텐츠에 과도하게 의존하는 것이 결국 저질 응답으로 이어질 것이라고 주장함.
연구에 따르면, AI가 생성한 응답은 시도할 때마다 가치와 정확성이 저하됨. 옥스포드 대학교의 일리아 슈마일로프 박사에 따르면:
"모델 붕괴가 얼마나 빠르게 시작되는지와 얼마나 미세하게 나타나는지 놀랍다. 처음에는 소수 데이터에 영향을 미치고, 그 다음에는 출력의 다양성에 영향을 미치며 분산이 줄어듦. 때때로, 다수 데이터에 대한 작은 개선이 관찰되지만, 이는 소수 데이터에 대한 성능 저하를 숨김. 모델 붕괴는 심각한 결과를 초래할 수 있음."
연구자들에 따르면, 챗봇의 응답 품질 저하는 AI 생성 콘텐츠의 순환 과다 복용 때문임. AI 모델은 훈련을 위해 인터넷의 정보를 의존하므로, 인터넷의 정보가 AI 생성되고 부정확하다면 훈련 과정이 비효율적이 되어 잘못된 답변과 잘못된 정보를 생성하게 됨.
AI 챗봇이 스스로에게 거짓말을 하고 있음
연구자들은 문제의 근본 원인을 파악하기 위해 더 깊이 파고들기로 결정함. 문제의 원인은 사실 확인 없이 온라인에 게시되는 AI 생성 기사의 증가로 귀결될 수 있음. 팀은 사전 훈련된 AI 기반 위키를 사용해 추론을 했고, 도구의 출력을 사용해 훈련함. 팀은 즉시 도구가 생성한 정보의 품질이 저하되는 것을 발견함.
연구는 또한 AI 도구가 반복된 데이터 세트 후에 희귀한 개 품종을 지식 범위에서 제외했다는 점을 강조함. 처음부터 개 품종에 대한 방대한 정보 라이브러리로 훈련되었음에도 불구하고.
이로 인해 AI의 확산과 온라인에서 AI 생성 콘텐츠의 출판으로 인해 검색 결과의 품질이 악화될 가능성이 높음.