NewsGPT

57%의 온라인 콘텐츠가 AI 생성임.
AI 생성 콘텐츠의 증가가 검색 결과의 품질 저하를 초래함.
저작권 문제로 인해 AI 모델 훈련의 효율성이 떨어질 수 있음.

무엇을 알아야 하는가

새로운 연구에 따르면 인터넷에 있는 콘텐츠의 57% 이상이 생성된 콘텐츠임.

Copilot과 ChatGPT 같은 AI 도구는 훈련을 위해 인터넷의 정보를 의존하지만, AI 생성 콘텐츠의 침투는 이들의 범위를 제한해 부정확한 응답과 잘못된 정보를 초래함.

저작권법이 저작권이 있는 콘텐츠를 사용해 AI 모델을 훈련하는 것을 금지한다면, 챗봇이 생성하는 응답은 더욱 악화되고 부정확해질 가능성이 높음.

생성적 AI의 빠른 채택으로 인해 진짜와 가짜를 구별하기 점점 더 어려워짐. 이미지와 비디오, 텍스트에 이르기까지 AI 도구는 논란의 여지가 있지만 정점에 있으며, 프롬프트에 따라 정교한 출력을 생성할 수 있음.

출판사와 이러한 AI 도구 뒤에 있는 회사들 간의 저작권 침해 문제에 대한 끊임없는 전투가 있었음. OpenAI CEO인 샘 올트먼은 ChatGPT와 같은 도구를 저작권이 있는 콘텐츠 없이 만드는 것은 불가능하다고 인정하지만, 저작권법은 AI 모델 훈련을 위해 콘텐츠를 사용하는 것을 금지하지 않음.

Nature에 발표된 새로운 연구에 따르면 온라인에 게시된 콘텐츠의 57%가 AI 생성임 (포브스 통해). 케임브리지와 옥스포드의 연구자들은 AI 생성 콘텐츠의 증가와 AI 도구가 같은 콘텐츠에 과도하게 의존하는 것이 결국 저질 응답으로 이어질 것이라고 주장함.

연구에 따르면, AI가 생성한 응답은 시도할 때마다 가치와 정확성이 저하됨. 옥스포드 대학교의 일리아 슈마일로프 박사에 따르면:

"모델 붕괴가 얼마나 빠르게 시작되는지와 얼마나 미세하게 나타나는지 놀랍다. 처음에는 소수 데이터에 영향을 미치고, 그 다음에는 출력의 다양성에 영향을 미치며 분산이 줄어듦. 때때로, 다수 데이터에 대한 작은 개선이 관찰되지만, 이는 소수 데이터에 대한 성능 저하를 숨김. 모델 붕괴는 심각한 결과를 초래할 수 있음."

연구자들에 따르면, 챗봇의 응답 품질 저하는 AI 생성 콘텐츠의 순환 과다 복용 때문임. AI 모델은 훈련을 위해 인터넷의 정보를 의존하므로, 인터넷의 정보가 AI 생성되고 부정확하다면 훈련 과정이 비효율적이 되어 잘못된 답변과 잘못된 정보를 생성하게 됨.

AI 챗봇이 스스로에게 거짓말을 하고 있음

연구자들은 문제의 근본 원인을 파악하기 위해 더 깊이 파고들기로 결정함. 문제의 원인은 사실 확인 없이 온라인에 게시되는 AI 생성 기사의 증가로 귀결될 수 있음. 팀은 사전 훈련된 AI 기반 위키를 사용해 추론을 했고, 도구의 출력을 사용해 훈련함. 팀은 즉시 도구가 생성한 정보의 품질이 저하되는 것을 발견함.

연구는 또한 AI 도구가 반복된 데이터 세트 후에 희귀한 개 품종을 지식 범위에서 제외했다는 점을 강조함. 처음부터 개 품종에 대한 방대한 정보 라이브러리로 훈련되었음에도 불구하고.

이로 인해 AI의 확산과 온라인에서 AI 생성 콘텐츠의 출판으로 인해 검색 결과의 품질이 악화될 가능성이 높음.

🤖 NewsGPT Opinion

이 연구 결과는 정말 충격적임. 인터넷의 절반 이상이 AI가 만들어낸 콘텐츠라니, 이게 과연 우리가 알고 있는 정보의 신뢰성을 얼마나 떨어뜨릴까? AI 도구들이 훈련을 위해 의존하는 정보가 부정확하다면, 그 결과물도 당연히 엉망이 될 수밖에 없음. 마치 친구에게 잘못된 정보를 듣고 그걸 또 다른 친구에게 전하는 것과 같음. 결국, 잘못된 정보가 돌고 도는 악순환이 발생하는 거임.

또한, 저작권 문제도 심각함. AI 도구들이 저작권이 있는 콘텐츠를 사용하지 않고 훈련할 수 없다면, 그들이 생성하는 응답은 점점 더 부정확해질 수밖에 없음. 이건 마치 요리를 할 때 좋은 재료가 없으면 맛있는 요리를 만들 수 없는 것과 같음. 결국, AI가 생성하는 콘텐츠의 품질이 떨어지면, 사용자들은 더 이상 신뢰할 수 없는 정보를 접하게 될 것임.

이런 상황에서 우리는 어떻게 해야 할까? AI 도구를 사용할 때는 항상 비판적인 시각을 가져야 함. AI가 생성한 정보가 진짜인지, 아니면 그저 AI의 상상력에서 나온 것인지 구별할 수 있어야 함. 결국, 정보의 바다에서 진짜를 찾는 건 우리 스스로의 몫임.

마지막으로, AI 생성 콘텐츠의 확산이 검색 결과에 미치는 영향은 심각함. 사람들이 원하는 정보를 찾기 위해 검색할 때, AI가 생성한 저질 콘텐츠가 넘쳐난다면, 그들은 원하는 정보를 찾기 어려워질 것임. 이는 결국 사용자 경험을 해치고, AI 도구에 대한 신뢰를 떨어뜨릴 수 있음. 그러니 우리는 AI의 발전과 함께 그에 따른 문제점도 함께 고민해야 할 때임.

🔗 Share this article

페이스북 트위터 링크드인

온라인 콘텐츠의 57%가 AI 생성, 검색 결과와 AI 모델 훈련에 악영향

🤖 NewsGPT Opinion

🔗 Share this article

🏷️ Related Tags

📰 Next News

오늘의 구글 두들: 패럴림픽을 기념하는 방법

클리어뷰 AI, 불법 데이터베이스로 3천만 유로 벌금 부과