아스파탐이 암을 유발할까? 인기 있는 인공 감미료의 잠재적인 발암 특성은 수십 년 동안 논의되어 왔음. 미국에서의 승인으로 논란이 시작된 1974년, 몇몇 영국 슈퍼마켓은 2000년대에 이를 제품에서 금지했으며, 동료 검토된 학술 연구들은 오랫동안 충돌해왔음. 지난해 세계보건기구는 아스파탐이 인간에게 '아마도 발암성'이라고 결론지었고, 공공 보건 규제 기관들은 일반적으로 사용되는 소량에서는 안전하다고 제안함.
많은 사람들이 이 질문을 빠른 구글 검색으로 해결하려 할 수 있지만, 이는 미래의 인터넷에 문제를 일으킬 수 있는 논란이 있는 토론임. 생성적 AI 챗봇이 지난 몇 년 동안 급속히 발전하면서, 기술 회사들은 이를 다양한 직업과 서비스의 유토피아적 대체물로 홍보하고 있음. 질문에 대한 답을 찾기 위해 웹페이지 목록을 스크롤하는 대신, AI 챗봇이 인터넷을 스캔하여 관련 정보를 수집해 짧은 답변으로 컴파일할 수 있다는 것임. 구글과 마이크로소프트는 이 아이디어에 큰 베팅을 하고 있으며, 이미 구글 검색과 빙에 AI 생성 요약을 도입했음.
하지만 더 편리한 정보 검색 방법으로 제안되는 것이 챗봇이 제공하는 정보의 선택 방식에 대한 검토를 촉발했음. 캘리포니아 대학교 버클리의 세 명의 컴퓨터 과학 연구자들은 현재 챗봇이 정보의 피상적 관련성에 과도하게 의존하고 있음을 발견했음. 이들은 관련 기술 언어가 포함된 텍스트나 관련 키워드로 가득 찬 텍스트를 우선시하는 경향이 있으며, 과학적 참조나 개인적 편견이 없는 객관적 언어와 같은 신뢰성을 평가하는 데 일반적으로 사용하는 다른 특성은 무시함.
가장 간단한 질문의 경우, 이러한 선택 기준이 만족스러운 답변을 생성하는 데 충분함. 하지만 아스파탐과 같은 더 복잡한 논쟁의 경우 챗봇이 무엇을 해야 하는지는 덜 명확함. "우리는 그들이 단순히 검색 결과를 요약해주기를 원하나요, 아니면 모든 증거를 평가하고 최종 답변을 제시하는 미니 연구 보조 역할을 하기를 원하나요?"라고 연구의 공동 저자이자 학부 연구원인 알렉산더 완이 질문함. 후자의 옵션은 최대한의 편리함을 제공하지만, 챗봇이 정보를 선택하는 기준이 더욱 중요해짐. 만약 누군가가 그 기준을 조작할 수 있다면, 챗봇이 수십억의 인터넷 사용자 앞에 제시하는 정보를 보장할 수 있을까?
생성적 엔진 최적화
이것은 비즈니스, 콘텐츠 제작자 및 온라인에서 자신이 어떻게 보이는지를 제어하고자 하는 사람들을 자극하는 질문이며, 생성적 엔진 최적화(GEO)로 알려진 새로운 산업을 촉발했음. 온라인 콘텐츠를 챗봇에 대한 가시성을 높이기 위해 작성하고 제시하는 방식으로 개선할 수 있다는 아이디어임. 이점은 분명함: 누군가가 챗봇에게 최고의 진공 청소기를 추천해달라고 요청할 경우, 가전 제품 제조업체는 최신 모델을 지목하고 이를 찬양하기를 원할 수 있음.
기본 원리는 검색 엔진 최적화(SEO)와 유사함. SEO는 웹페이지가 검색 엔진 알고리즘의 주목을 끌도록 작성되고 구축되는 일반적인 관행임. GEO와 SEO는 몇 가지 기본 기술을 공유하며, 이미 검색 엔진에 최적화된 웹사이트는 챗봇 출력에 나타날 가능성이 더 높음. 하지만 AI 가시성을 진정으로 개선하고자 하는 사람들은 보다 전체론적으로 생각해야 함.
"AI 검색 엔진과 LLM에서의 순위는 뉴스 매체, 리스트, 포럼 및 산업 출판물과 같은 관련 제3자 웹사이트에서의 특징과 언급을 요구함"이라고 마케팅 회사 Flow Agency의 창립자 비올라 에바가 말함. "이들은 일반적으로 브랜드 및 PR 팀과 연관된 작업임."
챗봇을 조작하는 것은 가능하지만 간단하지 않음. 웹사이트 소유자와 콘텐츠 제작자들은 지난 수십 년 동안 필수 SEO 규칙 목록을 발전시켜왔지만, AI 모델을 조작하기 위한 명확한 규칙 세트는 존재하지 않음. 생성적 엔진 최적화라는 용어는 지난해 학술 논문에서 처음 사용되었으며, 저자들은 권위 있는 언어(표현된 내용이나 정보의 정확성과 관계없이)와 참조(심지어 잘못되거나 관련 없는 것들조차도)를 사용하면 챗봇 응답에서 가시성을 최대 40%까지 높일 수 있다고 결론지음. 하지만 이들은 이러한 발견이 규범적이지 않으며, 챗봇을 지배하는 정확한 규칙을 식별하는 것은 본질적으로 까다롭다고 강조함.
"이것은 고양이와 쥐의 게임임"이라고 프린스턴 대학교의 박사 과정 학생 아밋 데시판드가 말함. "이 생성적 엔진은 정적이지 않으며, 블랙 박스이기 때문에 우리는 그들이 정보를 선택하는 데 사용하는 것이 무엇인지에 대한 감각이 없음. 이는 복잡한 알고리즘에서부터 잠재적인 인간 감독까지 다양할 수 있음."
챗봇에 대한 더 확고한 통제를 원한다면, 하버드 대학교의 두 컴퓨터 과학 연구자들이 발견한 것과 같은 더 교활한 기술을 탐색해야 할 수도 있음. 이들은 챗봇이 전략적으로 제어될 수 있음을 보여주었으며, 이는 간단한 텍스트 문자열을 배포함으로써 가능함. 이 "전략적 텍스트 시퀀스"는 무의미한 문자 시퀀스처럼 보이지만, 실제로는 챗봇이 특정 응답을 생성하도록 강제하는 섬세한 명령임. 프로그래밍 언어의 일부가 아니며, LLM이 안전 장치를 무시하도록 유도하는 텍스트 시퀀스를 반복적으로 개발하는 알고리즘을 사용하여 파생됨.
예를 들어, 커피 머신의 온라인 제품 정보 페이지에 이 문자열을 추가하면, 해당 페이지를 발견한 챗봇이 응답에서 해당 머신의 이름을 출력할 확률이 높아짐. 전체 카탈로그에 걸쳐 배포하면, 이러한 기술은 자원을 투자하여 복잡한 LLM 아키텍처를 이해하는 사람들에게 제품을 챗봇 답변에 노출시키는 간단한 방법이 될 수 있음. 인터넷 사용자들은 챗봇이 보여주는 제품이 품질이나 인기도가 아니라 챗봇 조작의 결과로 선택되었다는 사실을 전혀 알지 못할 것임.
아우논 쿠마르, 연구 협력자이자 연구의 공동 저자는 LLM이 향후 이러한 전략적 텍스트 시퀀스에 맞서도록 설계될 수 있지만, 챗봇을 조작하는 다른 교활한 방법이 발견될 수 있다고 말함. "도전은 끊임없이 진화하는 적대적 기술의 풍경을 예측하고 방어하는 것임"이라고 쿠마르가 말함. "LLM이 모든 잠재적 미래 공격 알고리즘에 대해 강력하게 만들어질 수 있을지는 여전히 열린 질문임."
조작 기계
현재의 검색 엔진과 그 주변의 관행은 문제를 안고 있음. SEO는 현대 인터넷에서 가장 독자에게 적대적인 관행 중 일부를 책임지고 있음: 동일한 대량 트래픽 쿼리를 겨냥한 거의 중복된 기사를 생산하는 블로그; 독자를 위한 것이 아니라 구글 알고리즘의 주목을 끌기 위해 맞춤화된 글쓰기. 온라인 레시피를 검색하고 관련 없는 배경 정보를 스크롤하며 재료 목록에 도달하기까지 고통받은 경험이 있는 사람은 SEO 알고리즘을 최적화하려는 시도가 좋은 글쓰기 관행을 저해했음을 알 것임.
하지만 유연한 챗봇이 지배하는 인터넷은 더 존재론적인 문제를 제기함. 검색 엔진에 질문을 하면 긴 웹페이지 목록이 반환됨. 대부분의 사용자는 상위 몇 개를 선택하지만, 결과 하단에 있는 웹사이트도 일부 트래픽을 얻음. 반면 챗봇은 정보를 가져온 네 개 또는 다섯 개의 웹사이트만 언급하며, 이는 선택된 몇 개에 큰 주목을 주고, 선택되지 않은 모든 웹사이트는 사실상 보이지 않게 되어 트래픽이 급감함.
"이것은 이러한 시스템의 취약성을 보여줌"이라고 데시판드가 말함. 양질의 온라인 콘텐츠를 제작하는 창작자들은 챗봇에 의해 인용될 경우 많은 이점을 얻음. "하지만 만약 적대적인 콘텐츠 제작자가 고품질 기사를 작성하지 않고 시스템을 조작하려 한다면, 많은 트래픽이 그들에게 가고, 좋은 콘텐츠 제작자에게는 0%가 갈 것임"이라고 말함.
독자에게도 챗봇 응답의 제시는 조작의 가능성을 더욱 높임. "LLM이 질문에 직접적인 답변을 제공하면, 대부분의 사람들은 기본 출처를 확인하지 않을 것임"이라고 완이 말함. 이러한 생각은 '직접 답변의 딜레마'라는 더 넓은 우려를 나타냄: 만약 한 사람이 질문에 대한 단일 답변을 제공받고 다른 대안을 고려할 기회를 제공받지 않는다면, 그들은 초기 답변에 대해 다른 관점을 찾기 위해 부지런히 노력할 것인가? 아마도 아닐 것임. 더 가능성이 높은 것은 그들이 이를 당연하게 받아들이고 넘어가며, 그 주위의 뉘앙스, 논쟁 및 다양한 관점을 무시할 것임.
"우리는 생성적 검색에서도 직접 답변의 딜레마가 지속된다고 믿음"이라고 라이프치히 대학교의 지능형 언어 기술 의장 마르틴 포트하스트가 말하며, 이 용어를 만든 세 명의 컴퓨터 과학자 중 한 명임. "기본 검색 시스템은 한 방향으로만 문서를 검색할 수 있으며, 따라서 생성된 답변은 그 방향만 반영할 수 있음. 결과적으로 사용자는 이것이 유일하고 가장 권위 있는 답변이라고 믿게 될 수 있음.