최근 몇 년간 강력한 생성적 AI 모델의 등장은 기업들이 AI를 사용해 인간의 일자리를 대체하려는 많은 이야기를 낳음.
하지만 최근 뉴욕 타임스의 기사는 AI 모델이 인간의 독특한 기술 세트를 여전히 필요로 하는 작업을 돕는 강력한 도구가 되는 다른 측면을 강조함.
해당 NYT 기사는 AI에 대한 직접적인 내용이 아님. 제목 "트럼프의 선거 거짓말 뒤의 운동 내부"가 암시하듯이, 이 기사는 비당파적인 선거 무결성 네트워크가 "트럼프가 통제하는 공화당 전국 위원회"와 밀접하게 협조하고 있는 방법에 대해 자세히 보도함. 이 기사는 그룹 구성원들이 "좌파"가 선거를 조작하고 있다고 불평하는 녹음과 "민주당원들을 방어적으로 만들기 위한 노력"에 대해 이야기하며, 공화당 투표율을 높이기 위해 청중들에게 도움을 요청하는 내용을 인용함.
이 기사를 보도하기 위해 타임스는 지난 3년간 선거 무결성 네트워크의 주간 회의에서 "400시간 이상의 대화"를 조사했으며, "추가 문서 및 교육 자료"도 포함됨. 이렇게 방대한 정보를 처리하는 것은 네 명의 기자 팀에게도 벅찬 작업임. 그래서 타임스는 기사를 보도하기 위해 "특히 중요한 순간"을 식별하는 데 인공지능을 사용했다고 밝힘.
모든 것을 기계에 전사하게 하다
첫 번째 단계는 자동화된 도구를 사용해 비디오를 전사하는 것이었으며, 그 결과 "거의 500만 단어에 달하는" 전사본이 생성됨. 이는 현재로서는 대담한 새로운 AI 사용법이 아님. 타임스는 2019년에도 Otter.ai의 자동 전사 도구에 대해 보도한 바 있음.
AI 전사의 마지막 경험이 그 정도라면, 기계 전사의 품질과 정확성이 얼마나 발전했는지 모를 수도 있음. Wirecutter의 업데이트된 자동 전사 서비스 가이드는 2018년에 테스트한 최고의 AI 전사 서비스가 73%의 정확도만을 보였던 반면, 2024년에 테스트한 가장 낮은 정확도는 94%였다고 언급함. 더 나아가 Wirecutter는 현재 최고의 시스템인 OpenAI의 Whisper가 "가장 부정확한 인간 전사보다 다소 더 정확하다"고 덧붙임.
이러한 빠른 발전은 말하는 내용을 전사하며 생계를 유지하는 사람들에게는 나쁜 소식임. 하지만 타임스의 기자들처럼 이제 수백 시간의 오디오를 빠르고 정확하게 저렴한 비용으로 전사할 수 있는 기자들에게는 이러한 AI 시스템이 보도 도구 상자에 또 다른 중요한 도구가 됨.
분석은 우리에게 맡겨라?
자동 전사가 완료된 후, NYT 기자들은 여전히 500만 단어의 전사된 텍스트를 읽고 관련 있고 보도할 수 있는 뉴스를 선택하는 어려운 작업에 직면함. 이를 위해 팀은 "여러 대형 언어 모델"을 사용해 "관심 주제를 검색하고, 주목할 만한 게스트를 찾고, 반복되는 주제를 식별"했다고 함.
복잡한 문서 집합을 요약하고 주제를 식별하는 것은 대형 언어 모델의 가장 실용적인 사용 중 하나로 오랫동안 알려져 있음. 예를 들어, 작년에는 Anthropic이 Claude 모델의 확장된 컨텍스트 창을 자랑하며 "위대한 개츠비"의 전체 텍스트를 흡수한 후 질문에 답하거나 그 의미를 분석하는 능력을 보여줌.
하지만 LLM의 텍스트 분석 능력에는 중요한 한계가 있음. 예를 들어, 올해 초 호주 정부의 연구에서는 Meta의 Llama 2가 정부 조사 위원회에 대한 공공 응답을 요약하는 데 인간보다 훨씬 못하다는 결과가 나옴.
일반적으로 이 보고서는 AI 요약이 "맥락, 미묘한 뉘앙스 또는 암시적 의미에 대한 깊은 이해가 필요한 복잡한 내용을 분석하고 요약하는 데 제한된 능력"을 보였다고 결론지음. 더 나아가 Llama 요약은 종종 "문법적으로는 맞지만 사실적으로는 부정확한" 텍스트를 생성해 이러한 도구에 내재된 혼란 문제를 강조함.
LLM/인간 하이브리드 기자
이러한 중요한 한계는 분석 과정에 여전히 인간이 참여하는 것이 왜 중요한지를 강조함. NYT는 LLM을 사용해 "관심 주제"와 "반복되는 주제"를 식별한 후 기자들이 "각 구절을 수동으로 검토하고 각 클립의 의미와 관련성을 판단하기 위해 우리의 판단을 사용했다"고 밝힘. 이 기사의 모든 인용문과 비디오 클립은 원본 녹음과 대조해 정확성을 확인하고 화자의 의미를 올바르게 표현했는지, 발언이 이루어진 맥락을 공정하게 나타냈는지 확인함.
LLM과 인간 분석을 결합한 하이브리드 접근 방식을 사용함으로써 타임스는 양측의 강점을 활용하고 약점을 제한할 수 있음. LLM은 방대한 정보를 빠르게 소화하고 정리하는 능력으로 기자들이 분석할 수 있는 잠재적으로 관련 있는 녹음을 선택하는 데 매우 유용한 첫 번째 단계를 제공함. 기자들은 LLM의 "사실적으로 부정확한" 정보 생성 경향을 확인하고 호주 정부가 발견한 LLM이 일반적으로 할 수 없는 "맥락, 미묘한 뉘앙스 또는 암시적 의미에 대한 깊은 이해"를 제공함.
여기서 생성적 AI는 마치 마약 탐지 개나 트러플 사냥 개와 유사한 역할을 하며, 인간 주인들이 고려할 수 있는 잠재적으로 흥미로운 조각을 지적함. 하지만 자동화된 LLM은 이러한 역할에서 동물만큼 신뢰할 수 없으므로, 인간이 무엇이 관련성이 있거나 정확한지를 다시 확인해야 함.
이 비유는 아마도 과거에 이러한 대규모 보도 작업에 필요했을 인간 전사자와 연구자들에게는 그리 위안이 되지 않을 것임. 그럼에도 불구하고 이제 기자들이 이러한 종류의 연구의 많은 부분을 신속하게 자동화할 수 있게 됨에 따라, 생성적 AI는 이미 또 다른 유용한 디지털 도구로 입증되고 있음.