이 게시물은 Lifehacker의 "AI 폭로" 시리즈의 일부임. 우리는 AI가 생성한 미디어의 여섯 가지 유형을 탐구하고, 인공 콘텐츠와 인간이 만든 콘텐츠를 구별하는 데 도움이 되는 일반적인 특성, 부산물 및 특징을 강조하고 있음.
최근 몇 년 동안 AI 기술은 다른 사람의 목소리를 복제하고 그 "사람"이 원하는 말을 하게 만드는 것을 가능하게 했음. 전문가가 아니어도 가능함: 구글 검색을 통해 바이든 대통령부터 스폰지밥까지 누구든지 당신의 말을 할 수 있게 만들 수 있음. 정말 매혹적이고, 웃기고, 무섭기도 함.
AI 음성 기술은 좋은 용도로 사용될 수 있음: 예를 들어, 애플의 개인 음성 기능은 스스로 말할 수 있는 능력을 잃어가는 사람들을 위해 텍스트를 음성으로 변환할 때 사용할 수 있는 자신의 목소리 버전을 만들 수 있게 해줌. 사람들의 목소리를 보존할 수 있는 능력이 있다는 것은 놀라운 일임. 그래서 일반적인 TTS 음성을 사용하는 대신 그들의 말이 정말로 그들 자신의 목소리처럼 들리게 할 수 있음.
물론, 반대편에는 만연한 잘못된 정보의 잠재력이 존재함. 현재 기술이 너무 쉽게 누구에게나 무엇이든 말하게 만들 수 있을 때, 온라인에서 듣고 있는 것이 실제로 말해진 것인지 어떻게 신뢰할 수 있을까?
AI 음성 생성기가 작동하는 방식
다른 AI 모델들처럼, AI 음성 생성기도 방대한 데이터 세트로 훈련된 모델을 기반으로 함. 이 경우, 모델은 다른 사람들이 말하는 샘플로 훈련됨. 예를 들어, OpenAI의 Whisper 모델은 680,000시간의 데이터로 훈련됨. 그래서 단어 자체를 복제하는 것뿐만 아니라, 어조와 속도와 같은 말의 다른 요소들을 학습함.
모델이 훈련된 후에는, 목소리를 복제하는 데 그렇게 많은 데이터가 필요하지 않음. 모델에 5분 분량의 녹음을 제공할 때 결과에 크게 감명받지 않을 수 있지만, 일부는 그 제한된 훈련 데이터를 닮은 목소리를 출력할 수 있음. 더 많은 데이터를 제공하면 목소리를 더 정확하게 복제할 수 있음.
기술이 발전함에 따라, 위조를 즉시 식별하기가 점점 더 어려워지고 있음. 하지만 대부분의 AI 음성이 가지고 있는 몇 가지 주목할 만한 특성과 결함이 있어, 그것들을 식별하는 것이 진짜인지 가짜인지를 판단하는 데 중요함.
이상한 발음과 속도에 주의
AI 모델은 사람의 목소리 소리를 모방하는 데 꽤 능숙하지만, 우리가 말하는 방식을 복제하는 데는 여전히 어려움을 겪고 있음.
의심스러울 경우, 화자의 "목소리"의 억양을 주의 깊게 들어보라고 권장함: AI 봇은 가끔씩 대부분의 사람들이 하지 않을 방식으로 단어를 잘못 발음할 수 있음. 인간은 항상 잘못 발음하지만, 더 많은 단서를 제공할 수 있는 실수를 주의 깊게 살펴보라고 함. 예를 들어, "collages"는 co-lah-jez에서 co-lah-jez 또는 co-lay-ges로 바뀔 수 있음. 마이크로소프트의 VALL-E 2 모델에서 이러한 정확한 실수를 들을 수 있음.
속도도 영향을 받을 수 있음. AI는 정상적인 말하기 속도를 복제하는 데 점점 더 나아지고 있지만, 단어 사이에 이상한 일시 정지를 하거나 비정상적인 방식으로 다른 단어를 빠르게 지나칠 수 있음. AI 모델은 두 문장 사이의 간격을 무시할 수 있으며, 이는 즉시 드러날 수 있음. (말을 멈추지 못하는 인간조차 그렇게 로봇처럼 들리지 않음.) Eleven Labs의 무료 생성기를 테스트할 때, 한 출력은 첫 번째 문장 "Hey, what's up?"와 두 번째 문장 "Thinking about heading to the movies tonight." 사이에 간격이 없었음. 공정하게도, 대부분의 시도는 간격을 포함했지만, 오디오가 진짜인지 아닌지를 판단할 때 이러한 순간을 주의 깊게 살펴보라고 함.
반대로, 다음 단어나 문장으로 가는 데 너무 오랜 시간이 걸릴 수 있음. AI는 자연스러운 일시 정지와 숨을 복제하는 데 점점 더 나아지고 있지만 (예, 일부 생성기는 이제 말하기 전에 "숨"을 삽입함), 단어 사이에 이상한 일시 정지가 들릴 수 있음. 이는 봇이 인간이 말하는 방식을 그렇게 생각한다고 생각하는 것처럼 들림. 다음에 말할 단어를 생각하는 것처럼 들리면 좋겠지만, 그렇게 들리지 않음. 로봇처럼 들림.
이러한 일시 정지는 올해 초 누군가가 만든 바이든의 딥페이크 오디오에서 들을 수 있음. 그 통화에서 가짜 바이든은 유권자들에게 예비선거에 나타나지 말라고 설득하려고 하며, "이번 화요일에 투표하는 것은 공화당원들이...도널드 트럼프...다시 선출하는 것을 가능하게 할 뿐임."이라고 말함.
목소리의 감정과 변별력이 최소화됨
비슷한 맥락에서, AI 목소리는 다소 평평하게 들림. 많은 AI 목소리가 설득력이 없지는 않지만, 가까이서 들으면 대부분의 인간 화자에게서 기대하는 것보다 음조의 변별력이 적음.
재미있게도, 이러한 모델은 누군가의 목소리 소리를 매우 정확하게 복제할 수 있지만, 화자의 리듬과 감정을 모방하는 데는 종종 실패함. PlayHT의 생성기에서 유명인 예제를 들어보면: 데니 디비토의 예제를 들으면, 그의 목소리를 모방하고 있다는 것은 분명하지만, 그의 특정한 말하는 방식의 고저가 부족함. 변별력이 있는 부분도 있음: 봇이 "오, 데니, 너 이탈리아인이야"라고 말할 때는 충분히 현실감이 있지만, "나는 피사의 사탑에 가본 적이 있어"라는 문장은 그와 일치하지 않음. 녹음의 마지막 단어인 "샌드위치"는 특히 이상하게 들림. 페이지 아래쪽의 잭 갈리피아나키스 녹음도 유사한 문제를 가지고 있음: "음"을 사용하는 몇 가지 설득력 있는 사용이 있지만, 샘플의 대부분은 감정이나 억양이 없음.
다시 말하지만, 여기서도 빠르게 발전하고 있음. OpenAI와 같은 회사들은 그들의 모델이 음성 출력에서 더 표현적이고 반응적이 되도록 훈련하고 있음. GPT-4o의 고급 음성 모드는 아마도 모든 면에서 설득력 있는 AI 목소리를 만드는 데 가장 가까운 것일 것이며, 특히 실시간 "대화"를 할 수 있는 능력이 있음. 그럼에도 불구하고, 주의 깊게 들으면 식별할 수 있는 불완전함이 있음. 아래 비디오에서 봇이 "opposite, adjacent, and hypotenuse" (특히 hypotenuse)를 어떻게 말하는지 들어보라고 함. 여기서 GPT-4o는 일시 정지를 하고, 현실적인 변별력이 떨어지며, 단어를 연결하는 방법을 찾으면서 목소리가 다소 로봇처럼 변함.
매우 미세한 차이임: 더 큰 단서는 단어 사이의 일시 정지일 가능성이 높음. "opposite"라고 말하기 전에 일시 정지를 하는 방식이 아마도 단서일 것이며, "identify"를 느리게 하는 방식도 단서일 수 있지만, 모델이 그것을 정상적으로 보이게 만드는 방법은 인상적임.
유명인이나 정치인이 어리석거나 도발적인 말을 하고 있는가?
AI 목소리를 식별하는 것은 출력의 결함을 식별하는 것만이 아님, 특히 "유명인"의 녹음과 관련하여. 권력과 영향력을 가진 사람들의 AI 생성 음성과 관련하여, 이러한 녹음은 두 가지 중 하나일 가능성이 높음: 어리석거나 도발적임. 아마도 누군가가 유명인이 웃긴 말을 하는 비디오를 만들고 싶어 하거나, 나쁜 행위자가 당신을 화나게 할 수 있는 정치인이 말했다고 설득하고 싶어 할 수 있음.
트럼프, 바이든, 오바마가 함께 비디오 게임을 하는 비디오를 접하는 대부분의 사람들은 그것이 실제라고 생각하지 않을 것임: 이는 명백한 농담임. 하지만 선거에 방해를 주고자 하는 누군가가 정치 후보자의 가짜 녹음을 생성하고, 그것을 비디오에 재생하고 TikTok이나 Instagram에 업로드하는 것을 상상하는 것은 어렵지 않음. 일론 머스크는 AI를 사용하여 만들어진 카말라 해리스의 가짜 녹음을 특징으로 하는 비디오를 X에서 공유했으며, 비디오가 AI로 만들어졌다는 것을 공개하지 않았음.
이것이 실제인 콘텐츠를 변명하는 것은 아님: 후보자가 사무직에 적합성을 의심하게 할 수 있는 말을 한다면, 주목할 필요가 있음. 하지만 분명히 분열적인 선거 시즌에 접어들면서, 이러한 유형의 녹음에 대해 회의적인 태도를 갖는 것이 그 어느 때보다 중요해질 것임.
여기서 해결책의 일부는 오디오 녹음의 출처를 살펴보는 것임: 누가 게시했는가? 미디어 조직인가, 아니면 단순한 무작위 계정인가? 만약 진짜라면, 여러 미디어 조직이 이를 빠르게 보도할 가능성이 높음. 인플루언서가 적절한 출처를 제공하지 않고 자신의 관점에 맞는 것을 공유하고 있다면, 스스로 다시 공유하기 전에 잠시 생각해보라고 함.
AI 음성 감지기를 시도해볼 수 있음 (하지만 한계를 알아야 함)
AI 음성을 감지한다고 광고하는 도구들이 있음. PlayHT는 그러한 감지기 중 하나이며, ElevenLabs는 회사의 도구에서 생성된 오디오를 찾기 위한 감지기를 가지고 있음.
하지만 모든 AI 미디어 감지기와 마찬가지로, 이러한 도구를 사용할 때는 주의해야 함. AI 오디오 감지기는 생성된 오디오 콘텐츠의 징후를 찾기 위해 AI를 사용함. 하지만 이러한 AI 모델은 그들이 알고 있는 것만 식별할 수 있음: 그들이 훈련받지 않은 변수, 예를 들어, 나쁜 오디오 품질이나 과도한 배경 소음이 있는 오디오에 직면하면, 그들은 혼란스러워할 수 있음.
또 다른 문제는? 이러한 도구는 현재 그들에게 제공된 기술에 대해 훈련받았지, 현재 나오는 AI 오디오나 곧 나올 AI 오디오에 대해 훈련받지 않았음. 이 기사의 예시를 감지할 수 있지만, 누군가가 내일 새로운 모델로 가짜 팀 월즈 녹음을 만들면, 그것을 잡지 못할 수 있음.
NPR은 올해 초 세 가지 AI 감지 도구를 테스트했으며, 그 중 두 개는 AI or Not와 AI Voice Detector가 절반 정도 잘못되었다고 함. 나머지 하나인 Pindrop Security는 제출된 84개의 샘플 클립 중 81개를 올바르게 식별했으며, 이는 인상적임.
확실하지 않은 녹음이 있다면, 이러한 도구 중 하나를 시도해볼 수 있음. 단, 사용하는 프로그램의 한계를 이해해야 함.