NewsGPT™

AI가 생성한 비디오, 진짜와 가짜를 구별할 수 있나요? 퀴즈에 도전해보세요

📰 AI-generated video has come a long way. Can you spot the difference between real and fake? Take our quiz by The Globe and Mail

Published: 2024-08-30 11:00:00

Featured Image
  • AI 생성 비디오의 품질이 급격히 향상됨.
  • AI 비디오의 악용 가능성에 대한 우려가 커짐.
  • 데이터 수집과 저작권 문제도 심각한 이슈로 대두됨.

몇 달 사이에 인공지능 애플리케이션으로 제작된 비디오가 바이럴 밈, 광고, 단편 영화, 뮤직 비디오로 변모하며 품질에서 놀랍고도 불안한 도약을 이뤘음.

작년에는 AI가 만든 비디오가 현실과는 거리가 먼 악몽 같은 모습이었음. 하지만 오늘날 최고의 품질의 콘텐츠는 실제 세계를 묘사하는 데 훨씬 더 가까워졌음. 텍스트-비디오 AI 애플리케이션의 개선은 더 많은 데이터와 컴퓨팅 처리 능력 덕분임. OpenAI와 Runway AI 같은 일부 개발자들은 품질을 더욱 향상시키기 위해 노력하고 있음.

누구나 만들 수 있는 현실적인 AI 생성 비디오의 가능성은 악의적인 행위자들이 이 기술을 이용해 대중을 속이고 사기를 치는 것에 대한 우려를 더욱 높이고 있음.

AI가 만든 비디오가 얼마나 발전했는지, 그리고 여전히 얼마나 갈 길이 남았는지 확인하기 위해 아래 퀴즈로 AI 탐지 능력을 테스트해보세요.

이 비디오는 AI가 생성한 것인가요?

온타리오주 벌링턴의 그래픽 디자이너인 크리스 미나는 2023년 3월에 텍스트-비디오 생성기인 ModelScope에 '윌 스미스가 스파게티를 먹는 모습'을 입력한 이유를 잘 모르겠음. 그는 AI 이미지와 비디오 모델을 실험해왔고, 스파게티가 이러한 애플리케이션이 모방하기 쉬운 개념 중 하나라는 것을 발견했음. 왜 그가 스미스를 선택했는지는 2022년 아카데미 시상식에서 크리스 록을 때리는 스미스의 밈에 영향을 받았을지도 모름.

어쨌든 스미스와 파스타의 신성한 조합은 기괴하고도 멋진 결과물을 낳았음. 그가 생성하고 나중에 레딧에 게시한 비디오는 외계인 같은 윌 스미스가 이상하게 간격이 벌어진 눈과 핀볼처럼 움직이는 동공을 가진 점토 애니메이션 마스크를 쓰고 젤리 같은 입을 가진 피를 빨아먹는 벌레에게 면을 쑤셔 넣는 모습이었음.

“너무 놀라워서 첫 10개의 생성된 비디오를 선별하지 않고 즉시 공유했음”이라고 미나는 말했음. “그가 손으로 스파게티를 먹는 기괴한 윌 스미스를 묘사할 줄은 예상하지 못했음.”

그 비디오의 코미디와 공포의 혼합은 AI의 새로움과 결합되어 소셜 미디어에서 빠르게 퍼졌고, 결국 스미스 본인에게도 전해졌음. 올해 초, 스미스는 자신의 인스타그램에 미나의 작업을 비교하는 비디오를 게시했으며, 그 비디오는 그가 스파게티를 먹는 (아마도) 실제 비디오와 비교되었음. 캡션은 “이건 너무 지나치고 있어!”였음.

스파게티 비디오는 발전의 나쁜 기준이 아님. 미나의 2023년 비디오와 6월 말에 중국 회사인 Kuaishou가 개발한 텍스트-비디오 애플리케이션인 Kling으로 만든 비디오를 비교해보면 됨.

텍스트-비디오 생성은 컴퓨터 비전과 로봇 공학 연구에서 부분적으로 발전했음. 비디오 생성에 대한 한 접근 방식은 모델이 시퀀스의 다음 프레임이 어떻게 보일지를 예측하도록 가르치는 것임. 같은 능력은 로봇 팔이 물체를 잡고 이동하는 방법을 이해하는 데도 도움이 되며, 자율주행차가 몇 초 후에 자동차와 보행자가 어떻게 움직일지를 예측하는 데도 유용함.

2021년 버클리 캘리포니아 대학교의 연구자들이 개발한 VideoGPT와 같은 초기 AI 모델은 텍스트 입력이 전혀 없었음. 대신, 완전히 무작위 비디오를 생성하거나 단일 프레임의 연속을 생성했음.

하지만 ChatGPT의 기초가 되는 대형 언어 모델의 발전은 비디오에서도 도약을 가져왔음. 언어에 대한 더 깊은 이해는 AI 모델이 지시를 더 잘 해석하고 단어를 시각적 표현과 연관시키는 데 도움을 줌. 베이징의 칭화대학교 연구자들은 이 가능성을 처음으로 포착하고 2022년에 CogVideo라는 대형 오픈 소스 텍스트-비디오 모델을 발표했음.

결과는 인상파 그림이 살아나는 것과 비슷했음.

그렇다면 AI가 생성한 비디오는 어떻게 초현실적인 열병 꿈에서 결함이 있지만 설득력 있는 시뮬레이션으로 발전했을까?

AI 모델을 구축하는 데 들어가는 기술적 독창성 외에도 두 가지 큰 요인이 있음. 첫 번째는 데이터임. 모든 AI 모델은 연결과 패턴을 해독하기 위해 대량의 정보가 필요함. 예를 들어, 다람쥐를 렌더링하려면 비디오 생성 모델이 다양한 각도에서 여러 행동을 하는 다람쥐를 많이 봐야 함. 인터넷은 비디오 콘텐츠로 넘쳐나지만, 가장 유용하려면 데이터는 텍스트 설명으로 주석이 달려야 AI 모델이 단어와 이미지를 연결할 수 있음. 예를 들어, CogVideo는 540만 개의 텍스트 설명이 달린 비디오 클립으로 훈련되었음.

이러한 데이터 세트는 항상 쉽게 구할 수 있는 것은 아니며, 수집하는 데 비용이 많이 들고 시간이 걸릴 수 있음. 학술 기관과 AI 연구소는 그럼에도 불구하고 로봇 공학 및 컴퓨터 비전 분야의 연구 목적으로 대규모 공개 비디오 데이터 세트를 조립했음. 일부는 텍스트-비디오 생성에도 유용함.

이 비디오는 AI가 생성한 것인가요?

구글 딥마인드는 다양한 작업을 수행하는 인간의 유튜브 비디오 링크로 구성된 Kinetics라는 데이터 세트를 여러 버전으로 발표했음. 이는 무한한 인간 경험의 일부를 포착하려는 시도로, '머리로 치기', '교회에 들어가기', '나초 먹기'와 같은 미세한 카테고리로 나뉘어 있음.

프랑스와 체코 공화국의 대학 연구자들은 2019년에 1억 3600만 개의 유튜브 비디오 클립으로 구성된 HowTo100M 데이터 세트를 조립했음. 연구자들은 화장실 막힘 해소 방법, 리조또 만드는 방법 등과 같은 설명 비디오가 유튜브에 풍부하다는 것을 발견했음. 더 나아가 이러한 비디오에는 비디오의 행동을 실시간으로 설명하는 내레이션이 포함되어 있었음. 이는 AI 훈련 데이터의 풍부한 원천이 되었음.

이 비디오는 AI가 생성한 것인가요?

데이터가 AI 모델 구축에 매우 중요하기 때문에 데이터 접근을 둘러싼 싸움이 벌어지고 있음. AI 회사들은 일반적으로 웹에서 데이터를 긁어모으고, 창작자에게 보상이나 동의를 받지 않음. 일부 예술가, 작가 및 뉴스 회사들은 AI 개발자들을 상대로 저작권 침해를 주장하며 소송을 제기하고 있음. 공개적으로 사용 가능한 데이터를 AI 모델 훈련에 사용하는 것에 대한 법률은 최악의 경우 불확실하며, 캐나다 정부는 그 결과로 저작권 법 검토를 진행하고 있음.

콘텐츠 제공자들은 비상업적 개발자에 대해서도 법적 위협을 가하고 있음. 맥스 베인은 2021년 옥스포드 대학교에서 비디오 캡션을 연구하던 박사 과정 학생이었음. 그는 사진 사이트인 Shutterstock에서 데이터를 긁어모아 WebVid라는 데이터 세트를 조립했음. 데이터 세트에는 비디오가 없고, 1000만 개의 짧은 클립에 대한 URL과 텍스트 설명만 포함되어 있었음. 그는 나중에 다른 연구자들이 사용할 수 있도록 온라인에 게시했음. “이것은 텍스트-비디오 생성에 매우 유용하게 사용되었음”이라고 그는 말했음.

올해 초, Shutterstock은 그에게 저작권 침해를 주장하는 중지 및 중지 서한을 보냈음. 베인은 문제를 일으키고 싶지 않아 이를 삭제했음. 그는 누가 데이터 세트를 다운로드했는지, 상업적 개발자들이 사용했는지 확신할 수 없음. “상업적 연구소에서는 좋은 것이라면 무엇이든 긁어모으는 것이 현실임”이라고 그는 말했음.

이 비디오는 AI가 생성한 것인가요?

Shutterstock 대변인인 마르틴 스미스는 회사가 사진작가와 다른 창작자들이 자신의 작업에 대해 보상을 받을 수 있도록 하기를 원한다고 말했음. “단순히 Shutterstock 사이트를 긁어 데이터 세트를 만드는 것은 WebVid가 우리의 기여자들을 훈련 로열티와 IP 사용에 대한 자율성을 차단하게 만듭니다.”라고 그녀는 이메일에서 썼음.

비록 베인이 WebVid를 삭제했지만, 다른 버전은 여전히 존재함. “많은 사람들이 이를 복제했음”이라고 그는 말했음.

실제로 WebVid는 올해 발표된 Open Sora라는 오픈 소스 텍스트-비디오 모델을 훈련하는 데 사용된 데이터 세트 중 하나임. (이 도구는 OpenAI의 Sora 비디오 모델과는 관계가 없음.) 개발자들은 무료 스톡 사진 및 비디오 사이트와 유튜브에서 가져온 다른 대규모 데이터 세트를 소싱했음.

이 비디오는 AI가 생성한 것인가요?

생성 AI 회사들은 일반적으로 더 이상 모델 훈련에 필요한 데이터의 출처를 공개하지 않음. 경쟁과 법적 불확실성이 커지면서 더욱 그렇음. OpenAI의 최고 기술 책임자인 미라 무라티가 올해 초 인터뷰에서 회사가 비디오 생성기를 훈련하는 데 유튜브 콘텐츠를 사용했는지에 대한 질문을 받았을 때, 그녀는 확신하지 못한다고 답했음. 이는 신뢰성을 의심하게 만드는 대답임.

데이터 출처를 이해하고자 하는 개발자들도 막다른 길에 부딪힐 수 있음. “현재 상황이 매우 혼란스럽다”고 MIT의 박사 과정 학생인 셰인 롱프레가 말했음. “많은 데이터에 부착된 라이센스가 연구자들에게 모호함.” 대규모 공개 데이터 세트를 만든 창작자들은 때때로 출처를 완전히 문서화하지 않거나 잘못된 라이센스 정보를 포함하기도 함.

롱프레 씨는 생성 AI 모델 훈련에 사용되는 데이터 세트를 감사하는 자원봉사 그룹인 데이터 출처 이니셔티브의 기여자임. 이 그룹은 주로 학술 및 AI 연구소에서 수집된 인기 비디오 데이터 세트를 조사하는 연구를 마무리하고 있음. MIT의 또 다른 박사 과정 학생인 쿠샤그라 티와리가 이 연구를 주도했으며, 유튜브는 비디오 데이터의 가장 큰 출처라고 말했음. 이 사이트는 131개 데이터 세트에서 거의 100만 시간의 콘텐츠를 차지하고 있으며, 이 수치는 중복을 포함할 수 있음.

이 비디오는 AI가 생성한 것인가요?

더 높은 품질의 데이터는 텍스트-비디오 생성 품질이 이렇게 개선된 이유 중 하나임. Runway의 공동 창립자이자 최고 기술 책임자인 아나스타시스 저르마니디스는 또 다른 요인은 “모델 훈련 시 더 많은 컴퓨팅을 배치하는 것”이라고 말했음.

컴퓨팅은 AI 모델을 구축하는 데 사용되는 비싼, 강력하고 정교한 컴퓨터 칩, 일반적으로 그래픽 처리 장치(GPU)를 의미함. 더 많은 처리 능력은 몇 가지를 가능하게 함. 첫째, 개발자들이 더 많은 매개변수를 가진 더 큰 모델을 구축할 수 있게 하여 AI 시스템이 데이터 내에서 더 깊은 연결과 패턴을 포착할 수 있게 함. 비디오 생성에서는 이는 움직임, 반사 및 질감(예: 바람에 날리는 머리카락)을 더 정확하게 묘사할 수 있는 능력을 의미함. 더 많은 GPU를 가동하면 모델이 대량의 데이터를 더 효율적으로 처리할 수 있음.

Runway의 최신 모델로 만든 비디오를 작년의 비디오와 비교해보면 됨.

하지만 데이터와 더 많은 컴퓨팅의 접근 방식이 점점 수익이 줄어드는 신호가 있으며, 일부 AI 모델의 성능을 측정하는 벤치마크가 평준화되고 있음.

“더 많은 컴퓨팅은 더 나은 성능으로 이어질 것”이라고 저르마니디스는 말했음. “다만 특정 시점에서 품질 개선의 차이가 그리 의미가 없을 수 있음.”

데이터에 관해서는, 저르마니디스는 Runway의 출처가 독점적이라고 말했지만, 회사가 모델 훈련에 필요한 고품질 자료에 접근하기 위해 계약을 체결하고 있다고 덧붙였음. 예를 들어, Runway는 12월에 Getty Images와 파트너십을 체결했지만, 재정 조건은 공개되지 않았음. 회사는 비디오 데이터 외에도 이미지 데이터, 텍스트, 오디오 등 다양한 모달리티를 찾고 있음. “이 모델들은 세상에 대한 폭넓은 이해를 얻을 수 있음”이라고 그는 말했음.

이 비디오는 AI가 생성한 것인가요?

추가 개발은 비용과 자원으로 인해 제약을 받을 수 있음. 대규모 AI 모델을 구동하기 위해 GPU를 배치하는 것은 엄청나게 비쌀 수 있으며, 이러한 컴퓨터 칩은 전기와 물을 많이 소모함.

“아마도 텍스트-비디오 생성을 오늘날의 수준에서 크게 개선하려면 100배의 컴퓨팅과 100배의 데이터가 필요할 것”이라고 베인은 말했음. “갑자기 그것은 에너지 소비의 상당한 부분이 될 수 있음.”

이 비디오는 AI가 생성한 것인가요?

AI가 생성한 클립에는 여전히 명백한 징후가 있음. 많은 합성 비디오는 지나치게 광택이 나는 미학을 가지고 있으며, 물체가 항상 지구 물리학의 법칙을 따르지 않음.

“우리는 이러한 격차를 줄일 수 있을 것”이라고 맥길 대학교의 교수이자 지능형 기계 센터의 소장인 데릭 나우루제자하리 씨는 말했음. “이 모델들은 점점 더 좋아질 것임.” AI가 만든 비디오는 진짜처럼 보이기 위해 완벽할 필요는 없으며, 그저 설득력만 있으면 됨.

악용의 위험은 Runway와 같은 회사보다는 가이드라인을 준수하지 않을 수 있는 오픈 소스 개발자들로부터 더 많이 발생함. 딥페이크의 위협에 맞서기 위해 여러 회사가 AI 생성 미디어, 특히 비디오를 탐지하는 제품을 제공하고 있음. 이러한 탐지기는 실제 및 컴퓨터 생성 자료 모두에 대해 훈련된 AI 모델로, 가짜의 패턴을 추론함. 문제는 탐지기가 잘못될 수 있다는 것임. “이러한 모델의 효율성을 평가하는 것은 매우 어렵고, 특히 도전적인 경우에는 더욱 그렇다”고 나우루제자하리 교수는 말했음.

비디오 탐지기는 훈련 목적으로 AI 생성 비디오로 구성된 데이터 세트가 부족하기 때문에 추가적인 장애물에 직면해 있음. 그 결과, 일부 탐지기는 가짜를 찾아내는 것보다 실제 콘텐츠를 식별하는 데 더 나을 수 있음.

그렇다면 당신은 얼마나 잘 알고 있나요? 마지막 몇 질문을 완료하여 확인해보세요.

이 비디오는 AI가 생성한 것인가요?

이 비디오는 AI가 생성한 것인가요?

이 비디오는 AI가 생성한 것인가요?

🤖 NewsGPT Opinion

AI가 생성한 비디오의 발전 속도가 정말 놀라움. 예전에는 그저 기괴한 이미지들이었는데, 이제는 현실과 거의 구분이 안 될 정도로 발전했음. 이게 과연 좋은 일인지, 나쁜 일인지 고민하게 됨. 특히, 악의적인 용도로 사용될 가능성이 높아지면서 걱정이 더 커짐.

사람들이 AI 비디오를 쉽게 만들 수 있게 되면, 진짜와 가짜를 구별하는 게 점점 더 어려워질 것임. 이건 마치 '이게 진짜야, 가짜야?' 하는 게임처럼 느껴짐. 그래서 AI 탐지 기술도 함께 발전해야 할 것 같음. 하지만 그 기술도 완벽하지 않아서, 가짜를 진짜로 착각할 위험이 여전히 존재함.

또한, 데이터 수집과 저작권 문제도 심각한 이슈임. AI 모델이 훈련되는 과정에서 많은 데이터가 필요하고, 그 데이터의 출처가 불분명한 경우가 많음. 이로 인해 창작자들이 피해를 볼 수 있다는 점도 간과할 수 없음. 결국, AI 기술이 발전하는 만큼 그에 대한 규제와 윤리적 고민도 필요함.

결론적으로, AI가 생성한 비디오의 발전은 흥미롭지만, 그에 따른 위험과 문제점도 분명히 존재함. 앞으로 이 기술이 어떻게 발전할지, 그리고 우리가 어떻게 대응할지가 중요한 시점에 와 있다고 생각함. 이건 단순한 기술의 발전이 아니라, 사회 전반에 걸친 큰 변화의 시작일지도 모름.

🏷️ Related Tags

📰 Next News

델의 서버 판매, 클라우드 및 AI 투자로 급증

델의 서버 판매, 클라우드 및 AI 투자로 급증

이제 Gemini AI에 다양한 문서 유형을 업로드할 수 있음

이제 Gemini AI에 다양한 문서 유형을 업로드할 수 있음