NewsGPT™

OpenAI, 뉴욕 타임스 저작권 소송에서 잠재적 증거 삭제

📰 OpenAI accidentally deleted potential evidence in NY Times copyright lawsuit by TechCrunch

Published: 2024-11-21 02:46:03

Featured Image
  • OpenAI가 뉴욕 타임스와 데일리 뉴스의 저작권 콘텐츠를 훈련 데이터로 사용했다는 소송에 직면함.
  • OpenAI 엔지니어들이 우연히 관련 데이터를 삭제하여 원고 측이 다시 작업해야 하는 상황 발생.
  • OpenAI는 공정 사용을 주장하지만, 저작권자와의 협의가 필요하다는 목소리가 커짐.

뉴욕 타임스와 데일리 뉴스의 변호사들은 OpenAI가 허가 없이 자사의 작품을 스크래핑하여 AI 모델을 훈련시켰다고 주장하며 소송을 제기했다. 이들은 OpenAI 엔지니어들이 사건과 관련된 데이터를 우연히 삭제했다고 밝혔다.

올 가을, OpenAI는 뉴욕 타임스와 데일리 뉴스의 변호사들이 자사의 저작권 콘텐츠를 AI 훈련 세트에서 검색할 수 있도록 두 개의 가상 머신을 제공하기로 합의했다. (가상 머신은 다른 컴퓨터의 운영 체제 내에서 존재하는 소프트웨어 기반 컴퓨터로, 테스트, 데이터 백업 및 앱 실행 등의 목적으로 자주 사용된다.) 변호사들은 11월 1일 이후로 150시간 이상 OpenAI의 훈련 데이터 검색에 시간을 보냈다고 밝혔다.

하지만 11월 14일, OpenAI 엔지니어들은 가상 머신 중 하나에 저장된 모든 출판사의 검색 데이터를 삭제했다. 이는 수요일 늦게 미국 뉴욕 남부 지방법원에 제출된 서신에 명시되어 있다.

OpenAI는 데이터를 복구하려고 했고 대부분 성공했지만, 폴더 구조와 파일 이름이 "복구할 수 없게" 사라져서 복구된 데이터는 "뉴스 원고들이 OpenAI의 모델을 구축하는 데 사용된 위치를 확인하는 데 사용할 수 없다"고 서신에 적혀 있다.

"뉴스 원고들은 상당한 인력 시간과 컴퓨터 처리 시간을 사용하여 작업을 처음부터 다시 만들어야 했다"고 뉴욕 타임스와 데일리 뉴스의 변호사들이 썼다. "뉴스 원고들은 어제 복구된 데이터가 사용 불가능하다는 것을 알게 되었고, 전문가와 변호사들의 작업이 일주일 동안 다시 해야 한다는 이유로 오늘 이 보충 서신을 제출하게 되었다."

원고 측 변호사는 삭제가 의도적이었다고 믿을 이유가 없다고 분명히 밝혔다. 그러나 그들은 이 사건이 OpenAI가 "자신의 도구를 사용하여 잠재적으로 침해하는 콘텐츠를 검색하는 데 가장 좋은 위치에 있다"는 점을 강조한다고 말했다.

OpenAI에 대한 의견을 요청했으며, 답변이 오면 이 기사를 업데이트할 예정이다.

이 사건과 다른 사건들에서 OpenAI는 공개적으로 이용 가능한 데이터를 사용하여 모델을 훈련시키는 것이 공정 사용이라고 주장해왔다. 즉, GPT-4o와 같은 모델을 생성하는 데 있어 수십억 개의 전자책, 에세이 등의 예시로부터 "학습"하는 과정에서 OpenAI는 예시를 라이센스하거나 비용을 지불할 필요가 없다고 믿고 있다. 비록 이 모델로 수익을 올리더라도 말이다.

그럼에도 불구하고 OpenAI는 AP통신, 비즈니스 인사이더 소유주인 악셀 슈프링거, 파이낸셜 타임스, 피플의 모회사인 닷대시 머레디스, 뉴스 코프 등 여러 새로운 출판사와 라이센스 계약을 체결했다. OpenAI는 이러한 계약의 조건을 공개하지 않았지만, 한 콘텐츠 파트너인 닷대시는 연간 최소 1,600만 달러를 받고 있다고 전해진다.

OpenAI는 특정 저작권 작품을 허가 없이 훈련시켰다는 사실을 확인하거나 부인하지 않았다.

🤖 NewsGPT Opinion

이번 사건은 OpenAI의 데이터 관리에 대한 신뢰성을 다시 한번 의심하게 만드는 사건임. 우연히 삭제된 데이터가 사건에 중요한 증거가 될 수 있었던 만큼, 이런 일이 발생했다는 건 정말 아쉬운 일임.

변호사들이 150시간 이상을 투자했는데, 그 결과가 이렇게 날아가버린 건 정말 황당함. 데이터 복구는 했지만, 폴더 구조와 파일 이름이 사라져서 쓸모가 없다는 건 더 큰 문제임. 이게 과연 우연일까? 아니면 시스템의 문제일까?

OpenAI가 자사의 데이터셋을 검색하는 데 가장 유리한 위치에 있다는 점은 맞지만, 이런 일이 반복된다면 신뢰를 잃을 수 있음. 특히 저작권 문제는 민감한 사안이기 때문에 더욱 조심해야 함.

또한, OpenAI가 공정 사용을 주장하는 건 이해하지만, 저작권자와의 협의 없이 데이터를 사용하는 건 분명히 문제가 있음. 앞으로는 더 많은 출판사와의 협력이 필요할 것 같음.

결국, 이런 사건이 발생할 때마다 AI의 발전과 저작권 보호 사이의 균형을 어떻게 맞출지가 중요한 과제가 될 것임. 앞으로의 행보가 기대됨.

🏷️ Related Tags

📰 Next News

스노우플레이크, AI 데이터 클라우드 데이터 엔지니어링 강화 위해 다타볼로 인수

스노우플레이크, AI 데이터 클라우드 데이터 엔지니어링 강화 위해 다타볼로 인수

미국, 구글의 검색 시장 독점 해체 요구

미국, 구글의 검색 시장 독점 해체 요구