뉴욕 타임스와 데일리 뉴스의 변호사들은 OpenAI가 허가 없이 자사의 작품을 스크래핑하여 AI 모델을 훈련시켰다고 주장하며 소송을 제기했다. 이들은 OpenAI 엔지니어들이 사건과 관련된 데이터를 우연히 삭제했다고 밝혔다.
올 가을, OpenAI는 뉴욕 타임스와 데일리 뉴스의 변호사들이 자사의 저작권 콘텐츠를 AI 훈련 세트에서 검색할 수 있도록 두 개의 가상 머신을 제공하기로 합의했다. (가상 머신은 다른 컴퓨터의 운영 체제 내에서 존재하는 소프트웨어 기반 컴퓨터로, 테스트, 데이터 백업 및 앱 실행 등의 목적으로 자주 사용된다.) 변호사들은 11월 1일 이후로 150시간 이상 OpenAI의 훈련 데이터 검색에 시간을 보냈다고 밝혔다.
하지만 11월 14일, OpenAI 엔지니어들은 가상 머신 중 하나에 저장된 모든 출판사의 검색 데이터를 삭제했다. 이는 수요일 늦게 미국 뉴욕 남부 지방법원에 제출된 서신에 명시되어 있다.
OpenAI는 데이터를 복구하려고 했고 대부분 성공했지만, 폴더 구조와 파일 이름이 "복구할 수 없게" 사라져서 복구된 데이터는 "뉴스 원고들이 OpenAI의 모델을 구축하는 데 사용된 위치를 확인하는 데 사용할 수 없다"고 서신에 적혀 있다.
"뉴스 원고들은 상당한 인력 시간과 컴퓨터 처리 시간을 사용하여 작업을 처음부터 다시 만들어야 했다"고 뉴욕 타임스와 데일리 뉴스의 변호사들이 썼다. "뉴스 원고들은 어제 복구된 데이터가 사용 불가능하다는 것을 알게 되었고, 전문가와 변호사들의 작업이 일주일 동안 다시 해야 한다는 이유로 오늘 이 보충 서신을 제출하게 되었다."
원고 측 변호사는 삭제가 의도적이었다고 믿을 이유가 없다고 분명히 밝혔다. 그러나 그들은 이 사건이 OpenAI가 "자신의 도구를 사용하여 잠재적으로 침해하는 콘텐츠를 검색하는 데 가장 좋은 위치에 있다"는 점을 강조한다고 말했다.
OpenAI에 대한 의견을 요청했으며, 답변이 오면 이 기사를 업데이트할 예정이다.
이 사건과 다른 사건들에서 OpenAI는 공개적으로 이용 가능한 데이터를 사용하여 모델을 훈련시키는 것이 공정 사용이라고 주장해왔다. 즉, GPT-4o와 같은 모델을 생성하는 데 있어 수십억 개의 전자책, 에세이 등의 예시로부터 "학습"하는 과정에서 OpenAI는 예시를 라이센스하거나 비용을 지불할 필요가 없다고 믿고 있다. 비록 이 모델로 수익을 올리더라도 말이다.
그럼에도 불구하고 OpenAI는 AP통신, 비즈니스 인사이더 소유주인 악셀 슈프링거, 파이낸셜 타임스, 피플의 모회사인 닷대시 머레디스, 뉴스 코프 등 여러 새로운 출판사와 라이센스 계약을 체결했다. OpenAI는 이러한 계약의 조건을 공개하지 않았지만, 한 콘텐츠 파트너인 닷대시는 연간 최소 1,600만 달러를 받고 있다고 전해진다.
OpenAI는 특정 저작권 작품을 허가 없이 훈련시켰다는 사실을 확인하거나 부인하지 않았다.