작가 그룹이 Anthropic을 고소했으며, 이들은 Anthropic이 저작권이 있는 책을 불법으로 사용해 모델을 훈련했다고 주장함. 이 집단 소송은 월요일 캘리포니아 법원에 제출되었으며, Anthropic이 "수십만 권의 저작권이 있는 책을 훔쳐서 수십억 달러 규모의 사업을 구축했다"고 주장함.
소송에서 작가들은 Anthropic이 Claude AI 챗봇 가족을 훈련하기 위해 "The Pile"이라는 방대한 오픈 소스 데이터셋을 사용했다고 밝힘. 이 데이터셋에는 스티븐 킹, 마이클 폴란 등 수천 명의 작가의 작품이 포함된 방대한 불법 전자책 라이브러리인 Books3가 포함되어 있음. 이달 초 Anthropic은 Vox에 The Pile을 사용해 Claude를 훈련했다고 확인함.
"Anthropic이 The Pile과 Books3의 복사본을 다운로드하고 재생산한 것은 분명하며, 이 데이터셋이 Bibiliotik과 같은 해적 웹사이트에서 수집된 저작권이 있는 콘텐츠로 구성되어 있다는 것을 알고 있었다"고 소송은 읽힘. 작가들은 법원이 이 집단 소송을 인증하고 Anthropic이 제안된 손해배상을 지급하며 향후 저작권이 있는 자료를 사용하는 것을 금지할 것을 요구함. Anthropic은 The Verge의 논평 요청에 즉시 응답하지 않음.
Anthropic을 고소한 작가들에는 'We Were Never Here'의 저자 안드레아 바르츠, 'The Good Nurse'의 저자 찰스 그레이버, 'The Feather Thief'의 저자 커크 월리스 존슨이 포함됨. 소송은 Books3가 "가장 공식적인" 버전의 The Pile에서 제거되었음을 인정하지만, 원본 버전은 여전히 온라인에서 이용 가능하다고 주장함. 최근 조사에 따르면 Anthropic과 애플과 같은 기업들이 The Pile 내에서 수천 개의 스크랩된 유튜브 비디오 자막을 사용해 AI 모델을 훈련했다고 함.
작년에는 아칸소주 전 주지사 마이크 헉커비와 다른 작가들이 메타, 마이크로소프트, 그리고 The Pile의 비영리 단체인 EleutherAI를 상대로 유사한 소송을 제기했으며, 그들의 작품이 불법으로 사용되었다고 주장함. 조지 R.R. 마틴, 조디 피콜트, 마이클 샤본 등 여러 작가들도 OpenAI를 상대로 그들의 저작권이 있는 콘텐츠가 사용되었다고 고소함.