제너레이티브 AI(애플 인텔리전스와 같은)가 제대로 작동하려면 '훈련 정보'를 수집해야 함. 이는 다양한 출처에서 얻을 수 있지만, 인공지능 모델에 대해 가능한 한 적은 사람들이 불만을 가지도록 하려면 사용되는 데이터가 '윤리적'이어야 함.
즉, 데이터를 사용하기 위해서는 해당 출처의 허가가 필요함. 그렇지 않으면 저작권 침해 문제와 법적 문제에 휘말리게 됨. 많은 사람들이 이런 문제를 겪고 있음. 구글처럼 정부에 청원해서 저작권 법이 자신에게 적용되지 않도록 하여, 허가 없이 원하는 데이터를 사용해 AI를 훈련할 수 있도록 하는 경우도 있음.
애플은 그러나 애플 인텔리전스를 훈련하는 데 사용하는 데이터에 대해 비용을 지불해야 한다고 생각하고 있음. 하지만 애플이 직면한 문제는, 인터넷에서 가장 큰 출처 중 일부가 자신이 만든 AI와는 관계를 맺고 싶어하지 않는다는 것임.
출처들은 단호한 '아니오'를 말함.
Wired에 따르면, 뉴욕 타임스와 페이스북 같은 많은 출처들이 애플이 애플 인텔리전스를 훈련할 때 자신의 콘텐츠를 스크래핑하지 못하도록 하는 기능을 사용하고 있음. 이를 'Robot.txt'라고 부르며, 애플의 스크래핑 봇에게 해당 콘텐츠를 피하라고 지시하는 텍스트 파일임.
애플이 데이터를 사용하기 위해 비용을 지불하겠다고 제안했음에도 불구하고, 25%의 웹사이트가 여전히 스크래퍼를 차단하고 있음. 이 비율은 애플 인텔리전스의 공식 출시가 가까워짐에 따라 증가할 가능성이 있음. 출판계는 AI에 대해 점점 더 인식하고 경계하고 있음. 특히 뉴욕 타임스가 현재 가장 큰 제너레이티브 AI 모델인 ChatGPT를 상대로 NYT 콘텐츠를 훈련에 사용한 것에 대해 소송을 제기하고 있다는 점을 기억해야 함.