많은 저명한 뉴스 매체와 소셜 미디어 플랫폼이 애플의 AI 훈련 데이터 수집을 위한 웹사이트 스크래핑에서 제외하기로 결정했다고 목요일 새로운 보고서가 전함.
애플은 애플봇-익스텐디드라는 새로운 도구를 통해 이를 진행하며, 이는 아이폰 거인이 3개월도 안 되어 도입한 것임. 주요 콘텐츠 웹사이트가 애플 AI 스크래핑에서 제외하면 애플 인텔리전스의 지속적인 개발에 영향을 미칠 수 있음.
애플 AI 스크래핑을 차단하는 가장 큰 웹사이트들
페이스북, 인스타그램, 크레이그리스트, 텀블러, 뉴욕 타임스, 파이낸셜 타임스, 아틀란틱, 복스 미디어, USA 투데이 네트워크, 콘데 나스트 등이 애플의 AI 데이터 수집을 차단하고 있다고 와이어드의 보고서가 전함. 로봇 크롤러에 대한 “차가운 반응”은 이러한 도구가 AI 훈련에 도움을 주는 상황에서 지적 재산권과 웹의 미래에 대한 갈등 구역에 진입했음을 시사함.
애플, 선택적 제외 옵션 확대
일부 콘텐츠 스크래퍼와 달리 애플봇-익스텐디드는 웹사이트 소유자가 자신의 데이터를 애플의 AI 훈련에 사용되지 않도록 막을 수 있게 해줌. 하지만 그럼에도 불구하고 원래 애플봇은 검색 기능 개선을 위해 여전히 그들의 사이트를 크롤링할 수 있음. 최근 관련 문제에 대한 논란이 발생했으며, 애플은 동의 없이 유튜브 비디오를 AI 훈련에 사용한다는 주장을 부인함.
따라서 일부 주요 사이트는 AI 스크래퍼에서 제외할 수 있는 기회를 활용하고 있으며, 이는 애플 인텔리전스에 불리할 수 있음. 웹사이트 소유자는 로봇.txt 파일을 업데이트하여 애플봇-익스텐디드를 차단할 수 있음. 이는 웹 크롤러 관리를 위한 오랜 프로토콜임.
파트너십을 위한 대기 중?
그럼에도 불구하고 분석에 따르면 현재 고트래픽 웹사이트의 약 6%에서 7%가 애플봇-익스텐디드를 차단하고 있으며, 뉴스 및 미디어 매체가 그 대부분을 차지함. 애플봇-익스텐디드는 새로워서 일부 사이트는 그 사용에 대해 아직 대응하지 않았음. 하지만 일부 출판사들은 전략적인 접근을 취하고 있으며, 파트너십 계약이 체결될 때까지 데이터를 보류할 가능성이 있음.
이를 위해 콘데 나스트와 같은 일부 미디어 회사는 제작자와의 파트너십을 형성한 후 특정 AI 봇의 차단을 해제함.
AI 스크래핑에 대한 비판
뉴욕 타임스는 이러한 AI 데이터 수집 도구의 선택적 제외 성격을 비판하며, 저작권법이 기술적 차단 조치와 관계없이 그들의 콘텐츠를 보호해야 한다고 주장함.
와이어드의 기사에 따르면, 전통적으로 불투명했던 로봇.txt 파일이 AI 훈련 데이터의 전쟁터가 되었으며, 이는 AI 시대의 지적 재산권에 대한 더 넓은 긴장을 반영함.
그리고 한 가지 궁금한 점은: 애플 인텔리전스가 광범위하게 출시되면 많은 주요 사이트들이 그 행동에 참여하기 위해 clamoring하지 않을까? 출판사와의 더 많은 애플 거래가 있을 수 있음.