비영리 가면 쓰고 AI 배 불린다? CNN·NBC, '데이터 창고'와 전면전

[해외 미디어 동향] 뉴스 미디어 연합, 커먼 크롤에 콘텐츠 무단 스크래핑 중단 촉구
'데이터베이스 보관 콘텐츠 AI 기업에 의해 활용' 중단 위한 추가 조치 마련도 요구

[미디어오늘 윤유경 기자]

CNN, NBC 등 주요 언론사들이 인공지능(AI) 기업들의 챗봇 학습에 사용되는 웹 아카이브에 자사 콘텐츠가 저장되는 것을 막기 위한 움직임에 나섰다.

지난 1일 블룸버그 보도에 따르면, 국제 언론단체인 뉴스 미디어 연합(News/Media Alliance·NMA)은 지난달 29일 비영리 데이터 저장소 커먼 크롤(Common Crawl)에 서한을 보내 콘텐츠의 무단 스크래핑과 저장을 즉각 중단하고, 데이터베이스에 보관된 콘텐츠가 AI 기업에 의해 활용되는 것을 막기 위한 추가 조치를 마련할 것을 촉구했다. 서한에 따르면, CNN, NBC 등 20개 매체는 커먼 크롤의 온라인 저장소에 콘텐츠가 저장되지 않도록 해달라고 요청했다.

NMA는 서한에서 AI 목적의 이용을 명시적으로 금지하는 내용의 이용 약관을 추가하고, 언론사의 요청 시 저장소에서 콘텐츠를 삭제할 것을 요구했다. 아울러 △커먼 크롤은 저장소 내 스크래핑된 콘텐츠를 소유하지 않으며 해당 콘텐츠의 사용을 승인할 권한이 없음 △AI 목적을 포함한 해당 콘텐츠의 무단 사용 금지 △언론사의 지식 재산권을 존중하며 무단 사용 금지 △언론사의 요청 시 아카이브에서 콘텐츠 삭제 등의 내용을 담은 명확한 고지문을 게재할 것을 요구했다.

2007년 설립된 커먼 크롤은 온라인에 공개된 웹사이트에서 각종 데이터를 수집해 누구나 자유롭게 접근하고 활용할 수 있도록 제공하는 비영리 데이터 저장소다. 오픈AI, 구글, 메타 플랫폼 등 일부 기업들은 커먼 크롤의 방대한 콘텐츠를 챗GPT와 같은 챗봇 개발에 활용해 왔다. 블룸버그 보도에 따르면, 커먼 크롤은 오픈AI와 앤트로픽을 포함한 AI 기업들로부터 후원금도 받아왔다.

언론사들은 챗봇과 AI 기반 검색 결과가 자사 콘텐츠를 무단으로 이용하는 행위에 대해 우려해왔다. 뉴욕타임스는 저작권 침해를 이유로 마이크로소프트와 오픈AI를 상대로 소송을 제기했는데, 이 과정에서 자사 기사들이 웹에서 무단으로 스크래핑돼 챗봇 응답에 거의 그대로 복사됐다고 주장하며 AI 훈련 데이터 제공에 커먼 크롤이 관여했다고 지적한 바 있다. 커먼 크롤은 자사 콘텐츠를 웹 크롤링 대상에서 제외해 달라고 요청할 수 있는 '옵트아웃' 등록 제도를 마련했으나 이를 사실상 우회해 콘텐츠를 스크래핑한다는 실효성 논란도 제기됐다.

NMA는 커먼 크롤이 연구자, 학자들이 활용할 수 있는 웹 크롤링 기록 데이터 소스를 표방하고 있으나, 본래 목적에서 벗어나 대형 AI 기업들의 이익을 위해 이용되고 있다고 비판했다. NMA는 커먼 크롤의 아카이브가 언론사의 허가 없이 상업용 AI 모델 훈련에 주로 활용되어 왔다고 주장하며 “뉴스 콘텐츠를 무단으로 스크래핑하고 배포함으로써 광범위한 저작권 침해를 조장하고, 콘텐츠를 정당하게 라이선스할 수 있는 기회를 빼앗고 있다”고 비판했다.

다니엘 코피(Danielle Coffey) NMA 대표는 “커먼 크롤은 우리의 허락 없이 노골적으로 콘텐츠를 가져가면서 이미 수집한 콘텐츠를 삭제해달라는 옵트아웃 요청마저 무시하고 있다”며 “커먼 크롤이 스스로 주장하는 '선의의 행위자'답게 행동하고 이러한 요청을 수용하며, 자신들이 스크래핑한 콘텐츠가 명시적 허가 없이는 상업적 용도로 사용될 수 없음을 이용자들에게 분명히 밝혀줄 것을 촉구한다”고 말했다.