비영리 가면 쓰고 AI 배 불린다? CNN·NBC, '데이터 창고'와 전면전

윤유경 기자 2026. 5. 4. 14:13
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

CNN, NBC 등 주요 언론사들이 인공지능(AI) 기업들의 챗봇 학습에 사용되는 웹 아카이브에 자사 콘텐츠가 저장되는 것을 막기 위한 움직임에 나섰다.

지난 1일 블룸버그 보도에 따르면, 국제 언론단체인 뉴스 미디어 연합(News/Media Alliance·NMA)은 지난달 29일 비영리 데이터 저장소 커먼 크롤(Common Crawl)에 서한을 보내 콘텐츠의 무단 스크래핑과 저장을 즉각 중단하고, 데이터베이스에 보관된 콘텐츠가 AI 기업에 의해 활용되는 것을 막기 위한 추가 조치를 마련할 것을 촉구했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[해외 미디어 동향] 뉴스 미디어 연합, 커먼 크롤에 콘텐츠 무단 스크래핑 중단 촉구
'데이터베이스 보관 콘텐츠 AI 기업에 의해 활용' 중단 위한 추가 조치 마련도 요구

[미디어오늘 윤유경 기자]

▲ 사진=Getty Images Bank

CNN, NBC 등 주요 언론사들이 인공지능(AI) 기업들의 챗봇 학습에 사용되는 웹 아카이브에 자사 콘텐츠가 저장되는 것을 막기 위한 움직임에 나섰다.

지난 1일 블룸버그 보도에 따르면, 국제 언론단체인 뉴스 미디어 연합(News/Media Alliance·NMA)은 지난달 29일 비영리 데이터 저장소 커먼 크롤(Common Crawl)에 서한을 보내 콘텐츠의 무단 스크래핑과 저장을 즉각 중단하고, 데이터베이스에 보관된 콘텐츠가 AI 기업에 의해 활용되는 것을 막기 위한 추가 조치를 마련할 것을 촉구했다. 서한에 따르면, CNN, NBC 등 20개 매체는 커먼 크롤의 온라인 저장소에 콘텐츠가 저장되지 않도록 해달라고 요청했다.

NMA는 서한에서 AI 목적의 이용을 명시적으로 금지하는 내용의 이용 약관을 추가하고, 언론사의 요청 시 저장소에서 콘텐츠를 삭제할 것을 요구했다. 아울러 △커먼 크롤은 저장소 내 스크래핑된 콘텐츠를 소유하지 않으며 해당 콘텐츠의 사용을 승인할 권한이 없음 △AI 목적을 포함한 해당 콘텐츠의 무단 사용 금지 △언론사의 지식 재산권을 존중하며 무단 사용 금지 △언론사의 요청 시 아카이브에서 콘텐츠 삭제 등의 내용을 담은 명확한 고지문을 게재할 것을 요구했다.

2007년 설립된 커먼 크롤은 온라인에 공개된 웹사이트에서 각종 데이터를 수집해 누구나 자유롭게 접근하고 활용할 수 있도록 제공하는 비영리 데이터 저장소다. 오픈AI, 구글, 메타 플랫폼 등 일부 기업들은 커먼 크롤의 방대한 콘텐츠를 챗GPT와 같은 챗봇 개발에 활용해 왔다. 블룸버그 보도에 따르면, 커먼 크롤은 오픈AI와 앤트로픽을 포함한 AI 기업들로부터 후원금도 받아왔다.

언론사들은 챗봇과 AI 기반 검색 결과가 자사 콘텐츠를 무단으로 이용하는 행위에 대해 우려해왔다. 뉴욕타임스는 저작권 침해를 이유로 마이크로소프트와 오픈AI를 상대로 소송을 제기했는데, 이 과정에서 자사 기사들이 웹에서 무단으로 스크래핑돼 챗봇 응답에 거의 그대로 복사됐다고 주장하며 AI 훈련 데이터 제공에 커먼 크롤이 관여했다고 지적한 바 있다. 커먼 크롤은 자사 콘텐츠를 웹 크롤링 대상에서 제외해 달라고 요청할 수 있는 '옵트아웃' 등록 제도를 마련했으나 이를 사실상 우회해 콘텐츠를 스크래핑한다는 실효성 논란도 제기됐다.

NMA는 커먼 크롤이 연구자, 학자들이 활용할 수 있는 웹 크롤링 기록 데이터 소스를 표방하고 있으나, 본래 목적에서 벗어나 대형 AI 기업들의 이익을 위해 이용되고 있다고 비판했다. NMA는 커먼 크롤의 아카이브가 언론사의 허가 없이 상업용 AI 모델 훈련에 주로 활용되어 왔다고 주장하며 “뉴스 콘텐츠를 무단으로 스크래핑하고 배포함으로써 광범위한 저작권 침해를 조장하고, 콘텐츠를 정당하게 라이선스할 수 있는 기회를 빼앗고 있다”고 비판했다.

다니엘 코피(Danielle Coffey) NMA 대표는 “커먼 크롤은 우리의 허락 없이 노골적으로 콘텐츠를 가져가면서 이미 수집한 콘텐츠를 삭제해달라는 옵트아웃 요청마저 무시하고 있다”며 “커먼 크롤이 스스로 주장하는 '선의의 행위자'답게 행동하고 이러한 요청을 수용하며, 자신들이 스크래핑한 콘텐츠가 명시적 허가 없이는 상업적 용도로 사용될 수 없음을 이용자들에게 분명히 밝혀줄 것을 촉구한다”고 말했다.

Copyright © 미디어오늘. 무단전재 및 재배포 금지.