[AI 미디어 파도] AI 학습 사이트 10개 중 5개가 언론사 사이트

박서연 기자 2024. 5. 8. 14:55
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

테크 기업들이 인공지능(AI) 모델을 개발하는 과정에서 언론사 콘텐츠를 적극적으로 학습하고 있다는 연구 결과가 발표됐다.

기사에 따르면 워싱턴포스트가 AI 학습에 사용되는 거대 데이터 세트인 구글 'C4'의 1000만 개 이상 웹사이트를 분석한 결과, AI에 가장 많은 정보를 제공한 웹사이트 10개 중 5개가 언론사 사이트인 것으로 나타났다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

워싱턴포스트, AI 학습에 사용되는 1000만 개 웹 분석
10위 안에 뉴욕타임스·LA타임스·가디언·포브스·허프포스트

[미디어오늘 박서연 기자]

▲ⓒDALL·E

테크 기업들이 인공지능(AI) 모델을 개발하는 과정에서 언론사 콘텐츠를 적극적으로 학습하고 있다는 연구 결과가 발표됐다.

4월19일 미국 일간지 워싱턴포스트(WP)는 <챗GPT와 같은 AI를 똑똑하게 만드는 웹사이트의 비밀목록> (Inside the secret list of websites that make AI like ChatGPT sound smart)이란 제목의 기사를 보도했다. 기사에 따르면 워싱턴포스트가 AI 학습에 사용되는 거대 데이터 세트인 구글 'C4'의 1000만 개 이상 웹사이트를 분석한 결과, AI에 가장 많은 정보를 제공한 웹사이트 10개 중 5개가 언론사 사이트인 것으로 나타났다. 미국 뉴욕타임스가 4위에 올랐고, 미국 LA타임스가 6위, 영국 가디언이 7위, 미국 포브스가 8위, 미국 허프포스트가 9위를 기록했다.

30위 안으로 살펴도 절반 정도가 언론사 콘텐츠였다. 미국 워싱턴포스트는 11위에 올랐다. 이어 미국 비즈니스인사이더가 17위, 미국 시카고트리뷴 18위, 미국 디 애틀랜틱 20위, 카타르 알자지라 24위, 영국 일간지 텔레그래프 28위, 미국 공영방송 NPR 29위, 영국 데일리메일 30위 순이었다.

▲워싱턴포스트 화면 갈무리. AI가 학습에 활용한 웹사이트 10곳 중 5곳이 언론사다.

순위 공개에 앞서 워싱턴포스트는 “챗봇은 사람처럼 생각할 수 없다. 챗봇은 자신이 하는 말을 실제로 이해하지 못한다. 챗봇을 구동하는 AI가 인터넷에서 스크랩한 방대한 양의 텍스트를 수집했기 때문에 사람의 말을 모방할 수 있다”며 “이 텍스트는 AI가 구축되는 과정에서 세상에 대한 주요 정보 소스이며 사용자에게 반응하는 방식에 영향을 미친다”고 밝혔다.

이어 워싱턴포스트는 “기술 기업들이 AI에 어떤 데이터를 제공하는지 비밀에 부쳐왔다. 그래서 WP는 이러한 데이터 세트 중 하나를 분석해 AI 학습 데이터에 들어가는 독점적이고 개인적이며 종종 불쾌감을 주는 웹사이트 유형을 완전히 공개하기 시작했다”고 밝혔다. 챗GPT 개발사인 오픈AI는 어떤 데이터 세트를 사용하는지 공개하지 않고 있는 상황.

앞서 1000만 명 이상의 유료 독자를 확보한 뉴욕타임스는 지난해 12월 오픈AI와 마이크로소프트를 상대로 저작권 침해소송을 제기했다. NYT는 소송을 제기하면서 “뉴욕타임스가 엄청난 비용을 들여 제작한 저널리즘 콘텐츠를 무료로 활용하면서 이에 대한 적절한 보상도 없이 대체 상품을 만들어내고 있다”고 비판했다.

1000만 개 학습 사이트 중 '뉴스 및 미디어' 카테고리는 전체 카테고리에서 3위를 차지했다. 카테고리 1위는 '비즈니스 및 산업', 2위는 '기술'이었다. 워싱턴포스트는 “전체 상위 10개 사이트 중 절반이 뉴스 매체였다. 아티스트 및 크리에이터와 마찬가지로 일부 언론사들은 기술 기업이 허가나 보상 없이 콘텐츠를 사용하는 것에 대해 비판했다”고 보도했다.

Copyright © 미디어오늘. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?