"챗 GPT 공짜 학습 안 돼"...뉴욕타임스·CNN 정보 모으기 막는다

김지현 2023. 8. 29. 04:30
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

초거대 인공지능(AI) 기반의 생성형 AI 서비스가 늘어나면서 공짜 데이터 사용 논란이 국내외에서 점점 거세지고 있다.

아마존, 뉴욕타임스(NYT) 등은 아예 생성형 AI의 대표주자인 챗GPT가 정보를 무단 수집하지 못하도록 막아 공짜 이용을 차단했다.

생성형 AI의 공짜 학습을 사전에 차단하는 기업은 당분간 늘어날 것으로 보인다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

NYT·로이터·아마존 등 자료 제공 차단
'챗GPT'를 비롯한 생성형 인공지능(AI)을 개발하는 글로벌 빅테크들의 '공짜 데이터 이용' 논란이 커지고 있다. 오픈AI 홈페이지 캡처

초거대 인공지능(AI) 기반의 생성형 AI 서비스가 늘어나면서 공짜 데이터 사용 논란이 국내외에서 점점 거세지고 있다. 전 세계 언론사와 주요 기업들이 "창작물 저작권을 무단으로 이용하지 말라"며 글로벌 빅테크에 제동을 걸면서다. 아마존, 뉴욕타임스(NYT) 등은 아예 생성형 AI의 대표주자인 챗GPT가 정보를 무단 수집하지 못하도록 막아 공짜 이용을 차단했다.


"NYT, 로이터, 아마존, 에어비앤비 등 줄줄이 GPT봇 차단"

생성형 인공지능인 챗GPT의 '공짜 정보 수집'에 반대하는 기업들이 늘어나고 있다. 게티이미지뱅크

27일(현지시간) 미국 AI 콘텐츠 정보 제공업체 오리지널리티AI(Originality.AI)는 22일 기준 세계에서 가장 인기 있는 사이트 1,000개 중 챗GPT의 정보 수집 툴인 'GPT봇'을 차단한 사이트가 9.2%에 달한다고 밝혔다. GPT봇은 챗GPT를 개발한 오픈AI가 GPT 언어모델 학습에 필요한 데이터를 자동으로 수집하는 새로운 '웹 크롤러'다.

사건의 발단은 이렇다. 오픈AI는 7일 GPT봇을 새로 공개하면서 "정보 수집·이용을 원하지 않는 사이트는 허용하지 말라"며 크롤링을 차단하는 방법을 알렸다. AI가 공부하는 동안 뉴스, 논문, 서적, 사회관계망서비스(SNS) 등 각종 데이터를 마구잡이로 쓴다는 비판이 커지자 저작료 지급 문제를 피해가기 위해 '꼼수 제안'으로 치고 나선 셈이다.

그러자 주요 기업과 언론사 등이 오픈AI의 제안을 그대로 수용하며 맞받았다. 자사의 콘텐츠와 제품 정보를 포함한 모든 데이터를 끌어가지 못하게 막은 것이다. NYT, 로이터, CNN방송, 블룸버그, 니혼자이게이신문(니케이), 비즈니스인사이더 등 언론사를 비롯해 아마존, 에어비앤비, 론니플래닛, 셔터스톡 등 기업들도 이름을 올렸다. 오리지널리티AI 분석 결과 오픈AI의 공지 이후 첫 주인 15일에 GPT봇 차단율이 5% 미만이었지만 2주 차에 10%까지 올랐다. 특히 인기 사이트의 범위를 상위 100개로 좁히면 차단율은 15%까지 치솟았다.


빅테크 저작료 지급 외면… 줄소송 예상도

최수연 네이버 대표가 지난 24일 서울 강남구 그랜드인터컨티넨탈 서울 파르나스에서 콘퍼런스를 열고 초대규모 AI인 '하이퍼클로바X'를 소개하고 있다. 네이버 제공

생성형 AI의 공짜 학습을 사전에 차단하는 기업은 당분간 늘어날 것으로 보인다. 글로벌 빅테크 상당수가 저작료 지급에 소극적이기 때문이다. 최근 초거대 AI 하이퍼클로바X를 공개한 네이버도 국내 언론사 기사를 공부시켰지만 약관에 따라 제공받았기에 사용료 지급 대상이 아니라고 못 박았다. IT업계 관계자는 "초거대 AI를 만드는 빅테크와 생성형 AI를 개발한 스타트업이나 개별 기업 중 누가 저작료를 내느냐가 불분명한 상황 아니냐"며 "고양이 목에 방울을 달 필요가 없는 것"이라고 말했다. 실제 오픈AI 등 주요 AI 개발사들은 저작료 지불 대란을 우려해 자사의 AI 모델이 어떤 데이터를 어떤 방법으로 학습했는지 상세히 공개하지 않고 있다.

결국 저작료를 둘러싼 논란은 빅테크를 상대로한 줄소송으로 번질 전망이다. 영국에선 1월 사진·이미지를 제공하는 게티이미지가 유료 이미지를 불법 활용한 생성형 AI를 개발한 도구 '스테이블 디퓨전' 개발사 스태빌리티AI를 영국 런던 고등법원에 고소했다. GPT봇을 차단한 로이터 관계자는 가디언에 "지적재산권은 사업의 생명선이기 때문에 콘텐츠의 저작권을 보호하는 것이 필수적"이라고 말했다.

김지현 기자 hyun1620@hankookilbo.com
이유진 기자 iyz@hankookilbo.com

Copyright © 한국일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?