챗지피티가 뉴스를 공짜로 갖다 쓴다?…“명백한 저작권 침해”

정인선 2023. 9. 4. 10:05
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

‘코로나19가 한국에 처음 발병한 날 시점에서 그 소식을 전하는 기사를 작성해 줘.’

1일 생성형 인공지능 챗지피티(ChatGPT)에게 이같은 주문을 했더니, ‘한국 최초 코로나19 확진, 새로운 바이러스에 대한 우려’라는 기사를 내놨다. “2020년 1월20일, 대한민국에서 코로나19가 최초로 확인되었다. 중국 우한에서 시작된 이 바이러스는 세계적으로 확산되고 있는 상황에서 한국에까지 도달했다. 한국 보건 당국은 지난주 중국에서 입국한 환자 중에서 첫 확진자를 발견했으며, 환자는 격리 치료 중이다.”

아직은 정확한 ‘뉴스’라고 보기는 힘들지만 날짜와 내용 등은 ‘기사’와 가깝게 작성될 수 있다는 것을 보여준 예다. 생성형 인공지능의 진보 속도를 볼 때 인공지능이 기사를 작성하는 시대가 멀지 않았음을 보여준다.

인공지능이 이같이 기사에 가깝게 글을 작성할 수 있게 신뢰할 만한 정보를 어디에서 확보한 것일까? 국내외 언론사들은 빅테크(대형 정보통신 기업)가 인공지능을 학습시키기 위해 뉴스를 무단으로 활용하고 있다고 주장한다. 공들여 취재한 콘텐츠인데 공짜로 활용하는 등 저작권을 침해하고 있다는 것이다.

온라인신문협회는 지난달 31일 “인공지능 학습은 기존 뉴스 서비스 약관에 규정된 서비스와 질적으로 다른 차원의, 원저작물을 가공한 서비스”라며 “옛 약관의 ‘연구 목적’ 조항을 근거로 동의 없이 뉴스를 무단 사용한 것은 불공정할 뿐 아니라 명백한 저작권 침해”라는 입장을 네이버·카카오·구글코리아·마이크로소프트(MS) 등 국내외 빅테크에 전달했다.

앞서 한국신문협회도 지난달 22일 “생성형 인공지능 개발 시 사전 동의나 출처 명기 없이 뉴스 콘텐츠를 활용하는 등 광범위한 저작권 침해 행위를 멈추라”고 빅테크에 요구했다. 빅테크가 생성형 인공지능 기술 개발에 뉴스 콘텐츠를 이용하는 기준과 방식, 구체적 이용 절차 등을 저작권자인 언론사들과 미리 협의하고 합당한 보상 체계도 마련하라는 요구였다.

이같은 요구는 국외 언론에서 먼저 시작했다. 뉴욕타임스·월스트리트저널·워싱턴포스트·에이피(AP)통신·비비시(BBC)·가디언 등 50개 이상 미디어 그룹이 가입한 기구인 ‘디지털 콘텐츠 넥스트’(DCN)는 지난 6월 “생성형 인공지능 시스템이 학습이나 결과물을 산출하기 위한 목적으로 언론사들의 콘텐츠를 이용하는 행위 대부분이 저작권법 위반 예외로 허용되는 ‘공정 이용’ 위를 넘어선다”며, 지식재산권 보호, 투명성, 책무성, 공정성, 안전성 등을 보장하기 위한 ‘생성형 인공지능 개발 및 거버넌스를 위한 7가지 원칙’(표)을 만들어 공개했다.

아예 미국 뉴욕타임스는 최근 누리집 이용약관을 ‘사전 합의 없는 인공지능 학습 목적의 데이터 활용을 금지한다’는 내용을 새로 넣었다. 로이터·시엔엔(CNN)·뉴욕타임스 등 언론사와 전자상거래 기업 아마존 등은 지난달 초 ‘챗지피티’(ChatGPT) 개발사인 ‘오픈에이아이’(OpenAI)의 웹 크롤링(데이터 긁어모으기) 도구 ‘지피티봇’의 누리집 접근을 차단하기도 했다.

언론사들의 이같은 대응은 빅테크가 뉴스를 기반으로 인공지능을 개발하는 것이 언론사의 존재를 위협할 수 있다고 보기 때문이다. 월스트리트저널을 발행하는 다우존스의 최대 주주 ‘뉴스코프’의 로버트 톰슨 최고경영자는 “생성형 인공지능의 검색 결과는 언론사들의 엄청난 노력과 통찰력을 담고 있지만, 결과적으로 독자들이 언론사 누리집에 더는 방문하지 않게 설계됐다”고 말했다.

그러나 빅테크는 인공지능 학습용으로 뉴스를 활용하고 있는지조차 정확히 알리지 않고 있다. 최수연 네이버 대표는 지난달 24일 거대언어모델(LLM) ‘하이퍼클로바엑스(X)’를 정식 출시하며 “지금까지 뉴스 콘텐츠를 얼마나 학습했는지 등은 기존의 규제와 약관에 근거한 것이기에 밝히기 어렵다”고 말을 아꼈다. 이어 “앞으로 (언론사 데이터를) 학습에 활용하는 부분에 대해서는 여러 창구가 있으니 계속 긴밀하게 협의하며 동의도 받고, 싫다고 하시는 부분에 대해서는 활용하지 않는 쪽으로 계획을 잡고 있다”고 입장을 밝혔다.

카카오는 한겨레에 “미국 비영리단체 커먼크롤이 개방형 접근(오픈소스) 방식으로 공개한 데이터만 사용하고 있다. 학습 데이터 저작권이나 인공지능이 생성한 콘텐츠의 저작권과 관련한 논의가 국내에서 막 시작되는 단계인 만큼 필요하다면 적극 참여하겠다”고 밝혔다.

빅테크가 ‘논의에 참여하겠다’ 정도로 입장을 밝힌만큼 ‘뉴스 학습 데이터 유료화’ 등 언론사 요구와는 아직 간격이 크다. 이대희 고려대 법학전문대학원 교수는 “스태빌리티에이아이(AI), 미드저니 등 이미지 생성 인공지능 기업들이 저작권 침해를 주장하며 소송을 건 화가들에게 ‘구체적으로 어떤 저작물을 베꼈다는 것인지 알려달라’는 식으로 응수했다”며 “한국을 포함한 대부분 국가가 저작권 침해를 주장하는 쪽에 침해 사실 입증 책임을 지우고 있어 법적 다툼까지 가더라도 언론사들이 불리할 수 있다”고 말했다.

염호준 법무법인 태평양 변호사는 지난 7월 한국지능정보화진흥원(NIA)이 연 토론회에서 “2000년대 초반 엠피스리(MP3) 기술이 처음 나왔을 때 불법 파일 복제·전송을 방조한 소리바다 등 음원 공유 서비스들에 법적 책임을 물은 전례가 있다”고 소개했다. 저작권 보호를 위한 필터링 등 기술 발전에 따라 논의의 접점을 찾을 수 있다는 주장이다.

인공지능 개발 기업과 언론사가 학습용 데이터와 기술 활용권을 맞바꾸기로 한 사례도 있다. 미 통신사 에이피는 1985년부터 생산한 뉴스 콘텐츠를 챗지피티 학습에 쓸 수 있도록 오픈에이아이에 제공하는 대신, 인공지능 기술에 대한 우선 접근권을 확보했다고 밝혔다.

정인선 기자 ren@hani.co.kr

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?