공짜로 저작물 짜깁기하는 '생성형 AI'…"규제 논의해야"

핵심요약

생성형 AI 학습에 사용된 콘텐츠 저작권 침해 논란
신문협회 "법률 근거 없이 뉴스 이용, 언론사 권리 침해"
웹툰작가 노조 "남의 저작물 가져다 쓰면서 기업만 이득"
해외에선 AI 만든 사진작품 저작권 두고 2268조원 소송

생성형 인공지능(AI) 챗GPT 개발사인 오픈AI의 샘 알트만 대표. 황진환 기자

챗GPT로 대표되는 생성형 인공지능(AI)은 다양한 산업 분야로 빠르게 침투하고 있다. 쉽게 AI가 따라 할 수 없을 것으로 예상됐던 예술(작곡, 그림) 분야에서도 벽이 빠르게 허물어지고 있다.

하지만 이런 AI가 내놓은 생산물은 순수한 창작이 아니라 대량의 기존 저작물들을 학습하고 조합하는 형태로 이뤄진다. AI의 생산물을 놓고 전 세계적으로 저작권 침해 논란이 일어나고 있는 이유다.

해외에서는 이미 천문학적인 금액의 소송이 진행 중이며 국내서도 이에 대한 논의와 대응이 속도를 내고 있다.

스스로 학습하는 챗GPT 국내서도 속속 선봬

지난해 11월 미국의 인공지능 기업 오픈AI가 챗GPT를 출시했다. 챗GPT는 오픈AI의 모델인 GPT-3.5와 대화 방식으로 사용할 수 있게 만든 챗봇이다. 논문, 보고서, 자기소개서까지 이용자들이 원하는 문서를 척척 작성하면서 큰 반향을 일으켰다. 챗GPT는 기존의 데이터와 콘텐츠를 학습.활용해 새로운 '창작물'을 만들어 내는 생성형 AI의 일종이다.

GPT-3.5는 출시 두 달 만에 전 세계 월간 활성 사용자 수 1억 명을 돌파하며 인스타그램(2년 6개월), 틱톡(9개월) 등이 가지고 있던 종전 기록을 단숨에 갈아치웠다.

오픈AI의 챗GPT, 구글의 Bard 등 해외 빅테크들의 생성형 AI가 시장을 독점하는 가운데 국내서도 생성형 AI들을 속속 선보이고 있다. 지난 7월에는 LG의 '엑사원 2.0'이, 8월에는 네이버의 '하이퍼클로바X'가 출시됐다. 내달 카카오의 '코(Ko)GPT 2.0'도 공개될 예정이다.

AI의 창작은 기존 저작·작품 대량 짜깁기와 모방

문제는 생성형 AI의 학습에 이용한 뉴스 기사를 비롯한 수많은 콘텐츠에 대한 저작권 논의가 빠져있다는 것이다.

초거대 AI는 대규모 데이터를 사전학습시켜 기본 대규모언어모델(LLM)을 만든다. 하이퍼클로바X의 경우 뉴스 공급 계약을 맺은 언론사의 뉴스 50년 치와 블로그 9년 치에 달하는 한국어 데이터를 학습했다.

개발 과정에서 동의 없이 데이터를 수집해 콘텐츠 저작권과 개인정보 침해 논란이 일고 있다.

지난달 22일 신문협회는 "정당한 법률 근거 없이 뉴스 콘텐츠를 AI 학습에 이용하는 것은 언론사의 권리 침해"라는 입장을 냈다. 신문협회는 네이버를 비롯해 카카오, 구글, MS 등 국내외 대형 AI업체들에 콘텐츠 이용기준 협의, 적절한 사용료 지급 등을 요구했다.

앞서 3월에는 네이버가 AI 개발을 위해 언론사의 사전 동의 없이 뉴스 콘텐츠를 이용할 수 있도록 약관을 바꿔 불공정성 논란에 휩싸이기도 했다. 공정위가 이를 들여다봤지만, 네이버가 해당 약관을 수정하면서 일단락됐다.

네이버는 AI 학습에 블로그, 카페 이용자의 글까지 이용했다. '서비스 연구를 위해 AI 기술 등 연구개발 목적으로 정보를 이용할 수 있다'는 이용약관(2018년 5월 개정)을 근거로 삼았다.

하지만 해당 약관은 이용자의 저작물을 개별적 이용 허락과 보상 없이 연구개발에 쓰도록 했다는 점에서 '독소조항'이라는 비판을 받았다. 이에 지난달 공정거래위원회가 불공정 약관 여부를 검토하겠다고 밝혔다.

이와 같이 한국어 데이터를 대량 학습한 AI 서비스가 대거 출시되면서 국내에서도 AI 관련 저작권 논란이 뜨거워질 전망이다.

해외는 이미 AI 저작권 전쟁 중… 2300조 소송도 제기

해외에선 이미 생성형 AI의 저작권 문제에 적극 대응하고 있다. 주요 인기 사이트의 15%가 챗 GPT의 정보 수집을 차단했고, AI 개발사를 상대로 협상과 법적 분쟁까지 이루어지고 있다.

AI 콘텐츠 정보업체인 오리지널리티.AI에 따르면 지난달 22일 전 세계에서 가장 인기 있는 사이트 1000개 중 9.2%가 챗GPT의 웹 크롤러(정보 수집)를 차단했다. 이용자 수 등이 많은 주요 사이트 100개로 범위를 좁히면 차단율은 15%에 달한다.

뉴욕타임스, 로이터통신, 니케이 등 다수의 언론사에서도 오픈AI가 웹페이지에 게시된 뉴스 콘텐츠를 자동으로 긁어가는 'GPT봇'의 접근을 막았다. 사전 동의 없는 챗GPT의 콘텐츠 무단 사용을 막기 위해서다.

미국에선 테크 기업과 개별 언론사의 협상도 이미 시작됐다. 구글은 뉴욕타임스에 3년간 1억달러(약 1300억원)를 내고 기사 데이터를 구매하기로 했다. 언론사들은 협상이 결렬되면 적극적인 소송으로 대응하겠다는 입장이다.

텍스트보다 먼저 저작권 논쟁이 불붙은 곳은 사진 등 이미지 관련 저작물들이다.

지난 2월 이미지 제공 업체인 '게티이미지'가 인공지능 사진 생성 도구 개발사 '스테이빌리티 AI'를 상대로 1조 8000억 달러(한화 2268조원)에 달하는 초대형 손해 배상 소송을 제기했다.

스테이빌리티AI는 이용자가 사람이 단어나 설명을 입력하면, 기존 사진을 인공지능으로 분석·조합해 유사한 사진을 만드는 개발 업체다. 게티이미지는 스테이빌리티AI가 자사의 사진 데이터베이스를 무단 활용해 피해를 입었다고 비판했다.

국내 언론사, 뉴스 'AI 학습 이용 금지' 약관 신설

국내에서도 AI에 의한 창작자와 권리 침해를 놓고 논란이 커지고 있다. 뉴스 콘텐츠의 무단이용에 대한 반발이 거센 가운데 웹툰작가들도 꾸준히 문제를 제기하고 있다.

이에 신문협회와 온라인신문협회는 생성형 AI가 뉴스 콘텐츠를 학습할 시 정당한 대가를 지불해야 한다고 주장하고 있다. 한국일보를 시작으로 중앙일보, SBS 등 언론사에서 'AI 및 대량 크롤링 방지' 약관을 신설하기도 했다.

웹툰작가 노조도 AI 학습 시 저작물 사용료를 지급하라는 입장이다. 하신아 웹툰작가 노조 위원장은 CBS노컷뉴스와의 통화에서 "남의 창작물을 가져가 쓰면서 이득은 기업이 다 가져가는 게 상식적으로 합리적이지 못한데 현행법에선 이를 막지 못한다"며 "지금 당장 AI에 대한 윤리적인 가이드라인을 세워야 할 때"라고 강력하게 주장했다.

(※ 이 기사는 5일자로 노컷비즈에 실린 기사입니다.)

※CBS노컷뉴스는 여러분의 제보로 함께 세상을 바꿉니다. 각종 비리와 부당대우, 사건사고와 미담 등 모든 얘깃거리를 알려주세요.

이메일 :jebo@cbs.co.kr
카카오톡 :@노컷뉴스
사이트 :https://url.kr/b71afn

CBS노컷뉴스 류효림 인턴기자 nocutnews@cbs.co.kr

▶ 기자와 카톡 채팅하기▶ 노컷뉴스 영상 구독하기

이 기사에 대해 어떻게 생각하시나요?

노컷뉴스에서 직접 확인하세요. 해당 언론사로 이동합니다.

경제