"AI 학습 금지합니다"…데이터 저작권 논란 확산

이승우 2023. 8. 27. 17:38
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

초거대 인공지능(AI) 기반의 생성 AI 서비스가 잇따르면서 AI 학습에 사용한 데이터를 둘러싼 저작권 갈등도 끊이지 않고 있다.

27일 정보기술(IT)업계에 따르면 뉴욕타임스(NYT), 로이터, CNN 등 주요 외신은 최근 오픈AI가 자사 뉴스·블로그 사이트의 콘텐츠를 임의로 수집하지 못하도록 챗GPT의 웹 크롤러를 차단했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

NYT, 챗GPT 웹 크롤러 차단
네이버는 국내 언론사 기사 활용
신문協 "불공정 행위…보상 마련"

초거대 인공지능(AI) 기반의 생성 AI 서비스가 잇따르면서 AI 학습에 사용한 데이터를 둘러싼 저작권 갈등도 끊이지 않고 있다.

27일 정보기술(IT)업계에 따르면 뉴욕타임스(NYT), 로이터, CNN 등 주요 외신은 최근 오픈AI가 자사 뉴스·블로그 사이트의 콘텐츠를 임의로 수집하지 못하도록 챗GPT의 웹 크롤러를 차단했다. 웹 크롤러는 웹사이트를 돌아다니며 데이터를 수집하는 자동화된 프로그램이다.

기사는 대규모언어모델(LLM) 학습에 가장 유용한 데이터로 손꼽힌다. 각종 정보를 담고 있을뿐더러 언어를 논리적으로 구사하고 있어 LLM의 성능을 높일 수 있다는 평가를 받는다. 최수연 네이버 대표는 최근 자체 개발한 LLM 하이퍼클로바X를 발표하면서 “뉴스가 AI 학습과 개발에 필요한 가장 고품질 데이터”라고 설명했다.

챗GPT와 구글의 바드 등 해외 LLM과 하이퍼클로바X 같은 국내 AI 모델 모두 기사를 학습에 활용하고 있다. 이 같은 사실이 알려지면서 언론사가 AI 개발회사를 대상으로 제동을 걸고 나섰다. 웹 크롤러를 차단해 데이터 사용을 막은 것은 물론 사용료 협상을 벌이기도 한다. 지난 5월에는 구글이 NYT에 기사를 AI 학습에 활용하는 대가로 3년간 1억달러(약 1300억원)를 지급하기로 했다.

한국에서도 비슷한 논란이 시작됐다. 네이버는 하이퍼클로바X 학습 과정에 뉴스 공급 계약을 맺은 언론사의 기사를 활용 중이다. 한국신문협회는 이에 대해 ‘불공정 행위’라며 네이버, 카카오, 구글코리아 등을 상대로 저작권자와 이용 기준 협의, 학습 데이터 출처 공개, 보상 체계 마련 등을 요구하기도 했다.

이미지는 텍스트보다 먼저 학습 데이터를 둘러싼 저작권 논쟁이 벌어졌다. 이미지 생성 AI 스테이블 디퓨전의 제작사인 스테빌리티AI는 세계 최대 이미지 제공 업체인 게티이미지로부터 고소당했다. 올해 1월에는 미국의 창작자 세 명이 업계를 대표해 미드저니를 비롯한 생성 AI 개발사에 집단 소송을 제기했다.

이승우 기자 leeswoo@hankyung.com

클래식과 미술의 모든 것 '아르떼'에서 확인하세요
한국경제신문과 WSJ, 모바일한경으로 보세요

Copyright © 한국경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?