"AI 학습 금지합니다"…데이터 저작권 논란 확산

NYT, 챗GPT 웹 크롤러 차단
네이버는 국내 언론사 기사 활용
신문協 "불공정 행위…보상 마련"

초거대 인공지능(AI) 기반의 생성 AI 서비스가 잇따르면서 AI 학습에 사용한 데이터를 둘러싼 저작권 갈등도 끊이지 않고 있다.

27일 정보기술(IT)업계에 따르면 뉴욕타임스(NYT), 로이터, CNN 등 주요 외신은 최근 오픈AI가 자사 뉴스·블로그 사이트의 콘텐츠를 임의로 수집하지 못하도록 챗GPT의 웹 크롤러를 차단했다. 웹 크롤러는 웹사이트를 돌아다니며 데이터를 수집하는 자동화된 프로그램이다.

기사는 대규모언어모델(LLM) 학습에 가장 유용한 데이터로 손꼽힌다. 각종 정보를 담고 있을뿐더러 언어를 논리적으로 구사하고 있어 LLM의 성능을 높일 수 있다는 평가를 받는다. 최수연 네이버 대표는 최근 자체 개발한 LLM 하이퍼클로바X를 발표하면서 “뉴스가 AI 학습과 개발에 필요한 가장 고품질 데이터”라고 설명했다.

챗GPT와 구글의 바드 등 해외 LLM과 하이퍼클로바X 같은 국내 AI 모델 모두 기사를 학습에 활용하고 있다. 이 같은 사실이 알려지면서 언론사가 AI 개발회사를 대상으로 제동을 걸고 나섰다. 웹 크롤러를 차단해 데이터 사용을 막은 것은 물론 사용료 협상을 벌이기도 한다. 지난 5월에는 구글이 NYT에 기사를 AI 학습에 활용하는 대가로 3년간 1억달러(약 1300억원)를 지급하기로 했다.

이승우 기자 leeswoo@hankyung.com

▶ 클래식과 미술의 모든 것 '아르떼'에서 확인하세요
▶ 한국경제신문과 WSJ, 모바일한경으로 보세요

IT/과학

"AI 학습 금지합니다"…데이터 저작권 논란 확산