"챗GPT 데이터 수집? 안돼"…뉴욕타임스·로이터·니케이 막았다 [팩플]
‘챗GPT 데이터 수집기 출입 금지’.
뉴욕타임스(NYT)와 로이터, 니케이 같은 해외 주요 언론사가 자사 사이트에서 오픈AI(챗GPT 개발사)의 데이터 수집을 금지했다. 아마존과 에어비앤비 같은 대형 플랫폼도 동일한 조치를 취했다. ‘기술 개발을 위해서’라는 AI 개발사의 명분에, ‘그건 네 지갑을 위한 기술’이라며 콘텐트 공급자들이 선을 그은 셈이다.
무슨 일이야
미국 IT 매체 더버지는 21일(현지시간) 뉴욕타임스가 자사 사이트에서 오픈AI의 웹크롤러(web-crawler) ‘GPT 봇’의 접근을 막았다고 보도했다. 웹 크롤러란 웹 페이지에 게시된 콘텐트를 자동으로 긁어가는 장치로, 주로 검색 엔진 등이 사용한다. 각 사이트는 국제인터넷표준화기구(IETF)의 권고에 따라 표준화된 문서(robots.txt)에 크롤링을 허용하는지 여부를 기재하는데, NYT는 오픈AI의 크롤러를 금지한다고 밝혀둔 것.
중앙일보 확인 결과, NYT 외에도 로이터·니케이, 지식검색 사이트인 쿼라(Quora) 등도 오픈AI의 데이터 대량 수집을 막아둔 것으로 나타났다. 아마존·에어비앤비·이케아 등도 자사 플랫폼 내의 제품·숙박 정보를 포함한 모든 데이터에 대해 같은 조치를 해둔 상태다. 고객을 위해 인터넷에 올려둔 정보를 오픈AI가 공짜로 가져다가 GPT 성능 키우는 데 쓰는 걸 좌시하지 않겠다는 의미다.
무슨 의미야
웹 크롤링은 검색 엔진들이 주로 사용하는데, 콘텐트가 검색 결과에 노출되는 효과가 있다. 그래서 온라인 쇼핑몰들은 검색 엔진의 크롤링을 선택적으로 허용한다. 쿠팡이 구글 광고봇의 크롤링은 허용하지만, 경쟁사인 네이버 크롤링은 금지하는 식이다. 오픈AI는 GPT봇을 소개하며 “수집한 데이터는 AI 품질 개선에 활용될 수 있다”라고 안내하고 있다.
이걸 알아야 해
챗GPT의 대중화 이후 해외에서는 콘텐트 창작자들과 AI 개발사 간 법적 공방이 한창이다. 오픈AI와 스태빌리티AI 같은 주요 AI 개발사들은 자사의 AI 모델이 어떤 데이터를 학습했는지 공개하지 않고 있다. 그래서 관련 소송이 잇따라 일어나고 있다. 스태빌리티AI는 사진·이미지 데이터베이스 회사 게티이미지로부터, 오픈AI·메타·깃허브 등은 작가와 개발자들로부터 “동의를 받지 않고 저작물을 AI 모델 훈련에 사용했다”라며 저작권 침해 손해배상 소송을 당한 상태다. 데이터 추적 플랫폼 등이 챗GPT가 NYT·로이터·월스트리트저널(WSJ) 등의 뉴스 기사를 학습했다고 분석하자, 전 세계 언론사 2000여 곳이 참여하는 뉴스미디어연합(INMA)은 AI 학습에 뉴스가 어느 정도 활용되고 있는지 조사하고 있다.
‘AI 기술 개발’ 명분과 ‘창작자 보호’ 사이에 긴장도 커지고 있다. AI 기업 친화적인 정책을 추진하고 있는 영국이 대표적이다. 영국 지식재산권부는 지난해 6월 AI 개발사에 광범위한 저작권 면책을 부여하는 정책을 발표했으나, 창작업계와 여론의 반발에 부딪혀 지난 2월 이를 공식 철회했다. 이후 지난 6월 구체적 강령을 만들기 위한 실무 그룹을 꾸렸는데, 여기에는 파이낸셜타임스·BBC·AP 같은 언론사, 스태빌리티AI, IBM·마이크로소프트(MS) 같은 빅테크, 창작자 협회 등이 참여한다.
나랑 무슨 상관인데?
국내 AI 개발사들은 ‘토종 AI 발전을 위해서’라며 ‘저작권에 구애받지 않는 데이터 학습’을 주장하고 있다. 기존 저작권법(35조의 5)에 ‘공정 이용’ 조항이 있는데, 이를 보다 명확하게 규정해 위법 걱정 없이 AI 학습에 데이터를 사용할 수 있게 해달라는 요구다. 지난달 기획재정부는 ‘서비스산업 디지털화 전략’에서 AI 학습을 위한 크롤링 등의 면책 여부를 명확히 하는 방향으로 저작권법 개정 방향을 밝힌 바 있다.
그러나 민간 AI 개발사의 AI 기술 고도화를 ‘국익’이란 이유로 역시 민간 영역인 콘텐트 저작자의 권리보다 앞세울 수 없다는 주장도 나온다. 지난 6월 국회에서 열린 한국저작권법학회 세미나에서 박수호 한국음악저작권협회 과장은 “저작물을 학습한 AI의 결과물이 곧 원 저작자의 경쟁자가 되는 상황”이라고 우려했다. 생성 AI가 만든 음악·그림 등이 범람하면 인간 창작자의 저작물 가치가 떨어질 수 있다는 것. 현행 저작권법은 공정 이용 여부를 판단할 때 ‘해당 저작물의 시장 가치에 미치는 영향’을 고려해야 한다고 되어 있다.
22일 한국신문협회는 ‘생성형 인공지능(AI)의 뉴스 저작권 침해 방지를 위한 신문협회 입장’을 내고 “정당한 법률 근거 없이 뉴스 콘텐트를 AI 학습에 이용하는 것은 언론사의 권리 침해”라고 밝혔다. 협회는 네이버·카카오·구글·MS 등 국내외 빅테크에 대해 ①뉴스 저작권자와 이용기준 협의 ②‘글로벌 AI 원칙’ 준용 공표 ③생성형 AI 학습 데이터의 출처 등 공개 ④뉴스 콘텐트 이용 방식 구체적으로 명시 ⑤뉴스 저작물에 대한 적정한 대가 산정 기준 마련 등 5대 요구사항을 전달했다.
심서현 기자 shshim@joongang.co.kr
Copyright © 중앙일보. 무단전재 및 재배포 금지.
- 내 아이 예민할까 둔할까, 생후 5분 만에 알아보는 법 | 중앙일보
- 250t 순식간에 완판…구미산 '냉동김밥' 미국서 대박 무슨 일? | 중앙일보
- 봅슬레이 강한, 25년 만에 만난 생모 사망 "온갖 죄책감으로 미안" | 중앙일보
- 부여군의원 극단적 선택…부인은 72억 투자 사기 치고 잠적 | 중앙일보
- '전 펜싱 국대' 남현희 이혼 발표…동시에 새 연인 깜짝 고백 | 중앙일보
- 신혼 첫날밤 성관계 했다가…태국인 아내에 '강간' 고소 당했다 | 중앙일보
- "버스 놓치면 끝" 비장한 아침…남들 운동할 때, 난 살려고 뛴다 [출퇴근지옥②] | 중앙일보
- 韓 103건 뿐인데 10배 많다…中 단체 관광객 몰려가는 나라 | 중앙일보
- "허탈했다"…판결 오자에 2000만원 손해, 그걸 고친 대법도 오자 | 중앙일보
- 감자전 한장에 3만원?…그래도 달콤했다, 알프스서 한달 살기 | 중앙일보