뉴욕타임스, 챗GPT 학습 차단

김대은 기자(dan@mk.co.kr) 2023. 8. 22. 14:45
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

검색엔진 자료 무단 수집 막는 ‘로봇 배제 표준’ 이용해
홈페이지에 오픈AI 자료수집 로봇 ‘GPT봇’ 접근 차단
뉴욕타임스 로봇 배제 표준 문서 캡처
미국 언론사 뉴욕타임스(NYT)가 오픈AI의 인터넷 자료 수집 프로그램을 차단했다. 챗GPT에 사용되는 언어모델이 자사 기사를 학습하지 못하도록 하기 위함이다.

22일 정보기술(IT) 업계에 따르면 NYT는 지난 17일(현지시간) 오픈AI의 웹 크롤러 ‘GPT봇’이 자사 홈페이지에 접근하지 못하도록 차단했다. 웹 크롤러는 인터넷 사이트를 돌아다니며 정보를 수집하는 프로그램으로, 주로 검색 엔진이나 인공지능(AI) 학습에 쓰인다.

NYT의 이러한 조치는 이른바 ‘로봇 배제 표준’을 이용한 것이다. 로봇 배제 표준은 1990년대 처음 만들어진 인터넷 규칙으로, 검색엔진이 웹사이트를 무단으로 탐색하는 것을 막기 위해 만들어졌다. 비록 강제성은 없지만 구글·네이버 등 대부분의 검색 엔진이 이를 준수하고 있어 사실상의 국제 표준으로 받아들여지고 있다.

사이트 운영자가 robots.txt라는 이름의 텍스트 파일을 저장해 놓으면, 그 안에 담긴 규칙에 따라 검색엔진이 사이트에 접근할지 말지를 판단하는 식으로 작동한다. 실제로 NYT의 로봇 배제 표준 문서에는 최근 “User-agent: GPTBot Disallow: /”라는 부분이 추가된 것으로 나타났다.

NYT는 최근 자사 기사가 AI 학습에 사용되지 못하도록 적극 조치하고 있다. 지난 3일에는 자사 약관을 개정해 AI 훈련에 자사 콘텐츠를 사용할 수 없다고 명시했다. 이 약관에 따르면 기계학습이나 AI 훈련에 NYT의 텍스트, 사진, 이미지, 오디오·비디오 등을 사용할 수 없다. 약관에는 자사의 사전 동의 없이 콘텐츠를 무단 사용할 경우 법적 책임을 묻겠다는 내용도 담겼다.

NYT는 오픈AI를 상대로 소송도 고려하고 있는 것으로 알려졌다. 지난 16일(현지시간) 미국 NPR은 NYT 변호사들이 오픈AI가 자사 저작권을 침해했는지 검토하고 있다고 보도했다. 과거 구글은 뉴욕타임스에 3년간 뉴스 사용료 1억달러(약 1300억원)를 지급하기로 합의를 맺기도 했다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?