뉴욕타임스, 챗GPT 학습 차단

검색엔진 자료 무단 수집 막는 ‘로봇 배제 표준’ 이용해
홈페이지에 오픈AI 자료수집 로봇 ‘GPT봇’ 접근 차단

미국 언론사 뉴욕타임스(NYT)가 오픈AI의 인터넷 자료 수집 프로그램을 차단했다. 챗GPT에 사용되는 언어모델이 자사 기사를 학습하지 못하도록 하기 위함이다.

22일 정보기술(IT) 업계에 따르면 NYT는 지난 17일(현지시간) 오픈AI의 웹 크롤러 ‘GPT봇’이 자사 홈페이지에 접근하지 못하도록 차단했다. 웹 크롤러는 인터넷 사이트를 돌아다니며 정보를 수집하는 프로그램으로, 주로 검색 엔진이나 인공지능(AI) 학습에 쓰인다.

NYT의 이러한 조치는 이른바 ‘로봇 배제 표준’을 이용한 것이다. 로봇 배제 표준은 1990년대 처음 만들어진 인터넷 규칙으로, 검색엔진이 웹사이트를 무단으로 탐색하는 것을 막기 위해 만들어졌다. 비록 강제성은 없지만 구글·네이버 등 대부분의 검색 엔진이 이를 준수하고 있어 사실상의 국제 표준으로 받아들여지고 있다.

사이트 운영자가 robots.txt라는 이름의 텍스트 파일을 저장해 놓으면, 그 안에 담긴 규칙에 따라 검색엔진이 사이트에 접근할지 말지를 판단하는 식으로 작동한다. 실제로 NYT의 로봇 배제 표준 문서에는 최근 “User-agent: GPTBot Disallow: /”라는 부분이 추가된 것으로 나타났다.

NYT는 최근 자사 기사가 AI 학습에 사용되지 못하도록 적극 조치하고 있다. 지난 3일에는 자사 약관을 개정해 AI 훈련에 자사 콘텐츠를 사용할 수 없다고 명시했다. 이 약관에 따르면 기계학습이나 AI 훈련에 NYT의 텍스트, 사진, 이미지, 오디오·비디오 등을 사용할 수 없다. 약관에는 자사의 사전 동의 없이 콘텐츠를 무단 사용할 경우 법적 책임을 묻겠다는 내용도 담겼다.

매일경제

IT/과학

뉴욕타임스, 챗GPT 학습 차단