“데이터 무단 학습 싫어요”…GPT봇 차단 급증, 보상 논의 급물살

김은성 기자 2023. 8. 28. 21:52

번역beta Translated by kaka i

닫기

글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

매우 작은 폰트
작은 폰트
보통 폰트
큰 폰트
매우 큰 폰트

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

닫기

생성형 인공지능(AI) 서비스 출시가 잇따르면서 데이터 무단수집을 둘러싼 저작권 갈등이 본격화하고 있다. AI가 저작물을 동의 없이 썼다며 작가 등의 손해배상 소송이 해외에서 잇따르는 가운데 챗GPT의 정보수집을 차단하는 사이트가 늘고 있다.

27일(현지시간) AI 콘텐츠 정보 제공업체인 오리지널리티 AI에 따르면 지난 22일 기준 세계에서 인기 있는 사이트 1000개 중 챗GPT의 정보수집 도구인 ‘GPT봇’을 차단한 사이트가 9.2%로 늘어난 것으로 집계됐다.

GPT봇은 챗GPT 개발사인 오픈AI가 거대언어모델(LLM) 학습에 필요한 데이터를 수집하는 새로운 웹 크롤러로 이달 7일 공개됐다. 오픈AI는 GPT봇을 공개하면서 정보수집과 이용을 원치 않는 사이트 소유자에게 GPT봇의 크롤링을 차단하는 방법도 함께 안내했다. GPT봇 공개 후 첫주인 지난 15일에는 GPT봇 차단율이 4%대에 그쳤으나, 2주 차에는 10%까지 늘어났다. 특히 인기 있는 주요 사이트 100개로 범위를 좁히면 차단율이 15%에 달해 이용자가 많은 사이트일수록 차단율이 높은 것으로 나타났다.

GPT봇을 차단한 사이트에는 뉴욕타임스와 로이터통신, CNN방송, 비즈니스 인사이더 등의 대형 언론사들이 대부분 포함됐다. 언론사 기사는 LLM 학습에 가장 유용한 데이터로 꼽힌다. 정제된 정보와 논리적인 언어를 구사해 LLM의 성능을 높이기 좋아서다.

로이터는 GPT봇 공개 다음날인 지난 8일 웹 크롤링을 차단해 주요 사이트 중 가장 먼저 정보수집을 막았다. 그 외 아마존과 에어비앤비, 이케아 등 인기 서비스를 제공하는 대형 기업들도 GPT봇 차단 행렬에 동참했다.

공정거래위원회는 네이버의 이용약관이 이용자의 콘텐츠 저작권 등을 침해한다는 취지의 신고를 접수받아 관련된 약관 조항의 불공정 여부를 살펴보고 있다. 해당 약관은 ‘여러분이 제공한 소중한 콘텐츠는 네이버 서비스를 개선하고 새로운 네이버 서비스를 제공하기 위해 인공지능 분야 기술 등의 연구 개발 목적으로 네이버 및 네이버 계열사에서 사용될 수 있다’고 규정하고 있다. 공정위는 정부에서 진행되고 있는 관련 정책과 입법 논의 등을 참고해 사안을 검토할 예정이다.

김은성 기자 kes@kyunghyang.com

이 기사에 대해 어떻게 생각하시나요?

경향신문에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

“데이터 무단 학습 싫어요”…GPT봇 차단 급증, 보상 논의 급물살