“데이터 무단 학습 싫어요”…GPT봇 차단 급증, 보상 논의 급물살
생성형 인공지능(AI) 서비스 출시가 잇따르면서 데이터 무단수집을 둘러싼 저작권 갈등이 본격화하고 있다. AI가 저작물을 동의 없이 썼다며 작가 등의 손해배상 소송이 해외에서 잇따르는 가운데 챗GPT의 정보수집을 차단하는 사이트가 늘고 있다.
27일(현지시간) AI 콘텐츠 정보 제공업체인 오리지널리티 AI에 따르면 지난 22일 기준 세계에서 인기 있는 사이트 1000개 중 챗GPT의 정보수집 도구인 ‘GPT봇’을 차단한 사이트가 9.2%로 늘어난 것으로 집계됐다.
GPT봇은 챗GPT 개발사인 오픈AI가 거대언어모델(LLM) 학습에 필요한 데이터를 수집하는 새로운 웹 크롤러로 이달 7일 공개됐다. 오픈AI는 GPT봇을 공개하면서 정보수집과 이용을 원치 않는 사이트 소유자에게 GPT봇의 크롤링을 차단하는 방법도 함께 안내했다. GPT봇 공개 후 첫주인 지난 15일에는 GPT봇 차단율이 4%대에 그쳤으나, 2주 차에는 10%까지 늘어났다. 특히 인기 있는 주요 사이트 100개로 범위를 좁히면 차단율이 15%에 달해 이용자가 많은 사이트일수록 차단율이 높은 것으로 나타났다.
GPT봇을 차단한 사이트에는 뉴욕타임스와 로이터통신, CNN방송, 비즈니스 인사이더 등의 대형 언론사들이 대부분 포함됐다. 언론사 기사는 LLM 학습에 가장 유용한 데이터로 꼽힌다. 정제된 정보와 논리적인 언어를 구사해 LLM의 성능을 높이기 좋아서다.
로이터는 GPT봇 공개 다음날인 지난 8일 웹 크롤링을 차단해 주요 사이트 중 가장 먼저 정보수집을 막았다. 그 외 아마존과 에어비앤비, 이케아 등 인기 서비스를 제공하는 대형 기업들도 GPT봇 차단 행렬에 동참했다.
한국에서도 유사한 논란이 일고 있다. 한국신문협회는 지난 22일 네이버·카카오·구글코리아·MS 등 국내외 대형 정보기술(IT) 기업에 AI의 저작권 침해 방지를 위한 요구를 담은 의견서를 전달했다.
공정거래위원회는 네이버의 이용약관이 이용자의 콘텐츠 저작권 등을 침해한다는 취지의 신고를 접수받아 관련된 약관 조항의 불공정 여부를 살펴보고 있다. 해당 약관은 ‘여러분이 제공한 소중한 콘텐츠는 네이버 서비스를 개선하고 새로운 네이버 서비스를 제공하기 위해 인공지능 분야 기술 등의 연구 개발 목적으로 네이버 및 네이버 계열사에서 사용될 수 있다’고 규정하고 있다. 공정위는 정부에서 진행되고 있는 관련 정책과 입법 논의 등을 참고해 사안을 검토할 예정이다.
김은성 기자 kes@kyunghyang.com
Copyright © 경향신문. 무단전재 및 재배포 금지.
- [단독] 강혜경 “명태균, 허경영 지지율 올려 이재명 공격 계획”
- “아들이 이제 비자 받아 잘 살아보려 했는데 하루아침에 죽었다”
- 최현욱, 키덜트 소품 자랑하다 ‘전라노출’···빛삭했으나 확산
- 수능문제 속 링크 들어가니 “김건희·윤석열 국정농단 규탄” 메시지가?
- 윤 대통령 ‘외교용 골프’ 해명에 김병주 “8월 이후 7번 갔다”···경호처 “언론 보고 알아
- 이준석 “대통령이 특정 시장 공천해달라, 서울 어떤 구청장 경쟁력 없다 말해”
- “집주인인데 문 좀···” 원룸 침입해 성폭행 시도한 20대 구속
- 뉴진스 “민희진 미복귀 시 전속계약 해지”…어도어 “내용증명 수령, 지혜롭게 해결 최선”
- 이재명 “희생제물 된 아내···미안하다, 사랑한다”
- ‘거제 교제폭력 사망’ 가해자 징역 12년…유족 “감옥 갔다 와도 30대, 우리 딸은 세상에 없어