데이터 공짜 수집 끝? 크롤링 잇단 차단

김규식 기자(dorabono@mk.co.kr) 2025. 7. 20. 17:54
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

검색 포털과 클라우드 서비스 플랫폼 등 주요 정보기술(IT) 업체들이 인공지능(AI)의 '공짜 데이터 수집(크롤링)'에 제동을 걸고 있다.

20일 IT 업계에 따르면 전 세계 웹 트래픽의 약 20%를 처리하는 클라우드 서비스 업체 클라우드플레어는 최근 AI 수집 프로그램이 허가 없이 웹사이트 내 뉴스, 이미지, 텍스트 등의 콘텐츠를 긁어가지 못하도록 기본적으로 차단하고 AI 기업이 데이터를 크롤링하려면 비용을 지불하도록 하는 '크롤링 건당 과금' 모델을 도입했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

글로벌 웹 트래픽 20% 처리
클라우드플레어, 유료화 나서
네이버도 블로그 등 AI봇 차단

검색 포털과 클라우드 서비스 플랫폼 등 주요 정보기술(IT) 업체들이 인공지능(AI)의 '공짜 데이터 수집(크롤링)'에 제동을 걸고 있다. 구글, 오픈AI 등 빅테크들은 검색증강생성(RAG) 기술 활용 등 대안 마련에 부심하고 있다.

20일 IT 업계에 따르면 전 세계 웹 트래픽의 약 20%를 처리하는 클라우드 서비스 업체 클라우드플레어는 최근 AI 수집 프로그램이 허가 없이 웹사이트 내 뉴스, 이미지, 텍스트 등의 콘텐츠를 긁어가지 못하도록 기본적으로 차단하고 AI 기업이 데이터를 크롤링하려면 비용을 지불하도록 하는 '크롤링 건당 과금' 모델을 도입했다. AI 업체들이 원콘텐츠를 가져와 자체적으로 답변을 생성하고, 원출처로의 유입 없이 정보가 소비되게 함으로써 콘텐츠 제작자에게 돌아가야 할 보상이 사라지고 인터넷 생태계의 지속 가능성에도 악영향을 미치고 있다는 이유에서다.

이 같은 움직임은 국내에서도 나타나고 있다. 네이버는 최근 자사 블로그와 카페 등 핵심 콘텐츠 서비스에서 오픈AI, 구글 등 글로벌 빅테크의 AI 크롤링을 차단한 것으로 알려졌다.

클라우드플레어에 따르면 구글은 6개월 전만 해도 웹사이트를 6번 크롤링할 때 1번 정도 이용자를 원본 사이트로 돌려보냈지만 최근 이 비율은 18대1로 악화됐다.

AI 기업들의 무분별한 크롤링 관행에 대한 문제의식이 확산하면서 주요 웹사이트들이 차단 조치를 강화하고 있다.

국내의 경우 국회나 공공기관, 언론사 등도 AI 크롤러의 접근을 기술적으로 통제하거나 전면 차단한 상태다. 이에 따라 AI 기업들은 최신 웹 데이터를 대량으로 수집하기 점점 더 어려운 환경에 직면하고 있다.

AI 기업들은 이 같은 상황에 대응해 RAG 기술로 방향을 틀고 있다. RAG는 이미 학습된 모델을 유지하면서 외부 검색 결과나 데이터베이스를 연동해 최신 정보를 제공하는 방식이다.

크롤링

웹 사이트를 탐색하며 필요한 정보를 자동으로 가져오는 것으로 대규모 데이터를 수집하고 분석하는 데 쓰인다. 크롤러라는 프로그램이 웹 링크를 따라 이동하며 텍스트, 이미지, 동영상 등 다양한 정보를 추출한다.

[김규식 기자]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지