AI가 촉발한 ‘데이터 근친교배’…‘가짜 트래픽’ 투성, ‘슬롭’만 넘친다 [AI 딥다이브]

노승욱 매경이코노미 기자(inyeon@mk.co.kr) 2026. 2. 26. 21:03

번역beta Translated by kaka i

닫기

글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

매우 작은 폰트
작은 폰트
보통 폰트
큰 폰트
매우 큰 폰트

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

닫기

“나는 ‘죽은 인터넷 이론’을 진지하게 받아들인 적이 없었지만, 이제는 정말 많은 LLM 기반 트위터(X) 계정들이 있는 것 같다.” (샘 올트먼 오픈AI CEO, 2025년 9월)

정보의 바다이자 자유로운 토론의 장이었던 인터넷이 AI가 만든 가짜 트래픽과 저질 콘텐츠에 의해 오염되고 있다는 ‘죽은 인터넷 이론’이 주목받고 있다. 스팸(spam)이 메일함과 문자메시지를 점령했듯, AI가 배설한 ‘슬롭(slop, 잠깐용어 참조)’이 인터넷을 잠식하고 있다는 경고가 쏟아진다.

페이스북의 ‘새우 예수(Shrimp Jesus)’ 이미지는 AI가 만든 쓰레기 데이터 ‘슬롭’의 대표 사례로 꼽힌다. (페이스북 캡처)

웹 트래픽 51%가 ‘봇’

10년 만에 처음으로 절반 넘어

죽은 인터넷 이론은 2010년대 후반부터 온라인 커뮤니티를 중심으로 제기돼왔다. 인터넷상의 조회 수(트래픽)와 콘텐츠의 상당 부분이 자동화된 알고리즘과 AI에 의해 생성되며, 인간의 순수한 소통은 갈수록 자취를 감추거나 ‘봇 트래픽’에 밀려나고 있다는 가설이다. 초기에는 허무맹랑한 음모론으로 취급됐던 이 이론은 최근 AI 전문가들도 잇따라 우려를 제기할 만큼 현실화되는 모습이다.

우선 AI를 활용한 ‘가짜 트래픽’ 비율이 눈에 띄게 급증했다. ‘2025년 임퍼바 악성 봇 보고서’에 따르면, 자동화된 봇 트래픽은 2024년에 전체 웹 트래픽의 51%를 차지, 10년 만에 처음으로 인간이 생성한 트래픽을 넘어섰다. 트래픽만 가짜가 아니다. 온라인상의 콘텐츠도 사람이 아닌, AI가 만든 것들이 넘쳐난다. 글로벌 검색 데이터 분석 기관 에이치레프스가 지난해 4월 신규 영어 웹페이지 90만개를 분석한 결과, 순수하게 사람이 만든 콘텐츠는 25.8%에 불과했다.

SNS에도 AI가 작성한 것으로 보이는 콘텐츠나 댓글, 좋아요 표시가 범람하고 있다. 페이스북의 ‘새우 예수(Shrimp Jesus)’가 대표 사례다. 예수의 몸이 새우나 게로 되어 있는 기괴한 AI 이미지임에도 수십만 개의 ‘좋아요’를 받고, “아멘”이라 외치는 댓글이 도배됐다. AI의 흔한 실수로 알려진 ‘손가락이 6개인 인물’에도 역시 수천 개의 좋아요가 쏟아진다. AI가 만든 콘텐츠에 AI 봇들이 자동으로 좋아요와 댓글을 단 것이다.

유튜브, 숏츠, 틱톡, 릴스 등에는 AI 음성, 챗GPT로 쓴 대본을 결합한 양산형 영상들이 쏟아진다. 인스타그램은 특정 게시글을 올리자마자 수 초 내에 수십 개의 봇 계정이 몰려와 좋아요를 누르고 댓글이 달린다. 인기 게시글로 띄워 더 많은 이들에게 노출시키기 위한 마케팅 기법이다. 쿠팡, 네이버 등 온라인 쇼핑 플랫폼에 달린 구매 후기, 이용 후기도 생성형 AI가 만든 것으로 보이는 칭찬 일색의 댓글이 심심찮게 발견된다.

AI의 배설물 먹고 크는 AI

‘모델 붕괴’의 디스토피아 우려

상황이 이렇자 AI가 인터넷을 잠식해가는 현상에 대한 우려의 목소리가 갈수록 높아지고 있다.

미국 메리엄웹스터 사전은 지난해 ‘올해의 단어’로 ‘슬롭(slop)’을 선정했다. AI가 대량 생산한 저품질 디지털 콘텐츠를 뜻한다. 인터넷과 SNS가 슬롭에 의해 빠르게 잠식당하고 있다는 문제 의식을 반영했다.

AI가 AI의 배설물을 먹고 크는 이른바 ‘데이터 근친교배’가 진행되면서, 정보의 다양성은 사라지고 편향과 오류만 증폭되는 ‘모델 붕괴’가 가시화된 것 아니냐는 우려도 제기된다.

모델 붕괴란 AI가 인간이 아닌, AI가 생성한 데이터를 지속적으로 재학습하며 점차 콘텐츠 품질이 저하되는 현상을 말한다. 이는 AI가 알고리즘상 가장 평균적이고 무난한 답변을 하는 경향에 기인한다. 인간이 창작한 데이터만 학습할 수 있었던 1세대 AI는 이를 종합해서 그럴듯한 답변을 해왔다. 그런데 1세대 AI가 만든 콘텐츠가 많아지면, 이를 학습한 2세대 AI는 그보다 더 무난한 답변을 하게 된다. 세대를 거듭할수록 AI 답변은 단순해지는 데다, ‘AI 환각’으로 인해 잘못된 정보도 확대재생산될 가능성이 높다. 사실에 기반한 다양성 대신, 환각이 섞인 뻔한 답변만 남게 되는 미래. AI가 만든 콘텐츠가 범람하면 일어날 것으로 예상되는 디스토피아다.

모델 붕괴를 막으려면 인간이 만든 양질의 콘텐츠가 지속 공급돼야 한다. 그러나 AI가 학습할 수 있는 콘텐츠가 바닥을 드러내고 있다는 게 전문가들의 진단이다. 에포크AI연구소(Epoch AI) 소속 파블로 빌라로보스 등 연구진은 지난 2024년 발표한 보고서 ‘데이터가 고갈될 것인가? 인간이 생성한 데이터에 기반한 LLM 확장의 한계’를 통해 빠르면 2026년에 AI가 학습할 수 있는 인터넷상의 데이터가 소진될 것으로 내다봤다. 구글 등 웹 데이터를 분석한 결과, 고품질 텍스트 데이터의 유효 재고는 약 300조~500조개 수준인데, LLM 학습에 투입되는 데이터 양은 매년 약 2.4배씩 급증하고 있어 곧 수요가 공급을 추월하는 ‘데이터 절벽’ 현상이 발생할 수 있다는 것. 일론 머스크 테슬라 CEO도 지난해 1월 인터뷰를 통해 “AI가 학습 가능한 인간 지식의 총량을 이미 소진했다. 이제는 AI가 스스로 만든 데이터를 다시 학습하는 단계로 넘어가고 있다. 이 과정이 반복되면 ‘모델 붕괴’ 현상이 나타날 수 있다”고 말했다.

죽은 인터넷, 다시 살리려면

AI 콘텐츠 구분…‘인간 데이터’ 늘려야

인터넷이 다시 생명력을 얻기 위해선 우선 인간과 AI가 만든 콘텐츠를 구분할 수 있도록 표시해 인간 소외를 막고, 가짜 콘텐츠의 무분별한 범람을 차단해야 한다는 주장이 나온다.

영국 옥스퍼드대와 케임브리지대 연구진은 네이처(Nature)지에 발표한 논문을 통해 “모델 붕괴를 막으려면 학습 데이터 중 인간이 만든 원본 데이터를 식별해 보존하는 기술과 AI 생성 콘텐츠에 대한 투명한 표기가 필수적”이라고 제안했다.

인간만이 만들 수 있는 고차원적인 콘텐츠를 확산시키려는 움직임도 포착된다. 챗봇 그록(Grok)을 서비스하는 ‘xAI’는 최근 그록 훈련을 위해 시간당 최대 125달러(약 20만원)를 지급하는 작문 전문가 채용을 시작했다. 대형 출판 계약자, 주요 문학상 후보 등 문학적 역량이 뛰어난 고급 인간 창작자가 대상이다. AI 간의 ‘근친교배’로 인한 모델 붕괴를 막기 위해, 콘텐츠의 다양성을 끌어올리기 위한 선발대인 셈이다.

잠깐용어 *슬롭(Slop) | AI가 무분별하게 대량 생산한 저품질 콘텐츠를 뜻하는 신조어. 과거 원치 않는 광고 메일을 ‘스팸(Spam)’이라 불렀듯, 인터넷과 SNS를 오염시키는 AI 생성 텍스트, 이미지, 영상 등을 비하하는 의미로 쓰인다. 주로 검색 엔진 최적화(SEO)나 광고 수익만을 목적으로 제작되어 정보 가치가 낮고, 데이터 생태계를 교란시키는 주범으로 꼽힌다.

[노승욱 기자 noh.seungwook2@mk.co.kr]

[본 기사는 매경이코노미 제2348호(2026.02.25~03.03일자) 기사입니다]

매경이코노미에서 직접 확인하세요. 해당 언론사로 이동합니다.

경제

AI가 촉발한 ‘데이터 근친교배’…‘가짜 트래픽’ 투성, ‘슬롭’만 넘친다 [AI 딥다이브]