[김현우의 핫스팟] "지금 이 순간도 긁어간다"···뉴욕타임스 뒷북 소송의 민낯

김현우 기자 2026. 4. 14. 20:00
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

'핫스팟(HotSpot)'
인간 의미와 AI 구조의 충돌
크롤러는 웹 구조만 살핀다
중복 데이터는 AI 오염 원인
종이 신문만 찍어내면 될 일
뉴욕타임스의 오픈AI 저작권 소송은 AI 작동 원리를 오판한 촌극이다. AI 크롤러는 기사의 가치나 저작권을 인식하지 않고 웹페이지 구조와 데이터 갱신 여부만 기계적으로 수집한다. 시스템의 데이터 소비를 '글 도둑'이라는 도덕적 프레임으로 재단하는 모순을 지적했다. /챗GPT 제작 이미지

 미국 뉴저지 해컨색(Hackensack) 코스트코 매장 출구. 쇼핑을 마친 사람들의 영수증에 형광펜을 죽죽 긋는 직원이 서 있다. 한 노신사가 카트에 담긴 프랑스산 고급 와인과 캐비어를 가리키며 장황한 설명을 늘어놓는다. "이 와인의 빈티지가 말이죠, 보르도 지방의 일조량이 어쩌고···"

직원 표정이 심드렁하다. 그의 눈은 오직 영수증에 찍힌 품목 숫자와 카트 안의 물건 개수가 일치하는지만 좇을 뿐이다. 수십만원짜리 캐비어든 1.5 달러짜리 푸드코트 핫도그든 그에겐 그저 '아이템 1개'에 불과하다. 노신사는 고상한 취향이 무시당했다며 분통을 터뜨리지만 직원의 형광펜은 야속하게 쓱 지나간다. "다음 분이요(Next)."

최근 세기의 소송이라며 호들갑을 떠는 뉴욕타임스(NYT)와 오픈에이아이(OpenAI) 저작권 침해 분쟁을 보고 있자니 코스트코 출구의 저 노신사가 떠오른다.

NYT 소송 논리는 꽤 비장하다. "감히 퓰리처상에 빛나는 우리 심층 기사를 인공지능(AI)이 무단으로 학습해 갔다!" 글쎄 얄궂지만 착각도 유분수지 싶다. 챗GPT 크롤러는 NYT가 자랑하는 웅장한 저널리즘과 문장 깊이에 눈곱만치도 관심이 없다. 이 소송은 AI 크롤러 작동 방식을 전혀 이해하지 못한 문과적 낭만에서 비롯된 촌극에 가깝다.

AI 시스템 세계는 코스트코 영수증 검사원보다 냉혹하고 기계적이다. 인간은 단어에 담긴 의미와 문맥 그리고 이름값에 목을 맨다. 한데 크롤러는 철저히 웹 페이지 구조만 편식한다. △제목 폰트 크기 △부제 유무 △목록화 여부 △링크 삽입 등을 확인한다. 그리고 어제와 비교해 인터넷주소(URL) 주변 페이지가 갱신됐는지가 전부다. 크롤러에게 NYT 심층 기사는 동네 블로거의 맛집 후기와 다를 바 없는 데이터 덩어리 1개일 뿐이다.

관련 기사: [Ψ-딧세이] 억울한 AI 크롤러···봤던 것만 자꾸 또 보는 이유

'글 도둑' 프레임의 한계

상황이 이렇다 보니 모순이 발생한다. NYT는 내 피 같은 글을 훔쳐갔다고 분노한다. 하지만 시스템 입장에서 그 데이터는 웹상에 수십 번 중복 저장돼 원본 식별조차 불가능한 찌꺼기인 경우가 허다하다. 기사 오탈자를 수정해 새로고침을 누르면 크롤러는 새로운 갱신 신호로 인식해 기계적으로 또 긁어간다. AI 엔지니어 입장에선 이런 중복 데이터가 기계학습(머신러닝) 모델 가중치를 오염시키는 골칫거리다.

 NYT는 털렸다고 핏대를 세우지만 정작 AI는 불량 데이터를 과식해 배탈이 날 지경이다. 세상은 어느새 저작권이 곧 정의라는 거대한 펜듈럼(추)을 만들어냈다. NYT는 이 시계추에 올라타 AI를 글 도둑으로 몰아세우는 프레임 전쟁을 영리하게 벌인다. 명분은 근사하지만 번지수를 한참 잘못 찾았다. 

AI는 저작권이란 윤리적 개념 자체를 인식하지 못하는 소프트웨어다. 누군가 쓴 글 링크가 확산하고 페이지 변화가 감지되면 덤덤하게 저장할 뿐이다. 글 주인이 누구인지 내용이 훌륭한지는 고려 대상이 아니다.

AI가 우리 글을 베꼈다며 의미를 부르짖는 NYT와 URL 구조가 바뀌어 저장했을 뿐이라는 크롤러. 이 동상이몽은 인간의 의미 추구와 시스템의 구조 소비가 충돌하는 AI 시대의 얄궂은 민낯이다.

지금 이 기사가 송고되는 찰나에도 크롤러는 어김없이 방문해 페이지 구조와 갱신 주기를 스캔한다. 그저 공유가 일어나고 주변에 변화가 있다면 파라미터(매개변수) 가중치로 조용히 흡수할 뿐이다. 이 차갑고 기계적인 현실을 받아들이기 어렵다면 해법은 간단하다. 기사 하단 링크 공유 버튼을 모두 없애거나 나무를 베어 종이 신문으로 곧장 돌아가라.

☞크롤러=웹페이지를 방문해 자료를 수집하는 프로그램이다. 텍스트 의미나 저작권 등은 고려하지 않고 인터넷주소(URL) 갱신 주기, 제목 폰트 등 겉으로 드러나는 구조적 요소만 파악해 기계적으로 데이터를 긁어간다.

여성경제신문 김현우 기자
hyunoo9372@seoulmedia.co.kr

*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.