애플·엔비디아, AI학습 ‘데이터 무단사용’ 논란...“영상 17만3536건”

이상덕 기자(asiris27@mk.co.kr) 2024. 7. 17. 12:18
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 기업들이 지식재산권 보호를 강조하고 있지만, 대량의 데이터를 사용자 허용 없이 무단 사용해 논란이다.

프루프뉴스(Proof News)에 따르면, AI 기업들이 자사의 인공지능 모델을 훈련하기 위해 창작자들이 만든 책, 웹사이트, 사진, 소셜 미디어 게시물을 무단으로 수집했다.

AI 기업들이 확보한 데이터 목록을 비밀에 부치는 이유다.

EU가 AI법안을 발효하면서 향후 AI 챗봇 기업은 학습한 데이터 리스트를 전면 공개해야한다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

프루프뉴스 공개...미국 빅테크 기업
유튜브 4만8000개 채널서 무단 수집
책, 웹사이트, 사진, SNS 등도 활용
데이터셋 기업 엘루서AI가 제공
빅테크 기업
인공지능(AI) 기업들이 지식재산권 보호를 강조하고 있지만, 대량의 데이터를 사용자 허용 없이 무단 사용해 논란이다.

프루프뉴스(Proof News)에 따르면, AI 기업들이 자사의 인공지능 모델을 훈련하기 위해 창작자들이 만든 책, 웹사이트, 사진, 소셜 미디어 게시물을 무단으로 수집했다. 특히 이들은 유튜브 자막을 무단 수집해 AI 학습에 사용했다. 조사 결과 4만8000개 이상의 채널에서 17만3536개의 유튜브 동영상 자막이 도용됐다. 사용된 데이터셋은 칸 아카데미(Khan Academy), MIT, 하버드(Harvard) 등 온라인 교육 학습 채널은 물론 월스트리트 저널(The Wall Street Journal), NPR, BBC 등이다. 아울러 스티븐 콜베어(The Late Show With Stephen Colbert)의 레이트 쇼, 존 올리버(John Oliver)의 라스트 위크 투나잇(Last Week Tonight), 지미 키멜 라이브(Jimmy Kimmel Live)도 포함된 것으로 알려졌다.

프루프뉴스는 미스터비스트(MrBeast), 마르퀴스 브라운리(Marques Brownlee), 잭셉틱아이(Jacksepticeye), 피디파이(PewDiePie) 등 유명 유튜버들의 동영상도 AI 훈련에 사용됐다고 밝혔다. 이에 대해 쇼 진행자인 데이비드 팍먼은 자신의 동영상이 무단으로 사용된 것에 대해 불만을 드러냈다. 그는 “AI 기업들이 돈을 벌었다면 자신도 보상받아야 한다”면서 “이것은 내 생계이며, 콘텐츠를 만드는 데 시간, 자원, 돈, 인력을 투입했다”고 말했다.

무단 활용 프로세스는 이렇다. 엘루서AI(EleutherAI)라는 AI 데이터셋 기업이 파일(Pile)이라는 대규모 자연어 처리 데이터셋을 개발해 각사에 공급했다. 파일을 활용한 기업은 애플 엔비디아 세일스포스인 것으로 나타났다. 문제는 파일에는 대량의 무허가 데이터가 포함됐다는 점이다. 데이터 소스 확보는 오늘날 AI 경쟁의 한축을 담당하고 있다. AI 기업들이 확보한 데이터 목록을 비밀에 부치는 이유다.

하지만 이 역시 지속되지 못할 전망이다. EU가 AI법안을 발효하면서 향후 AI 챗봇 기업은 학습한 데이터 리스트를 전면 공개해야한다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?