애플·엔비디아, AI 개발때 유튜브 자막 훔쳐…"17만 건 무단사용"

이정현 미디어연구소 2024. 7. 17. 16:40
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

애플, 엔비디아 등 세계 최대 규모 기술 회사들이 대량의 유튜브 자료를 동의 없이 무단으로 사용해 논란이 되고 있다.

프루프 뉴스(Proof News)에 따르면, 애플, 엔비디아, 앤트로픽, 세일즈포스 등 주요 기업들은 사용자의 동의 없이 약 17만 3천 건이 넘는 유튜브 영상 자막을 인공지능(AI) 서비스 훈련에 사용했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(지디넷코리아=이정현 미디어연구소)애플, 엔비디아 등 세계 최대 규모 기술 회사들이 대량의 유튜브 자료를 동의 없이 무단으로 사용해 논란이 되고 있다.

프루프 뉴스(Proof News)에 따르면, 애플, 엔비디아, 앤트로픽, 세일즈포스 등 주요 기업들은 사용자의 동의 없이 약 17만 3천 건이 넘는 유튜브 영상 자막을 인공지능(AI) 서비스 훈련에 사용했다.

AI 데이터셋 업체 엘루서 AI(EleutherAI)가 만든 이 데이터 세트에는 4만8천 개 이상의 채널에서 17만3천536개의 유튜브 동영상 자막이 사용된 것으로 알려졌다.

사진=애플

해당 데이터세트는  유튜브 영상이나 이미지는 포함되어 있지 않으나, 유명 기술 평론가 마크케스 브라운리(Marques Brownlee), 세계 최다 구독자를 보유한 유명 유튜버 미스터 비스트(MrBeast)를 포함해 뉴욕타임스, BBC, ABC 뉴스 등의 대형 유튜브 영상 의 자막이 포함되어 있었다.

브라운 리는 자신의 엑스를 통해 “애플은 여러 회사로부터 AI용 데이터를 공급받았다"며, “그 중 한 회사가 저를 포함한 수많은 데이터·자막을 유튜브 동영상에서 스크랩했다”고 밝히며, "이 문제는 오랫동안 문제가 될 것"이라고 덧붙였다.

사진=씨넷

구글 대변인은 유튜브 데이터를 사용해 AI 모델을 훈련하는 회사는 유튜브 플랫폼의 약관 및 서비스를 위반한 것이라고 언급한 닐 모한 유튜브 최고 경영자(CEO)의 과거 발언이 여전히 유효하다고 엔가젯에 밝혔다.

해당 보도에 대해 애플, 엔비디아, 앤트로픽, 엔루서 AI 등은 입장을 내놓지 않았다.

세계 최대 콘텐츠 저장소인 유튜브는 자막 뿐만 아니라 오디오, 비디오, 이미지도 풍부하게 보유해 AI 모델을 훈련시키기에 매력적인 데이터 세트로 평가 받는다. 

올해 초 미라 무라티 오픈AI 최고기술책임자(CTO)는 자사 AI 모델인 소라(Sora)를 훈련시키기 위해 유튜브를 참조했는지에 대한 질문에 "사용된 데이터의 세부 사항에 대해서는 언급하지 않겠지만, 그것은 공개적으로 이용 가능한 데이터나 라이선스가 부여된 데이터였다"라며 직접적인 언급을 피한 바 있다. 

이번 조사 결과는 일부 AI 기술이 콘텐츠 제작자의 동의나 보상없이 빼돌린 데이터를 기반으로 구축되었다는 불편한 진실을 강조한다고 엔가젯은 평했다.

이정현 미디어연구소(jh7253@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?