“채팅 기록, 개인 사진까지 거래”… AI 시대 ‘데이터 골드 러시’

유지한 기자 2024. 4. 11. 04:42
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

테크 기업들 데이터 확보에 사활
무단 침해… 저작권 논란 커질 듯

테크 기업들이 인공지능(AI) 성능을 높이기 위한 훈련용 데이터를 확보하는 데 사활을 걸고 있다. 데이터 ‘골드 러시’ 시대가 열렸다는 평가와 함께 데이터 무단 사용으로 인한 저작권 침해 논란이 더 커질 전망이다.

이미지 사이트 ‘포토버킷’의 최고경영자(CEO) 테드 레너드는 최근 로이터에 “생성형 AI를 훈련하려는 여러 테크 기업과 130억장에 달하는 사진과 비디오에 대한 계약을 협의 중이다”라고 말했다. 가격은 사진 한장당 5센트~1달러(약 68원~1350원), 비디오는 1달러 이상이다. 특히 빅테크들이 적극적이다. 챗GPT를 개발한 오픈AI뿐 아니라 구글과 메타 등도 AI 개발을 위해 인터넷에서 대량의 데이터를 수집한 것으로 알려졌다. 로이터는 “유료 콘텐츠뿐 아니라 채팅 기록, 소셜미디어에 올라온 개인 사진까지 모든 것이 거래되고 있다”고 했다.

AI 데이터 산업도 커지고 있다. ‘디파인드.ai’는 구글, 메타, 애플, 아마존 등 빅테크에 데이터를 제공하고 있다. 가격은 사진당 1~2달러, 영상은 2~4달러, 긴 영화는 100~300달러다. 문자의 경우 1000자에 1달러. 테크 기업들의 데이터 골드 러시는 결국 AI 성능을 높이기 위함이다. 데이터가 많으면 많을수록 더욱더 정확해지고 사람에 가까워지기 때문이다. 뉴욕타임스는 “2020년 출시된 오픈AI의 GPT-3의 경우 단어 조각인 수천억 개의 ‘토큰’으로 훈련됐다”며 “최근 대규모 언어 모델(LLM) 훈련에는 3조개가 넘는 토큰이 필요하다”고 했다.

테크 기업들이 데이터를 가리지 않고 쓸어 담으면서 저작권을 침해할 수 있다는 우려가 끊이지 않는다. 블룸버그에 따르면, AI 기업을 상대로 한 소송은 최소 20건에 달한다. 게티이미지는 ‘스태빌리티 AI’가 이미지 생성기 ‘스태이블 디퓨전’을 훈련하는 데 허가 없이 사진을 사용했다고 주장하며 1조8000억달러(약 2440조원)에 달하는 손해배상 청구 소송을 제기했다. IT업계 관계자는 “테크 기업들의 데이터 무단 도용을 막기 위해 관련 기술 개발도 활발히 이뤄지고 있다”고 했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?