사진 2달러, 영상 4달러... AI 데이터 ‘골드러시’

유지한 기자 2024. 5. 3. 03:02
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

사진 1~2달러, 영상 2~4달러, 문서는 1000자에 1달러 거래
인공지능(AI) 일러스트. /연합뉴스

생성형 인공지능(AI)을 개발하는 빅테크들은 뉴스뿐 아니라 AI 학습에 필요한 데이터라면 수단과 방법을 가리지 않고 긁어모으고 있다. 얼마나 많은 데이터를 확보하느냐가 AI의 성능을 결정하기 때문이다.

빅테크들은 AI 개발 초기에는 인터넷에서 무료로 사용할 수 있는 데이터들을 대량으로 사용했다. 데이터 종류도 가리지 않는다. 로이터는 “채팅 기록부터 오래된 소셜미디어의 개인 사진에 이르기까지 모든 것을 사용했다”고 했다. 현재 챗GPT처럼 질문을 넣으면 대답을 내놓는 ‘챗봇 시스템’은 최대 3조 단어에 달하는 디지털 텍스트를 통해 학습했다. 뉴욕타임스는 “이 정보량은 1602년부터 원고를 수집해 온 옥스퍼드 대학의 보들리언 도서관에 있는 단어의 두 배”라고 했다.

저작권 문제로 사용 가능한 데이터들이 줄어들자 글로벌 빅테크들은 대가를 지불하면서 데이터를 수집하고 있다. 데이터 기업 ‘디파인드.ai’에 따르면 구매 기업과 콘텐츠 유형에 따라 다르지만, 일반적으로 사진은 한 장에 1~2달러, 영상은 2~4달러, 문서는 1000자에 1달러에 거래되고 있다고 한다. 오픈AI는 자체 개발한 음성인식 도구를 통해 100만 시간 이상의 유튜브 영상에서 텍스트를 모았다. 이는 오픈AI의 최신 AI 모델인 GPT-4 학습에 사용됐다. 이 때문에 생성형 AI의 ‘데이터 골드 러시’라는 말까지 나오고 있다.

오픈AI의 경쟁사인 앤스로픽의 공동창업자 재러드 캐플런은 “학생이 책을 많이 읽어 많이 배우는 것처럼 대규모언어모델(LLM)도 데이터가 많을수록 성능이 좋아진다”고 했다. 하지만 AI 연구기관인 에포크는 “2026년이면 AI가 학습하지 않은 고품질 데이터가 모두 고갈될 것”이라는 전망을 내놓기도 했다.

빅테크들은 데이터의 한계를 ‘AI 합성 데이터’로 넘고 있다. 오픈AI의 경우 두 개의 AI 모델을 만들어, 하나는 새로운 데이터를 만들고 나머지 하나는 이 데이터가 정확한지를 판단하는 기술을 개발 중이다. 사람이 아닌 AI가 만들면 저작권 문제도 해결할 수 있다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?