“채팅 기록, 개인 사진까지 거래”… AI 시대 ‘데이터 골드 러시’
무단 침해… 저작권 논란 커질 듯
테크 기업들이 인공지능(AI) 성능을 높이기 위한 훈련용 데이터를 확보하는 데 사활을 걸고 있다. 데이터 ‘골드 러시’ 시대가 열렸다는 평가와 함께 데이터 무단 사용으로 인한 저작권 침해 논란이 더 커질 전망이다.
이미지 사이트 ‘포토버킷’의 최고경영자(CEO) 테드 레너드는 최근 로이터에 “생성형 AI를 훈련하려는 여러 테크 기업과 130억장에 달하는 사진과 비디오에 대한 계약을 협의 중이다”라고 말했다. 가격은 사진 한장당 5센트~1달러(약 68원~1350원), 비디오는 1달러 이상이다. 특히 빅테크들이 적극적이다. 챗GPT를 개발한 오픈AI뿐 아니라 구글과 메타 등도 AI 개발을 위해 인터넷에서 대량의 데이터를 수집한 것으로 알려졌다. 로이터는 “유료 콘텐츠뿐 아니라 채팅 기록, 소셜미디어에 올라온 개인 사진까지 모든 것이 거래되고 있다”고 했다.
AI 데이터 산업도 커지고 있다. ‘디파인드.ai’는 구글, 메타, 애플, 아마존 등 빅테크에 데이터를 제공하고 있다. 가격은 사진당 1~2달러, 영상은 2~4달러, 긴 영화는 100~300달러다. 문자의 경우 1000자에 1달러. 테크 기업들의 데이터 골드 러시는 결국 AI 성능을 높이기 위함이다. 데이터가 많으면 많을수록 더욱더 정확해지고 사람에 가까워지기 때문이다. 뉴욕타임스는 “2020년 출시된 오픈AI의 GPT-3의 경우 단어 조각인 수천억 개의 ‘토큰’으로 훈련됐다”며 “최근 대규모 언어 모델(LLM) 훈련에는 3조개가 넘는 토큰이 필요하다”고 했다.
테크 기업들이 데이터를 가리지 않고 쓸어 담으면서 저작권을 침해할 수 있다는 우려가 끊이지 않는다. 블룸버그에 따르면, AI 기업을 상대로 한 소송은 최소 20건에 달한다. 게티이미지는 ‘스태빌리티 AI’가 이미지 생성기 ‘스태이블 디퓨전’을 훈련하는 데 허가 없이 사진을 사용했다고 주장하며 1조8000억달러(약 2440조원)에 달하는 손해배상 청구 소송을 제기했다. IT업계 관계자는 “테크 기업들의 데이터 무단 도용을 막기 위해 관련 기술 개발도 활발히 이뤄지고 있다”고 했다.
Copyright © 조선일보. 무단전재 및 재배포 금지.
- 아파트 화단서 비닐봉지에 든 5000만원 발견…경찰 수사
- 빵사러 와서 발만 동동 구른 꼬마…한눈에 “실종이다” 알아본 손님 정체
- 어떤 카드 쓰는 게 좋을까, 토스 금융 안내서 ‘2위’
- 청룡기에 나타난 ‘닥터K’ 김재원…장충고, 세광고 누르고 2회전 진출
- 대낮 학원 화장실서 여고생에 흉기 휘두른 10대 남학생 숨져
- 與, “정신 나간” 논란 빚은 韓美日 ‘동맹’ 표현 ‘안보협력’으로 수정
- 교황청, 김수환 추기경 시복 추진 승인
- 가해車, 버스 브레이크와 엑셀 비슷해 착각? 전문가들 분석은
- 시청역 사고 현장에 조롱 쪽지 남긴 남성? 당시 영상 보니
- SSG닷컴, 창사 이래 첫 희망퇴직 단행… 조직 재정비 나서