[빅테크 지각변동]②데이터 공짜로 퍼줘라?…청구서 내민 기업들

최유리 2023. 4. 27. 07:46
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

생성형 인공지능(AI)을 둘러싼 경쟁이 데이터 소유권 전쟁에 불을 붙였다.

AI에 더 많은 데이터를 학습시키려는 개발사와 이들에게 데이터 사용료를 받으려는 기업들이 맞붙었다.

지난 20일(현지시간) 미국 IT전문지 와이어드는 스택 오버플로우가 연내 대규모 AI 모델을 개발하는 기업에 데이터 비용을 청구할 계획이라고 보도했다.

생성형 AI를 개발하려면 방대한 데이터를 학습시키는 것이 필수적이다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

"AI 학습 데이터에 대가 내라"
생성 AI 뜨자 데이터 소유권 논쟁

생성형 인공지능(AI)을 둘러싼 경쟁이 데이터 소유권 전쟁에 불을 붙였다. AI에 더 많은 데이터를 학습시키려는 개발사와 이들에게 데이터 사용료를 받으려는 기업들이 맞붙었다. 가장 많은 데이터를 확보하고 이를 필요로 하는 테크기업 간 줄다리기를 넘어 언론사 등 기성매체와의 갈등으로 번지고 있다.

"빅테크 배만 불린다"…소송까지 불사

지난 20일(현지시간) 미국 IT전문지 와이어드는 스택 오버플로우가 연내 대규모 AI 모델을 개발하는 기업에 데이터 비용을 청구할 계획이라고 보도했다. 스택 오버플로우는 2000만명 이상의 개발자들이 프로그래밍 정보를 공유하는 커뮤니티다. 프라샨스 찬드라세카르 스택 오버플로우 최고경영자(CEO)는 "대규모 언어 모델(LLM)에 연료를 공급하는 플랫폼은 보상을 받아야 한다"며 "이는 고품질 데이터를 유지하고 미래 AI에도 도움이 될 것"이라고 강조했다.

레딧도 오는 6월부터 자사 대화 데이터를 상업적으로 사용하는 AI 개발사에 요금을 받겠다고 밝혔다. 레딧은 하루 5700만 이상이 찾는 미국 소셜미디어다. 스티브 허프먼 레딧 CEO는 한 인터뷰에서 "세계에서 가장 큰 회사들에 레딧 데이터를 무료로 줄 필요는 없다"고 잘라 말했다.

일론 머스크 트위터 CEO는 소송까지 예고했다. 마이크로소프트(MS)가 불법적으로 트위터 데이터를 이용해 AI를 훈련시켰다는 이유다. 갈등은 지난 2월 트위터가 자사 데이터에 접근할 수 있는 개발 도구를 유료화하면서 시작됐다. 이어 MS가 광고 플랫폼에서 트위터를 빼자 트위터가 소송을 시사한 것이다.

기성매체인 언론사들도 나섰다. 뉴욕타임스 등 북미 언론사 2000여개가 소속된 뉴스미디어연합(NMA)은 지난 20일 AI 원칙을 발표했다. AI 원칙은 "생성 AI가 NMA 콘텐츠를 무단으로 사용하는 것은 재산권 침해"라며 "이를 허가 없이 사용해서는 안 되고 공정한 보상을 해야 한다"고 명시했다. 쉽게 말해 AI에게 질문했을 때 나온 답이 사실은 언론사 기사를 가져다 읽어주는 것이라면 저작권료를 내야 한다는 의미다.

데이터 출처 '깜깜'인데…공짜 데이터로 수익화

이전까지 챗GPT를 개발한 오픈AI를 비롯해 구글, 메타 등은 온라인에 모인 데이터에 의존했다. 생성형 AI를 개발하려면 방대한 데이터를 학습시키는 것이 필수적이다. 소셜미디어 대화와 개인 콘텐츠, 개발 코드, 언론사 기사, 학술 논문 등을 광범위하게 활용했다. 최근 미국 워싱턴포스트가 AI 연구원들과 구글 LLM에 사용된 데이터세트를 분석한 결과 특허 정보 사이트, 온라인 백과사전 등이 대부분이었다. 상위 사이트 중 절반은 뉴스 매체였고 50만개 이상의 개인 블로그도 포함됐다.

문제는 온라인에 공개된 콘텐츠라도 허가 없이 사용하는 게 적절하냐는 것이다. 오픈AI는 최신 모델인 GPT-4부터 어떤 데이터를 썼는지조차 공개하지 않는다. 이렇게 개발한 AI로 수익화에도 나섰다. 일례로 MS는 오픈 커뮤니티에 올라온 코드를 학습한 AI '깃허브 코파일럿'을 내놨다. AI는 코딩을 도와주면서 1인당 월 19달러를 받는다. 대가 없이 무단 사용한 데이터로 빅테크 배만 불린다는 반발이 나온 이유다.

전문가들은 데이터 소유권을 두고 IT 기업들의 전쟁이 시작됐다고 본다. 데이터를 많이 보유한 곳과 이를 AI에 활용하려는 곳 사이에 치열한 싸움이 벌어진 것이다. 김명주 서울여대 정보보호학과 교수는 "공정이용 원칙에 따라 공공의 목적(신기술 개발)을 위해 데이터 사용을 용인하던 분위기가 무너지고 있다"며 "기업들이 어떤 데이터를 이용하는지, 어떤 권리를 침해했는지 가려내는 것은 상당히 복잡한 문제라 논쟁은 이어질 것"이라고 전망했다.

최유리 기자 yrchoi@asiae.co.kr

Copyright © 아시아경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?