8년 안에 고갈?···AI 시대 핵심 자원 ‘데이터’ 사수전

노도현 기자 2024. 6. 23. 15:14
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

로이터연합뉴스

“현지 정보를 넣지 않고는 이용자들에게 ‘이류’의 경험만 제공할 수 있을 겁니다.”

지난 10일 메타는 당분간 인공지능(AI) 비서 ‘메타 AI’를 유럽에서 출시하지 않겠다며 이같이 말했다. 자사가 보유한 사회관계망서비스(SNS)인 페이스북과 인스타그램에 올라온 18세 이상 유럽 이용자들의 공개 게시물을 AI 학습에 이용하겠다고 밝혔다가 강한 반발을 마주했기 때문이다. 개인정보 보호 규제가 엄격한 유럽은 이용자가 명시적으로 거부 의사를 밝혀야만 메타가 개인정보 활용을 중단하는 점 등을 문제삼았다.

메타의 사례는 AI 시대 핵심 자원인 데이터의 중요성을 보여주는 동시에 공개된 데이터라도 AI 훈련에 마구잡이로 활용하기 어렵다는 점을 보여준다. AI가 학습 가능한 공개 데이터가 고갈될 것이라는 전망이 나오는 가운데 빅테크 기업들은 데이터 확보에 열을 올리고 있다.

AI 연구기관 에포크AI는 이달 초 지금의 거대언어모델(LLM) 개발 추세라면 2026~2032년 AI 학습에 적합한 고품질 공개 텍스트 데이터가 소진될 것으로 예측했다. 2년 전에는 2026년을 고갈 시기로 내다봤는데, 데이터 활용 능력 증가 등 기술 변화를 반영해 연구 결과를 업데이트했다. 업계 관계자는 “데이터 부족은 데이터센터 운영에 쓰는 에너지 부족과 더불어 AI 산업 성장을 제약하는 요인이 될 수 있다”고 말했다.

AI 개발사들이 비용을 내고 미디어 기업과 손잡는 의도가 여기에 있다. 저작권 문제를 해소하면서 언론사가 보유한 양질의 데이터를 AI 학습에 이용하겠다는 것이다. 지난달 구글과 오픈AI는 잇따라 미국 월스트리트저널 등을 보유한 세계 최대 미디어그룹 뉴스코퍼레이션과 콘텐츠 라이선스 협약을 맺었다. 오픈AI는 뉴스코퍼레이션에 5년간 2억5000만달러(약 3400억원)를 지불하기로 했다. 오픈AI는 이미 독일 미디어그룹 악셀슈프링어, 프랑스 르몽드, 영국 파이낸셜타임스 등과도 협약을 체결했다. 미국 시사주간지 디애틀랜틱과 다수의 온라인매체를 보유한 복스 미디어도 최근 오픈AI 협약사 명단에 올랐다.

반면 뉴욕타임스는 지난해 12월 자사가 보도한 기사들이 챗GPT 학습에 무단으로 사용됐다며 오픈AI를 상대로 손해배상청구 소송을 제기했다. 국내에선 한국신문협회가 “네이버가 하이퍼클로바X 학습에 뉴스 콘텐츠를 부당하게 사용했다”며 공정거래위원회에 시정을 요구하는 의견서를 제출했다. 각국은 AI 개발사가 언론사에 공정하게 보상하도록 다양한 입법을 추진 중이다.

데이터에 목마른 기업들은 실제 데이터의 특성을 모방해 인위적으로 만든 ‘합성데이터’로 눈을 돌리고 있다. AI가 만들어낸 데이터를 AI가 배우는 방식이다. 합성데이터는 비용과 시간이 많이 들고 개인정보 보호에 저촉될 수 있는 실제 데이터보다 효율적으로 확보할 수 있다는 게 장점이다. 합성데이터 수요가 늘면서 스케일AI, 그레텔AI 등 합성데이터를 생성하는 스타트업에 대한 투자도 활발해지고 있다. 하지만 합성데이터 비중이 높아지면 현실의 복잡성과 다양성을 반영하지 못해 오류와 편향이 증폭될 수 있는 위험도 있다.

샘 올트먼 오픈AI 최고경영자는 지난달 국제연합(UN) 행사에서 “필요한 건 고품질 데이터”라며 실제든 합성이든 데이터로부터 학습하는 수준을 높여야 한다고 말했다. 그는 “모델을 학습시키는 가장 좋은 방법이 1000조개의 합성데이터 토큰을 생성하고 이를 다시 입력하는 것이라면 매우 이상할 것”이라며 “핵심은 적은 데이터로 더 많은 것을 배울 수 있는 방법”이라고 말했다.

노도현 기자 hyunee@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?