[World & Now] 데이터를 가진 자가 AI를 지배한다

이덕주 기자(mrdjlee@mk.co.kr) 2023. 7. 17. 16:54
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI학습에 방대한 데이터 필요
메타, 새 SNS '스레드' 선보여
트위터와 데이터 전쟁 불붙어
'공짜 데이터' 점점 사라져가
한국도 국가 차원 정책 마련해
글로벌 AI 경쟁서 늦지 말아야

페이스북과 인스타그램을 서비스하는 메타가 내놓은 소셜미디어 서비스 '스레드'가 5일 만에 1억명의 가입자를 모았다. 일론 머스크 테슬라 최고경영자(CEO)가 트위터를 인수한 이후 쏟아져 나온 '트위터 킬러' 중 가장 위협적이다. 상황이 자신에게 불리하게 돌아가는 것을 느낀 것일까. 머스크 CEO는 4월부터 준비해온 인공지능(AI) 기업 xAI의 출범을 알렸다.

머스크 CEO와 마크 저커버그 메타 CEO의 전쟁은 사실 소셜미디어 전쟁이 아니라 데이터 전쟁이다. 메타가 트위터의 자리를 빼앗고 싶어하는 것은 얼마 되지 않는 트위터의 광고 매출을 가져오고 싶어서가 아니라, 트위터의 엄청난 '텍스트 데이터' 때문이다. 세상을 들썩이게 한 챗GPT 같은 거대언어모델(LLM)을 학습시키려면 방대한 텍스트 데이터가 필요하다.

'AI 를 학습시키는데 데이터가 중요하다'는 말은 '인간이 성장하기 위해서는 영양소가 중요하다'는 말처럼 당연하다. 그러나 챗GPT 이후 데이터의 중요성은 더 높아졌다. 데이터를 소유한 기업과 개인들이 자신들의 데이터를 '공짜'로 제공하지 않으려고 하기 때문이다.

'인터넷의 데이터는 모두의 것'이라는 생각에 AI를 만드는 회사들은 '스크랩'과 '크롤링'을 통해서 데이터를 확보해왔다. 소셜미디어 '트위터'와 미국판 '디시인사이드'인 '레딧'이 AI 학습을 위한 정보를 가져간 대표적인 곳이다. 하지만 이제 이 회사들은 데이터를 더 이상 공짜로 제공하려고 하지 않는다.

기업뿐만 아니라 개인들도 AI 기업에 자신들이 제공한 데이터의 가치를 요구하고 있다. 오픈AI에 소송을 제기한 작가들이 대표적이다. 나의 데이터를 내 동의 없이 AI 학습에 사용하지 말라는 것이다.

머스크 CEO는 지난 14일(현지시간) 트위터의 데이터를 '스크랩'하도록 만들지 않겠다는 의사를 명확히 밝혔다. 테슬라와 트위터의 데이터를 AI 학습에 사용하겠다는 계획까지 밝혔다. AI 학습을 위한 방대한 데이터를 '가진 자'의 여유였다.

이제는 AI가 얼마나 많은 매개변수를 가지고 있는지, 학습에 사용할 수 있는 GPU가 얼마나 있는지는 중요성이 덜해지고 있다. 모두 AI 경쟁에 뛰어들고 있는 이상 돈과 시간으로 극복할 수 있는 부분이기 때문이다. 하지만 데이터는 다르다. AI 학습에 사용될 수 있는 공개된 데이터의 양은 점점 줄어들고 있다. 데이터의 비용이 점점 올라갈 수밖에 없다.

국가 차원에서 AI 학습 데이터에 대한 정책과 합의가 필요하다. 개인 정보와는 다른 측면에서 접근해야 전 세계적인 AI 경쟁에서 우리 기업들이 뒤처지는 것을 막을 수 있다. 중국이 안면인식 AI에서 최고의 기술을 갖출 수 있었던 것은 개인 신상 데이터에 대한 보호가 가장 덜했기 때문이었다. AI 학습 데이터에 대한 균형 잡히고 현명한 접근이 필요하다.

[이덕주 실리콘밸리 특파원 lee.deokjoo@mk.co.kr]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?