데이터 쇼크, 오일 쇼크의 악몽을 닮아간다 [고평석의 인사이드아웃AI]

AI 패권의 무게추, 칩이 아니라 데이터로 이동
무한할 것 같던 인터넷 데이터, ‘고갈 시계’는 이미 작동 중

(시사저널=고평석 (주)엑셈 대표)

영국의 수학자 클라이브 험비(Clive Humby)는 2006년에 "데이터는 새로운 석유다(Data is the new oil)"라고 말했다. 원래 데이터는 단순한 저장과 기록일 뿐이었다. 이것을 분석해 인사이트를 도출하면 석유처럼 값어치 있는 존재임을 허비는 알아챘다. 영국 최대 유통기업 테스코가 고객 데이터를 분석해 우수 고객 관리 및 매출 증대를 위한 클럽카드 발행에 기여했다. 양질의 데이터는 잘만 활용하면 검은 황금인 석유와 다름없었다.

석유도 처음부터 유용한 자원은 아니었다. 오래전 로마, 페르시아 등에선 채취한 그대로의 석유를 어둠을 밝히는 등화 목적으로 사용했다. 불이 밝지 않고 냄새와 연기가 심했다. 18세기 이후에 미국에서 고래 기름이 양질의 등화용 연료로 사용되었다. 우수한 원료였지만 값이 비쌌다. 고래 기름의 대체연료는 효율적이지 못했다. 이즈음인 1859년 미국 펜실베이니아주에서 에드윈 드레이크가 땅을 파서 유정을 통해 석유를 발견했다. 원유에서 얻은 등유가 등화 목적으로 꽤 쓸 만하다고 알려지면서 석유 사용이 19세기 말에 본격화되었다.

석유는 여러 부호를 탄생시켰다. 우리가 아는 존 D 록펠러는 1870년 스탠더드 오일을 세워 19세기 말~20세기 초 사이에 막대한 부를 쌓았다. 수많은 중동 국가도 부의 대열에 합류했다. 중동 정세가 중요한 것도 석유 때문이다. 실제로 중동발 오일 쇼크로 세계경제가 두 차례나 휘청했다. 1차 오일 쇼크(1973~74년)는 제4차 중동전쟁으로 아랍 산유국들이 대미, 대서유럽 금수 조치를 취하고 OPEC(석유수출국기구) 공시가를 올리자 발생했다. 원유 가격이 폭등했다. 2차 오일 쇼크(1979~81년)는 이란 혁명으로 생산이 급감하고 이어진 이란-이라크 전쟁으로 공급 불안이 장기화하면서 일어났다. 석유를 별생각 없이 쓰다가 갑자기 공급이 줄어들거나 가격이 오르자 각 국가, 기업들이 속수무책으로 당했다. 석유가 어느 순간 무기가 되었음을 깨닫지 못한 탓이다.

미국 오리건주 보드먼에 위치한 아마존 웹 서비스(Amazon Web Services) 데이터센터 전경 ⓒAP 연합

생성형 AI의 출현으로 데이터 수요 급증

석유에 비유된 데이터가 전방위적으로 활용된 것은 생성형 AI 붐업과 동시다. 물론 그 전에도 데이터는 각종 업무 분석이나 효율성 제고를 위해 사용되었다. 그러나 그 양과 범위에서 생성형 AI 시대와 차원이 다르다. 대표적으로 GPT-3, LLaMA, PaLM 등과 같은 파운데이션 모델은 엄청난 양의 학습 데이터가 필요하다. 메타의 LLaMA 65B 모델은 약 1.4조의 토큰(일종의 데이터)을 사용했고, GPT-3.5 모델(175B 파라미터)은 약 3000억 토큰을 사용했다. AI의 성능은 모델 크기 못지않게 데이터 크기도 중요하다. 특히 딥마인드가 2022년 발표한 논문에 나오는 'AI 친칠라(Chinchilla) 전략'은 적당한 모델(파라미터) 크기에 데이터 양을 늘려주는 것(1파라미터당 20토큰)이 효과적임을 보여준다. 즉, 모델(파라미터) 크기가 클수록 반드시 성능이 올라가는 것은 아니며 데이터 양이 뒷받침되어야 성능이 올라간다는 의미다.

데이터도 결국 유한하다. 지난 수년간 LLM(대규모언어모델) 개발은 엄청난 데이터를 필요로 했다. LLM 학습에 사용되는 '토큰'(일종의 데이터)은 GPT-3(2020년)는 3000억인데 LLaMA3(2024년)는 15조가 사용되었으므로 50배 증가했다. 매년 2배 이상 증가한 셈이다. 인터넷에 무한한 데이터가 있을 것 같지만 Epoch AI에 따르면 텍스트 데이터 총량은 3100조 토큰으로 추정된다. AI 학습을 위해 모든 데이터를 쓸 수 있는 것은 아니다. 중복도 제거하고 사회적으로 용인되지 않는 저질 콘텐츠도 제외하면 그 숫자가 줄어든다. 사용 가능한 인터넷 콘텐츠 증가(공급)의 연간 성장률은 10% 미만이고 AI 학습 데이터 세트 규모(수요)는 매년 2배씩 증가한다. 네이처에 따르면 AI 학습을 위한 고품질 테스트 데이터가 고갈되는 시점은 2026~32년 정도다. 고갈 시점이 가까운 미래인 셈이다.

7월7일 서울 여의도 국회 의원회관에서 열린 지속 가능한 AI 데이터센터 구축전략 세미나에서 국민의힘 송언석 비상대책위원장 겸 원내대표가 발언하고 있다. ⓒ연합뉴스

다음 충격은 칩 부족 아닌 데이터 부족에서 올 수도

1차와 2차 오일 쇼크 이후에 위기를 극복하기 위해 다양한 시도가 전개되었다. 에너지 효율을 혁신하는 단열, 모터, 공정 개선 등의 기술이 등장했다. 소형차 인기가 올라갔다. 석유를 대신할 수 있는 대체에너지나 원전 및 LNG에 대한 관심이 높아졌다. 재생에너지도 본격적으로 논의되었다. 우리나라 교과서에도 20세기 말이면 석유 등이 고갈될 것이라는 경고성 내용이 실리기 시작했다.

AI 시대에는 데이터 부족도 또 다른 쇼크를 불러일으킬 수 있다. AI 성능 목표는 AGI(인공 일반 지능)나 ASI(인공 초지능) 같은 고차원 지능을 지향하는데 데이터의 한계로 장벽에 부닥칠 수 있기 때문이다. 그래서 등장한 기술이 합성 데이터(synthetic data) 분야다. 말 그대로 합성 데이터는 실제 데이터가 아니다. 실데이터를 수집하는 데 드는 비용, 시간, 윤리 문제를 극복하기 위해 컴퓨터 시뮬레이션, 확률적 모델, 생성형 AI 등으로 인위적으로 만든 데이터다. 실재하지 않는 예외적 사례를 보완해줄 수 있고 개인정보 보호에 (자동적으로 보장되진 않지만) 상대적으로 유리하다. 제조, 의료, 국방 등 데이터 수집이 어렵거나 보안이 중요한 분야에 유용하다. 때때로 모델 성능이 붕괴되는 것만 피할 수 있다면 제법 쓸 만하다. 데이터 부족을 극복하기 위한 또 다른 방법은 데이터 효율을 꾀하고 모델 구조를 혁신하는 것이다. RAG(검색 증강 생성, 일종의 AI용 정답지)를 활용해 추론 단계에서 최신성과 정확도를 높임으로써 보완할 수도 있다.

데이터가 AI 시대의 핵심 자산이 되었다. 이제 데이터도 석유처럼 국가와 기업, 사회의 경쟁과 협력, 갈등, 특히 부(wealth)의 중심에 자리하게 되었다. 석유가 각종 힘겨루기나 국제적 긴장을 촉발한 것을 생각하면 데이터 역시 비슷한 길을 걷게 될 확률이 높다. 결국 기술 발전을 통한 글로벌 패권경쟁의 출발점이 데이터이기 때문이다. 데이터는 더 이상 'IT 자산'이 아니라 에너지와 유사한 '전략 자본'인 것이다.

AI 시대의 다음 충격은 칩의 부족이 아닌, 정당하게 사용할 수 있는 데이터의 부족에서 올지 모른다. 양질의 데이터를 많이 보유한 국가나 기업이 기술 혁신의 주도권을 갖게 되고, 데이터 유출이나 남용은 새로운 국가 안보 이슈로 떠오를 것이다. 핵심적인 데이터에는 관세가 부과되거나 금수 조치가 취해지지 말라는 법도 없다. 결국, 데이터는 석유 이상의 새로운 정치 및 경제적 이해관계를 창출한다. 우리는 데이터 쇼크에 대비한 현실적인 준비를 하고 있을까?

시사저널에서 직접 확인하세요. 해당 언론사로 이동합니다.