[기고] AI 시대, 데이터가 먼저다

2024. 9. 25. 18:40
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

정동훈 LX공간정보연구원 AI센터장

먹을 것을 달라는 말에 로봇이 스스로 주변 환경을 인지하고 테이블 위 사과를 사람에게 건넨다. 챗GPT 개발사 오픈AI와 로봇 스타트업 피규어(Figure)가 협력해 만든 '피규어 01'의 소개 영상이다.

생성형 AI를 탑재한 휴머노이드 로봇 '피규어 01'의 등장은 전 세계인들의 관심을 모았다. 이러한 관심은 다양한 투자로 이어지고 있다. 생성형 AI 기술 시장의 규모는 연간 4조4000억 달러까지 전망되고 있다. 그러나 생성형 AI를 비롯한 AI 기술의 성공적인 도입을 위해서는 기술보다 AI가 학습하는 데이터가 우선되어야 한다.

챗GPT가 불러온 생성형 AI 신드롬은 많은 산업 분야에서 새로운 가능성을 제시하고 있다. 마이크로소프트(MS), 구글 등 글로벌 빅테크 기업들은 생성형 AI 관련 기술과 서비스 개발에 집중하고 있다. 산업계에서는 분야를 막론하고 사업 경쟁력 강화를 위한 생성형 AI기술 도입에 힘쓰고 있다.

하지만 양질의 데이터가 구축되지 않는 상태에서 성급한 생성형 AI 기술 도입은 오히려 산업계 혼란을 야기할 수 있다. AI는 데이터를 기반으로 학습하고 판단하는 기술이기 때문이다.

실제로 MS는 소셜미디어 플랫폼 X(옛 트위터)에 AI 챗봇 '테이'(Tay)를 공개했지만 학습과정에서의 일부 편향적 자료들로 인해 인종차별적이고 여성 혐오적인 표현을 트윗해 문제가 된 적이 있다. 또한 아마존은 AI 기반 채용도구의 머신러닝 과정에서 '여성'에 불리한 데이터 학습으로 인해 남성 지원자만을 추천하는 오류를 일으켜 해당 프로젝트가 폐기되기도 했다.

이 같은 사례들처럼 AI 모델의 성능을 좌우하는 것은 데이터의 품질이다. 오류가 많거나 불완전한 데이터는 AI가 잘못된 판단을 내리게 만든다. 그렇게 때문에 데이터 수집, 정제, 저장 과정에서의 엄격한 품질 관리는 AI 시대에 필수적 선결과제이다.

데이터의 중요성은 스마트시티에서도 두드러진다. 교통혼잡 문제를 해결하기 위해 도로에서 실시간으로 수집되는 차량의 이동 데이터, 신호등의 상태, 교통사고 기록 등의 방대한 교통 데이터를 사용한다. 도시 내 공기 질, 온도, 습도, 소음 등의 환경 데이터를 수집하고 AI로 분석함으로써 환경 오염을 모니터링하고 예측하기도 한다.

부산 에코델타시티에 조성되는 스마트빌리지는 도시데이터를 활용하여 냉난방, 상수도, 쓰레기, 보안 등을 관리한다. 데이터가 얼마나 많이 확보되고 얼마나 정확하게 처리되는가에 따라 AI의 작동 효과도 달라지게 된다.

공공기관에서도 AI 데이터 관리에 대한 노력은 이어지고 있다. 공간정보분야 대표 연구기관인 LX공간정보연구원은 AI 기술 발전을 위한 데이터의 중요성을 인식하고 2022년 AI·빅데이터 분석 연구센터를 설립했다. 국토공간정보 분야에 AI 기술 도입을 위한 데이터 구축과 관리를 위해서다.

센터에서는 드론·항공·위성 영상으로부터 건물·비닐하우스·도로 등을 추출한 340만 개의 라벨링 데이터를 확보하고 있다. 이들 데이터는 AI 학습을 통해 국토 변화를 모니터링하고 정책을 마련하는데 활용된다. 또한 지속적으로 국토모니터링 AI 모델을 업그레이드 함으로써 정확성과 효율성을 높이는데 활용된다.

우리나라의 AI 기술은 이미 세계적 수준이라 평가할 수 있다. 영국의 데이터 분석 미디어 '토터스 인텔리전스'가 매년 발표하는 '글로벌 AI 지수'에 따르면 지난해 우리나라 AI 지수는 전체 52개 국가 중 6위에 꼽혔다. 특히 특허(3위), 정책(6위) 부문에서 우수한 성과를 보였다.

AI 기술의 활용은 더 나은 미래를 위한 중요한 과제이다. 특허, 정책과 같은 제도적 노력도 중요하지만 그전에 선행되어야 할 것은 AI 학습에 적합한 데이터의 축적과 관리이다. 정부, 기관, 기업의 장기적 관점에서의 고품질 데이터 확보는 국가의 경쟁력을 강화하고 지속가능한 성장을 이끄는 마중물이 될 것이다. AI 시대는 곧 모든 것이 데이터화된, 데이터 시대이기 때문이다.

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?