다시 주목받고 있는 ‘AI 학습용 데이터’ 이슈[테크트렌드]

AI를 학습시키는 데 쓰이는 데이터 확보 이슈가 다시 주목받고 있다. 생성형 AI가 업계의 대세로 자리 잡으면서 한동안 해결된 것으로 보이던 데이터 이슈가 부상한 배경에는 대규모언어모델(LLM)의 초거대화와 더불어 멀티모달 AI, 로봇용 AI와 같은 새로운 AI 모델의 등장이 자리 잡고 있다.

AI 학습용 데이터에 대한 관심이 다시 증가

AI의 발전을 주도한 LLM과 같은 생성형 AI 모델들은 적합한 데이터 세트를 이용한 학습을 거쳐 개발된다. GPT-3, 4와 같은 LLM들이 등장하던 무렵에는 자연어 데이터의 확보가 주요 이슈로 부각됐다. 당시에는 공공기관의 각종 문서 자료에서부터 포털 사이트나 소셜미디어 등의 각종 채널 등을 통해 수집할 수 있는 문자 자료들을 기반으로 자연어 데이터 세트를 만들고 DB화함으로써 데이터 이슈는 해결된 것으로 보였다.

한동안 해결된 것으로 여겨진 AI 학습용 데이터를 확보하려는 움직임이 다시 늘어나고 있다. LLM 분야에서는 GPT-4보다 파라미터의 수가 대폭 늘어날 것으로 보이는 후속 모델 GPT-5나 유사한 규모의 파라미터를 가진 차세대 LLM들을 학습시키려면 현재 사용 가능한 고품질 문제 데이터 규모보다 약 10조~20조 개의 데이터 토큰이 부족할 수 있다는 우려가 제기됐다.

자연어 외의 데이터로 학습해야 하는 멀티모달 AI나 로봇용 AI와 같은 새로운 AI 모델의 개발이 본격화되면서 AI 학습용 데이터의 확보는 더욱 중요한 이슈로 발전하고 있다. 멀티모달 AI는 문자뿐만 아니라 소리, 이미지 및 동작(동영상) 등 다양한 모드의 데이터를 연관시켜 학습하고 문자, 소리, 동작 등 다양한 모드로 응답할 수 있는 AI 모델이다.

멀티모달 AI를 학습시키는 데는 LLM 학습에 사용된 문자 데이터에 더해 소리, 이미지, 동영상 등 다양한 모드의 데이터들이 결합된 복합적인 데이터 세트가 더 적합하다고 본다. 멀티모달 AI뿐만 아니라 구글 등의 빅테크 기업이나 오픈AI와 같은 AI 선도 기업들이 진행하고 있는 로봇용 AI 분야에서도 새로운 학습용 데이터의 필요성이 커지고 있다. LLM 모델을 학습시키는 데는 연구소 차원에서 수집, 정리된 동질적인 데이터 세트로 충분했다면 로봇용 AI의 학습에는 다양한 환경에서 수집된 이질적인 데이터 세트가 더 적합한 것으로 평가됐기 때문이다.

멀티모달 AI나 로봇용 AI의 학습에 적합한 데이터 세트는 대규모이면서 다양한 이종 데이터로 구성된다는 공통점을 보인다. 데이터 세트의 구축 과정에서도 유사한 면을 보인다. 다양한 데이터를 대규모로 수집하기 위해 동종 기업들 또는 대학, 연구기관들과 협력하는 경우도 종종 나타난다. 멀티모달 AI와 로봇용 AI의 학습에 최적화된 데이터 세트를 구축하는 활동을 잘 보여주는 사례로는 메타와 구글을 들 수 있다.

멀티모달 AI 학습용 데이터 구축에 진심인 메타

메타는 멀티모달 AI 개발을 가속화하기 위해 다양한 멀티모달 데이터 세트를 독자적으로 개발, 축적하고 있다. 2021년 메타는 전 세계 13개 대학 및 학술 연구기관들과 함께 이고-4D(Ego4D)라는 프로젝트에 착수했다. 이고-4D는 인간의 일상 활동에 대해 AI를 학습시키는 데 목적을 두었다. 미국, 일본, 콜롬비아, 싱가포르 등 다양한 지역에 살고 있는 약 800명의 참가자들의 일상 활동을 촬영한 1400시간 이상 분량의 동영상으로 만들어진 데이터이다. 이와 동시에 메타는 37만5000여 개의 비디오, 오디오, 문자 콘텐츠로 구성된 멀티모달 데이터 세트인 뮤젠(MUGEN)을 개발해 2022년에 출시하기도 했다.

2023년 말에는 이고-엑소4D(Ego-Exo4D)를 공개했다. 이고-엑소4D는 839명의 사람들이 13개 도시에서 요리, 음악, 축구, 건강, 농구, 춤, 자전거 수리, 암벽 등반 등 8가지의 전문적인 활동을 1인칭 자기중심적(Egocentric) 시점 및 3인칭(Exocentric) 시점으로 각각 촬영한 5600여 개의 장면을 1422시간 분량의 동영상으로 기록한 멀티모달 데이터 세트다.

이고-엑소4D의 1인칭 시점 영상은 카메라 착용자가 자신의 행동을 보여주는 데이터이며 3인칭 시점 영상은 참가자 주변에 설치된 카메라를 통해 주변 상황과 참가자의 동작을 촬영해서 참가자의 활동에 대한 주변의 반응이나 맥락을 보여주는 데이터다. 이고-엑소4D는 두 시점의 영상 데이터와 더불어 영상 데이터와 시간으로 동기화된 7채널 오디오 데이터 및 관성측정장치(IMU), 광각 흑백 카메라 영상도 함께 포함하고 있다.

이고-엑소4D는 메타가 외부 전문 기관들과의 협력을 통해 만든 산물이다. 메타 내의 연구팀인 FAIR(Fundamental Artificial Intelligence Research)와 스마트 카메라 프로젝트인 아리아(Aria), 15개의 대학 연구소와 협력해서 2년간 만들었다.

다양한 데이터 수집 위해 생태계 구축한 구글

로봇 학습용 데이터 세트 축적은 로봇용 AI 개발의 난제 중 하나로 여겨진다. 인터넷상에 공개된 문서 자료나 전문 기업들이 만든 고품질의 데이터 세트를 통해 얻을 수 있는 자연어 데이터와 달리 로봇 학습용 데이터는 사람이 로봇을 테스트하는 과정에서만 생성되기 때문이다. 생성한 이후에도 데이터를 정리하기 위한 엔지니어링 작업도 거쳐야 하므로 고품질의 로봇 학습용 데이터를 구축하려면 같은 규모의 문자 데이터를 수집, 정리하는 것보다 훨씬 많은 비용과 시간이 드는 것으로 알려진다. AI 모델의 파라미터 확대를 지원할 만큼 충분히 많은 데이터 세트를 구축하는 것이 어려워서 로봇용 AI의 성능 향상 속도는 더딘 경우가 많다.

로봇용 AI 개발을 추진하는 구글은 Open X Embodiment라는 명칭의 로봇 학습 전용 데이터 세트를 직접 개발하고 있다. 구글이 로봇 학습용 데이터 세트 구축에 적극적인 이유는 사람이 지시한 명령의 모호성을 제거하고 사람의 의도를 정확히 파악해서 명령을 제대로 수행할 수 있는 로봇용 AI를 개발하기 위해서다.

구글은 데이터 규모뿐만 아니라 데이터의 다양성이 로봇용 AI의 성능을 높이는 데 관건이 된다고 보고 있다. 자체 테스트 결과 다양하고 이질적인 데이터로 학습한 로봇의 성능이 동질적인 데이터로 학습한 로봇보다 약 1.5배 우수하고, 자사의 데이터와 독일 쿠카(Kuka)의 협동로봇 이와(iiwa)가 생성한 데이터 세트를 모두 학습한 로봇의 성능이 자체 제작한 로봇 팔의 작동 데이터로 학습한 로봇보다 더 우수한 것으로 나타났기 때문이다.

Open X Embodiment는 대규모이면서 다양한 데이터로 구성된 DB다. 최근 알려진 Open X Embodiment는 약 140만 개의 에피소드를 담은 약 60개의 데이터 세트로 구성돼 있고, 각 데이터 세트들은 사람이 로봇을 원격조종했을 때 생성되는 데이터에서부터 강화 학습으로 얻은 행동 데이터에 이르는 다양한 종류의 데이터를 포함하고 있다.

구글도 Open X Embodiment를 개발하는 과정에서 메타처럼 외부의 협력을 적극 추진하고 있다. 구글은 다양한 데이터 세트를 대량 수집하기 위해 미국 스탠퍼드대, 카네기멜론대, 한국의 KAIST, 일본 도쿄대, 독일 막스플랑크연구소 등 전 세계 20여 개의 대학, 30여 개 연구팀의 협조를 받고 있다. Open X Embodiment를 구성하는 데이터에는 구글의 연구팀이 수집한 로봇 데이터와 함께 각 대학, 연구소들이 개발하고 있는 로봇 22종의 작동 궤적, 작업 이미지 등의 데이터까지 포함돼 있다.

진석용 LG경영연구원 연구위원

한경비즈니스

경제

다시 주목받고 있는 ‘AI 학습용 데이터’ 이슈[테크트렌드]