쌓아둔 AI데이터 다시 쓴다…'추론형' 학습 데이터로 재구성

[파이낸셜뉴스] 기존에 구축된 공공 AI 데이터가 생성형 AI 시대에 맞춰 재가공된다. 단순 분류·판단 중심이던 데이터 구조를 '추론'과 '행동' 중심으로 전환해 활용도를 끌어올린다는 취지다.

과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 함께 'AI 학습용 데이터 업사이클링' 사업을 추진한다고 7일 밝혔다. 기존 AI허브 데이터를 최신 생성형 AI 환경에 맞게 재가공하는 사업으로, 총 30억원 규모다.

업사이클링은 업그레이드와 리사이클링을 합친 단어로, 이미 만들어져 AI허브에서 제공 중이던 AI 학습용 데이터를 최신 기술 환경에 맞게 다시 가공하는 것을 의미한다.

이번 사업은 2022년까지 구축된 AI허브 데이터 691종을 전수 분석한 뒤 생성형 AI 활용 가능성 등을 기준으로 30종을 선정해 재가공하는 방식으로 진행된다. 신규 데이터 구축 대비 비용 대비 효율성을 높이겠다는 판단이다.

핵심은 데이터 구조의 전환이다. LLM 분야에서는 기존 텍스트 데이터를 단순 질의응답 형태에서 벗어나 '질문-근거 검토-오류 검증-답변 확정'으로 이어지는 추론 과정 중심으로 재구성한다. 동일 문제에 대해 복수의 판단 경로와 자기 검증 과정을 포함시켜 복잡한 문제 해결 능력이 가능한 추론형 AI 학습 기반을 마련하는 것이 목표다.

피지컬 AI 분야에서는 이미지·영상 데이터에 시각(Vision), 언어(Language), 행동(Action)을 결합한 형태로 고도화한다. 객체 인식 수준을 넘어 시간 흐름에 따른 상황 변화와 상호작용을 이해하고, 목표 기반 행동을 생성할 수 있는 데이터 구조로 확장하는 방식이다.

재가공된 데이터는 향후 'AI 허브'를 통해 개방될 예정이다. 기업과 연구기관, 스타트업 등이 활용할 수 있도록 한다는 계획이다.

과기정통부 최동원 인공지능인프라정책관은 "이번 업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 AI 학습용데이터를 확보할 수 있을 것"이라며 "이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다"고 말했다.

yjjoe@fnnews.com 조윤주 기자

IT/과학

쌓아둔 AI데이터 다시 쓴다…'추론형' 학습 데이터로 재구성