쌓아둔 AI데이터 다시 쓴다…'추론형' 학습 데이터로 재구성

조윤주 2026. 5. 7. 12:01
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

기존에 구축된 공공 AI 데이터가 생성형 AI 시대에 맞춰 재가공된다.

기존 AI허브 데이터를 최신 생성형 AI 환경에 맞게 재가공하는 사업으로, 총 30억원 규모다.

이번 사업은 2022년까지 구축된 AI허브 데이터 691종을 전수 분석한 뒤 생성형 AI 활용 가능성 등을 기준으로 30종을 선정해 재가공하는 방식으로 진행된다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

사진=유토이미지 / 뉴시스

[파이낸셜뉴스] 기존에 구축된 공공 AI 데이터가 생성형 AI 시대에 맞춰 재가공된다. 단순 분류·판단 중심이던 데이터 구조를 '추론'과 '행동' 중심으로 전환해 활용도를 끌어올린다는 취지다.

과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 함께 'AI 학습용 데이터 업사이클링' 사업을 추진한다고 7일 밝혔다. 기존 AI허브 데이터를 최신 생성형 AI 환경에 맞게 재가공하는 사업으로, 총 30억원 규모다.

업사이클링은 업그레이드와 리사이클링을 합친 단어로, 이미 만들어져 AI허브에서 제공 중이던 AI 학습용 데이터를 최신 기술 환경에 맞게 다시 가공하는 것을 의미한다.

이번 사업은 2022년까지 구축된 AI허브 데이터 691종을 전수 분석한 뒤 생성형 AI 활용 가능성 등을 기준으로 30종을 선정해 재가공하는 방식으로 진행된다. 신규 데이터 구축 대비 비용 대비 효율성을 높이겠다는 판단이다.

핵심은 데이터 구조의 전환이다. LLM 분야에서는 기존 텍스트 데이터를 단순 질의응답 형태에서 벗어나 '질문-근거 검토-오류 검증-답변 확정'으로 이어지는 추론 과정 중심으로 재구성한다. 동일 문제에 대해 복수의 판단 경로와 자기 검증 과정을 포함시켜 복잡한 문제 해결 능력이 가능한 추론형 AI 학습 기반을 마련하는 것이 목표다.

피지컬 AI 분야에서는 이미지·영상 데이터에 시각(Vision), 언어(Language), 행동(Action)을 결합한 형태로 고도화한다. 객체 인식 수준을 넘어 시간 흐름에 따른 상황 변화와 상호작용을 이해하고, 목표 기반 행동을 생성할 수 있는 데이터 구조로 확장하는 방식이다.

재가공된 데이터는 향후 'AI 허브'를 통해 개방될 예정이다. 기업과 연구기관, 스타트업 등이 활용할 수 있도록 한다는 계획이다.

과기정통부 최동원 인공지능인프라정책관은 "이번 업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 AI 학습용데이터를 확보할 수 있을 것"이라며 "이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다"고 말했다.

yjjoe@fnnews.com 조윤주 기자

Copyright © 파이낸셜뉴스. 무단전재 및 재배포 금지.