쌓아둔 AI데이터 다시 쓴다…'추론형' 학습 데이터로 재구성

[파이낸셜뉴스] 기존에 구축된 공공 AI 데이터가 생성형 AI 시대에 맞춰 재가공된다. 단순 분류·판단 중심이던 데이터 구조를 '추론'과 '행동' 중심으로 전환해 활용도를 끌어올린다는 취지다.
과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 함께 'AI 학습용 데이터 업사이클링' 사업을 추진한다고 7일 밝혔다. 기존 AI허브 데이터를 최신 생성형 AI 환경에 맞게 재가공하는 사업으로, 총 30억원 규모다.
업사이클링은 업그레이드와 리사이클링을 합친 단어로, 이미 만들어져 AI허브에서 제공 중이던 AI 학습용 데이터를 최신 기술 환경에 맞게 다시 가공하는 것을 의미한다.
이번 사업은 2022년까지 구축된 AI허브 데이터 691종을 전수 분석한 뒤 생성형 AI 활용 가능성 등을 기준으로 30종을 선정해 재가공하는 방식으로 진행된다. 신규 데이터 구축 대비 비용 대비 효율성을 높이겠다는 판단이다.
핵심은 데이터 구조의 전환이다. LLM 분야에서는 기존 텍스트 데이터를 단순 질의응답 형태에서 벗어나 '질문-근거 검토-오류 검증-답변 확정'으로 이어지는 추론 과정 중심으로 재구성한다. 동일 문제에 대해 복수의 판단 경로와 자기 검증 과정을 포함시켜 복잡한 문제 해결 능력이 가능한 추론형 AI 학습 기반을 마련하는 것이 목표다.
피지컬 AI 분야에서는 이미지·영상 데이터에 시각(Vision), 언어(Language), 행동(Action)을 결합한 형태로 고도화한다. 객체 인식 수준을 넘어 시간 흐름에 따른 상황 변화와 상호작용을 이해하고, 목표 기반 행동을 생성할 수 있는 데이터 구조로 확장하는 방식이다.
재가공된 데이터는 향후 'AI 허브'를 통해 개방될 예정이다. 기업과 연구기관, 스타트업 등이 활용할 수 있도록 한다는 계획이다.
과기정통부 최동원 인공지능인프라정책관은 "이번 업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 AI 학습용데이터를 확보할 수 있을 것"이라며 "이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다"고 말했다.
yjjoe@fnnews.com 조윤주 기자
Copyright © 파이낸셜뉴스. 무단전재 및 재배포 금지.
- 음성서 생활고 겪던 모자 숨진 채 발견
- iM증권 "삼전 48만원·SK하닉 350만원 간다"…목표가 줄상향
- 빽가, 삼전 100주 샀더니…"1년 만에 600~700% 수익"
- 홍준표 "장동혁 사퇴 압박, 이준석 때와 똑같아…한동훈은 보수궤멸 두 번"
- '삼전 우' 1만3000주 모은 30대 부부 교사, 20억 대박 사연 화제
- '개과천선' 서인영 "예능 통해 카이스트 다닐 때 화장실서 욕 들어"
- 이준석 "'왜 조민과 결혼했냐'는 말 들어…가짜뉴스 법적조치"
- 이경규, 꼬꼬면 첫해 매출 500억…"로열티 딸 예림에게 상속 가능"
- 女의사 집 마당서 태아 시신 34구 무더기 발견…폴란드 발칵
- "정청래는 민주당의 한동훈"...李에 '90도 인사', 尹-韓 최후 소환한 장예찬