쌓아둔 AI데이터 다시 쓴다…'추론형' 학습 데이터로 재구성
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
기존에 구축된 공공 AI 데이터가 생성형 AI 시대에 맞춰 재가공된다.
기존 AI허브 데이터를 최신 생성형 AI 환경에 맞게 재가공하는 사업으로, 총 30억원 규모다.
이번 사업은 2022년까지 구축된 AI허브 데이터 691종을 전수 분석한 뒤 생성형 AI 활용 가능성 등을 기준으로 30종을 선정해 재가공하는 방식으로 진행된다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[파이낸셜뉴스] 기존에 구축된 공공 AI 데이터가 생성형 AI 시대에 맞춰 재가공된다. 단순 분류·판단 중심이던 데이터 구조를 '추론'과 '행동' 중심으로 전환해 활용도를 끌어올린다는 취지다.
과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 함께 'AI 학습용 데이터 업사이클링' 사업을 추진한다고 7일 밝혔다. 기존 AI허브 데이터를 최신 생성형 AI 환경에 맞게 재가공하는 사업으로, 총 30억원 규모다.
업사이클링은 업그레이드와 리사이클링을 합친 단어로, 이미 만들어져 AI허브에서 제공 중이던 AI 학습용 데이터를 최신 기술 환경에 맞게 다시 가공하는 것을 의미한다.
이번 사업은 2022년까지 구축된 AI허브 데이터 691종을 전수 분석한 뒤 생성형 AI 활용 가능성 등을 기준으로 30종을 선정해 재가공하는 방식으로 진행된다. 신규 데이터 구축 대비 비용 대비 효율성을 높이겠다는 판단이다.
핵심은 데이터 구조의 전환이다. LLM 분야에서는 기존 텍스트 데이터를 단순 질의응답 형태에서 벗어나 '질문-근거 검토-오류 검증-답변 확정'으로 이어지는 추론 과정 중심으로 재구성한다. 동일 문제에 대해 복수의 판단 경로와 자기 검증 과정을 포함시켜 복잡한 문제 해결 능력이 가능한 추론형 AI 학습 기반을 마련하는 것이 목표다.
피지컬 AI 분야에서는 이미지·영상 데이터에 시각(Vision), 언어(Language), 행동(Action)을 결합한 형태로 고도화한다. 객체 인식 수준을 넘어 시간 흐름에 따른 상황 변화와 상호작용을 이해하고, 목표 기반 행동을 생성할 수 있는 데이터 구조로 확장하는 방식이다.
재가공된 데이터는 향후 'AI 허브'를 통해 개방될 예정이다. 기업과 연구기관, 스타트업 등이 활용할 수 있도록 한다는 계획이다.
과기정통부 최동원 인공지능인프라정책관은 "이번 업사이클링 사업을 통해 적은 비용으로도 최신 생성형 AI 기술 환경에 맞는 AI 학습용데이터를 확보할 수 있을 것"이라며 "이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다"고 말했다.
yjjoe@fnnews.com 조윤주 기자
Copyright © 파이낸셜뉴스. 무단전재 및 재배포 금지.
- 박왕열 마약공급책 '청담사장' 신상 공개…최병민·1975년생(종합)
- 李대통령 지지율, 격전지 4곳 모두 과반 차지…대구선 '정권견제론' 우세
- 김숙 "2002년 4억에 산 마포 아파트, 현재 28억"
- 12살 연하 결혼 배기성 "담배꽁초 줍는 아내에 반했다"
- 모건스탠리, 올해 코스피 상단 9500 제시…"강세장서 1만도 가능"
- 장성규 "삼전의 'ㅅ'도 꺼내지 말라" 씁쓸…청담동 건물로 부동산 수익은 '대박'
- "아리가또 SK하이닉스"…日투자자, 재산의 95% 몰빵 '100억 부자' 인증글
- 조혜련 "홍석천, 대학 땐 여자 좋아해…연극하며 분위기 바뀌어"
- 조국·한동훈 아내들도 뛴다…정경심·진은정, 남편 지원
- 李대통령 "세입자 있는 1주택자도 매도기회…갭투자 허용 주장은 '억까'"