정부 보유 AI 데이터 첫 전수 조사… 민간 수요 높은 100종 엄선해 푼다

고민서 기자(esms46@mk.co.kr) 2026. 4. 10. 14:42
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

생성형 인공지능(AI) 시대의 핵심 경쟁력인 고품질 학습 데이터를 확보하기 위해 정부가 공공 부문에 산재한 데이터 자산 파악에 나선다.

과학기술정보통신부와 한국지능정보사회진흥원은 각 부처 및 공공기관이 보유한 AI 학습용 데이터의 현황을 체계적으로 진단하고, 이를 민간에서 활용할 수 있는 기반을 마련하기 위해 10일부터 범부처 현황조사인 'AI 학습용 데이터 센서스'를 실시한다고 밝혔다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

배경훈 부총리 겸 과학기술정보통신부 장관. <사진=과학기술정보통신부>
생성형 인공지능(AI) 시대의 핵심 경쟁력인 고품질 학습 데이터를 확보하기 위해 정부가 공공 부문에 산재한 데이터 자산 파악에 나선다.

과학기술정보통신부와 한국지능정보사회진흥원은 각 부처 및 공공기관이 보유한 AI 학습용 데이터의 현황을 체계적으로 진단하고, 이를 민간에서 활용할 수 있는 기반을 마련하기 위해 10일부터 범부처 현황조사인 ‘AI 학습용 데이터 센서스’를 실시한다고 밝혔다. 이번 조사는 그동안 기관별로 분산·관리되던 데이터의 활용 가능성을 종합적으로 파악하고, AI 기업들이 실제 서비스 개발에 연계할 수 있도록 돕기 위해 마련된 첫 전수조사다.

정부는 이번 센서스로 AI 학습 활용 가능성이 높은 데이터 100종을 발굴하고, 이를 ‘AI 학습용 데이터 통합 제공 체계’와 연계해 제공할 계획이다. 사업 규모는 총 60억원이다.

조사 항목은 데이터 유형과 구조, 구축 목적, 제공 가능 범위 등 AI 학습 활용 가능성과 직결되는 요소 중심으로 구성되며, 표준화된 조사 체계를 적용해 결과의 일관성과 신뢰성을 확보할 방침이다.

발굴된 데이터는 전문가 심층 인터뷰와 민간 수요 조사 등을 거쳐 최종 선정되며, 품질 보완과 비식별조치 등 AI 학습용 데이터 가공 관련 기술적·재정적 지원을 거쳐 민간에 개방된다. 또한 온라인 공개가 어려운 민감 데이터의 경우 현재 11개 기관, 14개 구역에서 운영 중인 ‘데이터 안심구역’을 활용해 보안 대책을 갖춘 시설 내에서 안전하게 분석하고 활용할 수 있도록 병행 지원할 예정이다. 특히 기존 ‘AI허브’를 개편한 통합 제공 체계는 공공과 민간의 데이터를 집적해 누구나 쉽게 검색하고 활용할 수 있는 국가 차원의 핵심 플랫폼 역할을 수행하게 된다.

아울러 정부는 이번 조사를 계기로 데이터 발굴부터 확보, 활용으로 이어지는 선순환 구조를 조성해 국내 AI 생태계 자생력을 키운다는 구상이다.

김경만 과기정통부 인공지능정책실장은 “AI 성능과 품질의 핵심은 활용 가능한 풍부한 데이터에 있다”며 “공공 부문이 보유하고 있는 AI 데이터 자산을 체계적으로 발굴하고, 이를 편리하게 활용할 수 있는 기반을 지속적으로 발전시켜 나갈 것”이라고 말했다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지