정부 역대 최대 규모 AI 학습용 데이터 개방…약 26억건

한국어, 헬스케어, 금융 등 14대 분야 데이터

(서울=뉴스1) 윤지원 기자 = 정부가 역대 최대 규모의 인공지능(AI) 학습용 데이터를 개방한다.

과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 지난해 구축한 학습용 데이터셋 310종을 오는 7월말까지 순차 개방한다고 30일 밝혔다.

과기정통부와 NIA는 지난 2020년부터 매년 약 200종의 데이터를 구축해왔다. 지금까지 개방된 데이터는 한국어, 이미지‧영상, 헬스케어 등 6대 분야에서 381종, 약 11억건에 이른다.

데이터는 'AI 허브'에 개방된다. AI 허브에 공개된 데이터는 국제 표준에 맞는 품질 기준을 달성하고 개인정보 비식별화를 거쳤다. 지난해 7월에는 AI 허브 연간 방문자 수가 최초로 100만명을 돌파했다.

이번에는 310종 약 15억건의 데이터를 개방하게 된다. 지난해 구축 분야가 제조‧로보틱스‧교육‧금융‧스포츠 등 14개로 확장되면서다. AI 허브 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

과기정통부는 매달 약 80여종을 개방해 7월말까지 310종 전체를 개방할 수 있도록 한다는 방침이다.

엄열 과기정통부 인공지능정책관은 "우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존의 라벨링 데이터 중심의 사업을 개편하여 초거대 인공지능 학습에 필요한 대규모 비라벨링 데이터와 한번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보해 나갈 예정"이라고 말했다.

g1@news1.kr

IT/과학

정부 역대 최대 규모 AI 학습용 데이터 개방…약 26억건