한국어 강의음성 등 AI 학습용 데이터 44종 2차 개방

6월 25~27일 AI 허브에 한국어 강의, 동의보감 약초이미지 등 개방
30일 헬스케어 데이터 포함 66종 3차 개방..총 170종 개방 완료

[이데일리 이후섭 기자] 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 25일부터 데이터셋 품질검증과 사전검토 보완조치를 완료한 인공지능(AI) 학습용 데이터 110종을 순차 개방한다고 밝혔다.

과기정통부와 NIA는 한국어 음성, 헬스케어, 자율주행 등 AI 학습용 데이터 170종, 4억8000만건을 AI 허브를 통해 본격 개방하기로 결정했다. 지난 18일 총 170종 중 60종의 데이터를 개방한데 이어 이날부터 나머지 110종을 추가로 개방하게 됐다.

110종의 데이터 중 44종을 AI 허브에 이날부터 오는 27일까지 개방할 예정이며, 이번에 개방하는 데이터는 한국어 강의음성, 동의보감 약초이미지, 생활페기물 이미지 등의 데이터들이 개방될 예정이다. 이후 30일에 헬스케어 데이터를 포함한 66종의 데이터가 개방되면 지난해 구축한 170종의 모든 데이터 개방이 완료된다.

과기정통부는 데이터 개방 후에도 이용자와 함께 더 나은 데이터 제공을 위한 개선점을 찾기 위해 오는 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다. AI 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영하고, TTA·KISA 등과 협력해 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF를 운영한다.

이후섭 (dlgntjq@edaily.co.kr)

IT

한국어 강의음성 등 AI 학습용 데이터 44종 2차 개방