제주도 사투리도 알아듣는 AI비서 나온다..정부 AI 학습용데이터 170종 공개

18일부터 단계적으로 공개되는 AI 학습용 데이터 170종 분야별 내용.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 지난해 라벨링을 진행한 자연어, 헬스케어 등 인공지능 학습용 데이터 170종(4억8000만건)을 AI 허브를 통해 단계적으로 개방한다고 18일 밝혔다.

이번에 공개하는 170종의 AI학습용 데이터는 지난해 디지털뉴딜의 일환으로 본예산 380억원, 추경예산 2925억원을 투입해 만든 데이터다. AI·데이터 기업, 대학, 병원 등 674개 기업·기관과 4만여명 국민이 참여했다. 정부는 올해도 2925억원의 본예산과 780억원의 추경예산을 투입해 AI 학습용 데이터를 만들고 있고, 결과물은 내년에 공개될 예정이다.

임혜숙 과기정통부 장관이 인공지능 데이터 활용협의회 출범식에서 발언을 하고 있는 모습. [사진 제공 = 과기정통부]

AI학습용 데이터는 기존에 AI서비스를 하는 있는 곳에서 서비스를 고도화하거나, 스타트업들이 새로운 서비스를 개발할 때 이용할 수 있다. 특히 이번에 공개하는 데이터 중에서는 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종) 데이터가 주목된다. 오는 30일 공개하는 음성·자연어 데이터는 강원도, 경상도, 전라도, 제주도, 충청도 등 각 지역별 농어촌 주민의 실제 사투리 음성을 녹음한 방언 데이터다. 이를 활용하면 SKT 누구, KT 기가지니 등 AI비서가 사투리도 알아들을 수 있도록 서비스 고도화를 할 수 있다. 네이버, KT 등 대기업들의 사전 검토결과 "기존 서비스의 인식률이 12% 향상"됐다는 평가를 받기도 했다.

임혜숙 과기정통부 장관(중앙 오른쪽)이 인공지능 데이터 활용협의회 출범식에서 회원들과 기념사진을 찍는 모습. [사진 제공 = 과기정통부]

암 진단 의료영상 등 비식별 처리된 헬스케어 데이터도 '폐쇄형 안심존'을 통해 30일 공개한다. 뷰노 등 헬스케어 스타트업이 서비스를 고도화할 때 바로 활용할 수 있을 것으로 보인다.

과기정통부는 또 이날 오전 마곡의 LG사이언스파크에서 '인공지능(AI) 데이터 활용협의회' 출범식을 갖고, 의견수렴을 위한 간담회를 개최했다. 협의회 출범식에는 LG, 네이버, 삼성전자, SK텔레콤, KT를 포함한 대기업과 딥노이드, 스트라드비젼 같은 스타트업, 카이스트 등이 참석했다. AI 허브 데이터를 적극 활용하고, 지속적인 데이터 품질 개선작업과 신규·추가 과제 기획 협력 등을 이어가기로 했다.

한편 과기정통부는 이루다 사태 등을 막기 위해 학습용 데이터가 편향성을 띠지 않도록 '품질관리'에 올해 상반기에 오랜 기간을 쏟아부었다. 품질관리 전문기관인 한국정보통신기술협회(TTA)와 전문기업 등과 협력했고, 데이터 품질관리 수준도 대폭 강화했다. 개방 후 3개월동안도 '이용자 참여형 집중개선기간'을 운영해 이상있는 데이터가 발견될 경우 즉각 조치하기로 했다.

[이승윤 기자]

매일경제

IT

제주도 사투리도 알아듣는 AI비서 나온다..정부 AI 학습용데이터 170종 공개