디엠티랩스, 과기정통부·NIA ‘2022년 인공지능 학습용 데이터 구축사업’ 완료

AI 기술·서비스 개발 위한 학습용 데이터 구축
누구나 활용할 수 있도록 개방해 AI 생태계 조

디엠티랩스는 ‘과학기술정보통신부’가 주관하고 ‘한국지능정보사회진흥원(NIA)’이 추진하는 ‘2022년 인공지능 학습용 데이터 구축사업’을 성공적으로 수행했다고 6일 밝혔습니다.

인공지능 학습용 데이터 구축 사업은 AI 기술과 서비스 개발을 위한 학습용 데이터를 구축하고 누구나 활용할 수 있도록 개방함으로써 국가 AI산업의 생태계를 조성하는 것을 목적으로 합니다.

디엠티랩스는 ‘방송콘텐츠 한국어-유럽어 통·번역 데이터’ 사업을 주관, △사이버한국외국어대 산학협력단 △솔트룩스이노베이션 △시스트란 △아이시글로벌 △에버트란 △윤즈정보개발 등과 컨소시엄을 구성해 ‘방송콘텐츠 한국어-유럽어 통번역 음성 데이터 총 2100시간’과 ‘방송콘텐츠 한국어-유럽어 번역 말뭉치 195만 문장쌍’의 데이터를 구축했습니다.

또한, 에버트란이 주관한 ‘방송콘텐츠 한국어-영어 통·번역 데이터’ 사업에 참여하여 영어 통번역 데이터도 함께 구축했습니다.

‘방송콘텐츠 한국어-유럽어 통·번역 데이터’ 사업의 경우, 국내 5개 방송사와 콘텐츠 기관으로부터 6개 카테고리와 관련된 영상·음성 데이터를 2000시간 이상 수집 및 가공하였고, 유럽 언어 자원 협회 운영기관으로부터 유럽어 데이터를 75만 문장을 수집 및 가공했습니다.

수집된 데이터는 음성 전사 및 정제 후 번역사를 통해 언어별로 번역하였으며, 국내외 유럽어 원어민을 통해 직접 발화 녹음을 했습니다.

해당 사업은 최종 평가에서 성과에 대한 전문성을 인정받아 ‘우수’ 등급을 받았습니다.

이번 사업에서 디엠티랩스는 영상 내 음성 인식, 한국어 자막 생성, 자동번역한 다국어 자막 생성, 자막 오류 수정, 자막 다운로드 등 음성 전사와 원문 정제에 편리한 기능을 구현함으로써 구축 업무의 효율성을 극대화했고, 번역과 발화 녹음에서도 일관된 품질을 낼 수 있는 웹 구축도구를 사용하여 국내 및 해외의 작업자들이 각지에서 실시간으로 데이터 구축에 참여하도록 했습니다.

품질 관리를 위해 내부적으로 컨소시엄 전체 품질관리팀을 운영하였으며, 외부 품질 검증기관의 전문인력을 통해 피드백을 꾸준히 반영하며 오류율을 낮추고 고품질 데이터 구축했고, 구축한 데이터의 활용도를 높이기 위해 지난 11월 해커톤도 개최했습니다.

이번에 구축된 데이터는 NIA의 AIHub 사이트를 통해 공개될 예정이며 다국어 통번역 서비스, 다국어 영상 자막 서비스, 한국어 음성인식 및 자동번역 모델 성능 고도화 등에 활용될 전망입니다.

방송콘텐츠 분야 연구 및 산업에서 다양하게 활용할 수 있도록 범용성 높게 구축된 고품질 데이터로 글로벌 한국 문화 확산 및 콘텐츠 산업 활성화에 기여하는 것을 기대하고 있습니다.

디엠티랩스 관계자는 “챗GPT와 같은 지능형 인공지능 기술이 날로 확산되면서 고품질 대용량 인공지능 학습데이터의 수요 및 확보가 날로 중요해지고 있어 관련 분야 산업 경쟁력 확보에 앞으로 더욱 힘쓸 것”이라고 말했습니다.

[오태윤 기자 / 5tae@mbn.co.kr]

< Copyright ⓒ MBN(www.mbn.co.kr)무단전재 및 재배포 금지 >

경제

디엠티랩스, 과기정통부·NIA ‘2022년 인공지능 학습용 데이터 구축사업’ 완료