다이퀘스트, 2023년 한국어 인공지능 학습용 데이터 구축 사업 성료

인공지능(AI) 전문기업 다이퀘스트가 '2023년 인공지능 학습용 데이터 구축사업'의 일환인 '한국어 SNS 멀티턴 대화 데이터 구축' 사업을 성공적으로 수행했다고 10일 밝혔다.

금번 사업은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하였으며 미디어코퍼스, 심심이와 함께 컨소시엄을 구성하여 진행됐다.

'한국어 SNS 멀티턴 대화 데이터'란 챗봇 등 질의응답 시스템이 대화의 맥락과 흐름을 이해할 수 있도록 구축되는 발화 데이터로, 2인 이상이 SNS에서 여러 차례 주고받은 대화의 어휘 및 표현, 최신 트렌드 분야의 신조어, 축약어 등 SNS 대화의 특성을 반영해 구성된다.

이번 사업을 통해 △일상 트렌드(건강 및 식음료, 여행/관광 및 명소, 문화생활 및 여가, 미용과 패션, 취업이직/직업, 콘텐츠소비) △시사트렌드(경제 및 사회, 정치, 과학기술)에 해당하는 총 9가지 분야의 '한국어 SNS 멀티턴 대화 데이터' 300만건 이상이 구축됐다.

구축된 데이터 및 저작도구는 한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼인 'AI-Hub'를 통해 배포 및 운영될 예정이다.

사업을 총괄한 다이퀘스트 이경욱 수석연구원은 "인간처럼 대화하는 AI 대화 서비스 산업의 발전과 초거대 AI 언어모델로 활용 가능한 고품질의 말뭉치 데이터 확보를 목표로 이번 사업을 수행했다"며 "사용자 친화적 정보성 문답 챗봇 산업 활성화와 한국어 초거대 AI 모델 및 대화형 인공지능 시장의 인프라 마련 등 AI 대화산업 활성화 및 새로운 부가가치 창출 효과를 기대한다"고 말했다.

한편, 주관사인 다이퀘스트는 2020년부터 2023년까지 4년 연속으로 '인공지능 학습용 데이터 구축사업'에 참여하여 한국어(언어지능) 및 영상이미지(시각지능) 데이터 구축과 딥러닝 기술개발을 진행하는 등 성공적으로 사업을 수행한 바 있다.

정래연기자 fodus0202@dt.co.kr

디지털타임스

IT/과학

다이퀘스트, 2023년 한국어 인공지능 학습용 데이터 구축 사업 성료