유클리드소프트, NIA '초거대 AI 학습용 말뭉치데이터 구축 사업' 참여
유클리드소프트는 2020년 ‘생활 및 거주환경 AI 데이터’, ‘한국어 텍스트 AI 데이터’, ‘시각정보 기반 질의응답 AI 데이터’, 2021년 ‘비디오 네러티브 질의응답 AI 데이터’, ‘매체별 기계독해 AI 데이터’. 2022년 ‘자연어 기반 질의(NL2SQL) 검색 생성 데이터’, ‘외부 지식 기반 멀티모달 질의응답 데이터’, ‘금융, 법률 문서 기계 독해 데이터’, ‘표 정보 질의응답 데이터’ 등에 참여하여 한국어 데이터 구축 분야에 높은 전문성을 인정받은 기업이다.
최근 GPT, Bard, LLaMA 등 초거대모델의 등장으로 대규모 언어모델(Large Language Model : LLM)의 필요성이 증대하였다. 그러나 보안 이슈, 언어 문제 등으로 인하여 적극적인 도입에 한계가 있어 국내에서 활용하기에 용이한 한국형 대규모 언어모델의 개발이 필요한 실정이다. 과학기술정보통신부는 초거대 AI 발전을 위해 ‘초거대 AI 추진 협의회’ 등을 지속 구축·운영해온 바 있다.
이번 ‘국가기록물 대상 초거대 AI 학습을 위한 말뭉치데이터’사업 또한 초거대 AI 발전을 위한 인공지능 학습용 데이터 구축 사업의 일환이다. 유클리드소프트는 이번 사업을 통하여 국가기록물을 대상으로 3억 토큰에 달하는 대규모 말뭉치 데이터를 수집하고, Instruct 질의응답 데이터셋을 구축한다. 구축한 데이터는 이후 AI Hub를 통해 공개될 예정이며, △초거대 AI 모델 활용 △공무원의 데이터 분석 및 활용 △국민 불편 해소 △정부 혁신 플랫폼 구축 등에 활용되어 과학적 행정 일상화에 기여할 것으로 기대된다.
유클리드소프트는 2022년 ‘인공지능 학습용 데이터 구축 사업’ 최종 평가에서 우수 등급을 받은 ‘대규모 시각 추론 학습 데이터’ 등 AI 학습 데이터 구축 경험을 다수 보유하고 있다. 2023년에는 ‘국가기록물 대상 초거대 AI 학습을 위한 말뭉치데이터’와 더불어 ‘한국어 GQA 데이터’, ‘물체 조작 손동작 3D 데이터’를 구축하고 있다. 또한 크라우드 소싱 플랫폼 ‘LabelOn’ 등 자체 개발 저작도구와 체계적인 품질 검수를 기반으로 고객들에게 높은 수준의 AI 학습용 데이터를 제공하고 있다.
유클리드소프트 박주한 대표는 “본 사업을 통해 AI가 읽을 수 있는 방식으로 문서를 생성하고, 초거대 AI 학습에 활용하는 등 과학적 행정이 일상화되어 부처 간 칸막이를 허물고 모든 서비스를 한 곳에서 처리할 수 있는 데이터 기반 행정의 초석을 마련하는 데에 이바지하겠다”고 전하며, “초거대 AI를 자유롭게 활용할 수 있는 생태계 조성에 기여하겠다”고 밝혔다.
박영덕 기자 park.youngduck@joins.com
Copyright © 중앙SUNDAY. 무단전재 및 재배포 금지.