“AI 언어모델 한국어 성능 개선” DGIST, ‘AI 학습용 데이터 구축 지원사업’ 선정

- 초거대 AI 학습용 한국어 말뭉치 데이터 구축 목표

[헤럴드경제=구본혁 기자] 대구경북과학기술원(DGIST)은 ‘2023년 인공지능 학습용 데이터 구축 지원사업’에 선정됐다고 5일 밝혔다. ‘한국어 성능이 개선된 초거대 AI 언어모델 개발 및 데이터 구축’을 목표로 과학기술정보통신부, 한국지능정보사회진흥원(NIA)로부터 총 14억원의 지원을 받아 과제를 수행한다.

이번 과제에는 과제 책임자인 DGIST 전기전자컴퓨터공학과 김대훈 교수를 중심으로 송진영 교수 연구팀, 인하대학교 김도국 교수 연구팀과 ㈜빅웨이브에이아이, DGIST 학생창업기업 ㈜유니바가 컨소시엄을 구성해 참여한다. 연구팀은 지난 7월부터 연구 및 개발에 착수했다.

챗-GPT, 구글의 Bard와 같은 AI 언어 모델 기반 대화 서비스가 등장하면서 누구나 쉽게 초거대 언어 모델 기반의 서비스를 이용하고 있다. 그러나 이러한 초거대 언어 모델 기반의 서비스는 한국어에 대한 이해가 부족해 사용 시 다소 불편을 겪게 된다. 연구팀은 이를 해결하기 위해 양질의 학습용 한국어 말뭉치 데이터 구축 및 모델을 개발해 초거대 AI 언어 모델의 한국어 성능을 개선하는 것을 목표로 하고 있다.

김대훈(왼쪽부터) DGIST 교수, 송진영 DGIST 교수, 김도국 인하대 교수, 이희준 빅웨이브아이 대표, 남명진 유니바 대표.[DGIST 제공]

김대훈 교수는 “언어 모델을 학습하기 위한 한국어 데이터가 매우 부족한 상황”이라며 “DGIST, 인하대 연구팀과 관련 기업이 함께 머리를 맞대어 초거대 언어 모델 기반 서비스들의 한국어 성능 개선에 크게 기여를 할 수 있을 것으로 기대된다”고 말했다.

한편 인공지능 학습용 데이터 구축 지원 사업은 인공지능 학습용 데이터/모델 구축·개방을 통해 인공지능 생태계 조성 및 일상화를 목표로 과학기술정보통신부가 주관하고 NIA가 추진하는 사업이다. 총 2805억원의 예산을 투입해 150종의 신규 데이터를 구축한다.

nbgkoo@heraldcorp.com

IT/과학

“AI 언어모델 한국어 성능 개선” DGIST, ‘AI 학습용 데이터 구축 지원사업’ 선정