“AI 언어모델 한국어 성능 개선” DGIST, ‘AI 학습용 데이터 구축 지원사업’ 선정
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
대구경북과학기술원(DGIST)은 '2023년 인공지능 학습용 데이터 구축 지원사업'에 선정됐다고 5일 밝혔다.
'한국어 성능이 개선된 초거대 AI 언어모델 개발 및 데이터 구축'을 목표로 과학기술정보통신부, 한국지능정보사회진흥원(NIA)로부터 총 14억원의 지원을 받아 과제를 수행한다.
연구팀은 이를 해결하기 위해 양질의 학습용 한국어 말뭉치 데이터 구축 및 모델을 개발해 초거대 AI 언어 모델의 한국어 성능을 개선하는 것을 목표로 하고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
[헤럴드경제=구본혁 기자] 대구경북과학기술원(DGIST)은 ‘2023년 인공지능 학습용 데이터 구축 지원사업’에 선정됐다고 5일 밝혔다. ‘한국어 성능이 개선된 초거대 AI 언어모델 개발 및 데이터 구축’을 목표로 과학기술정보통신부, 한국지능정보사회진흥원(NIA)로부터 총 14억원의 지원을 받아 과제를 수행한다.
이번 과제에는 과제 책임자인 DGIST 전기전자컴퓨터공학과 김대훈 교수를 중심으로 송진영 교수 연구팀, 인하대학교 김도국 교수 연구팀과 ㈜빅웨이브에이아이, DGIST 학생창업기업 ㈜유니바가 컨소시엄을 구성해 참여한다. 연구팀은 지난 7월부터 연구 및 개발에 착수했다.
챗-GPT, 구글의 Bard와 같은 AI 언어 모델 기반 대화 서비스가 등장하면서 누구나 쉽게 초거대 언어 모델 기반의 서비스를 이용하고 있다. 그러나 이러한 초거대 언어 모델 기반의 서비스는 한국어에 대한 이해가 부족해 사용 시 다소 불편을 겪게 된다. 연구팀은 이를 해결하기 위해 양질의 학습용 한국어 말뭉치 데이터 구축 및 모델을 개발해 초거대 AI 언어 모델의 한국어 성능을 개선하는 것을 목표로 하고 있다.
김대훈 교수는 “언어 모델을 학습하기 위한 한국어 데이터가 매우 부족한 상황”이라며 “DGIST, 인하대 연구팀과 관련 기업이 함께 머리를 맞대어 초거대 언어 모델 기반 서비스들의 한국어 성능 개선에 크게 기여를 할 수 있을 것으로 기대된다”고 말했다.
한편 인공지능 학습용 데이터 구축 지원 사업은 인공지능 학습용 데이터/모델 구축·개방을 통해 인공지능 생태계 조성 및 일상화를 목표로 과학기술정보통신부가 주관하고 NIA가 추진하는 사업이다. 총 2805억원의 예산을 투입해 150종의 신규 데이터를 구축한다.
nbgkoo@heraldcorp.com
Copyright © 헤럴드경제. 무단전재 및 재배포 금지.
- "그것만은 비밀로 해줄게"…이다영이 감춘 김연경의 비밀은?
- “셋째 낳으면 5000만원 준다” 이래도 돼?…파격 혜택 ‘회사’ 어디
- 화사, 외설 논란 심경 고백…“악플 수위 심각, 올해 가장 많이 울어”
- “이륙 1분뒤 ‘펑’, 기체 갑자기” 169명 탄 中비행기 무슨 일이
- 아이유 표절 고발 사건…法 “정신적 고통 준 악의적 고발 행태”
- 출연료 1억? 연예인 총동원했더니…쿠팡 결국 대박 터졌다
- “이 광경, 실화냐?” 망한 줄 알았는데, 1분만에 완판…삼성도 ‘경악’
- “그땐 5만원, 지금 찾으면 166억원?” 전세계 난리난 ‘이것’ 어디 있길래
- “죽으면 쓰레기 봉투에 버려라?” 강아지 쓰레기 취급…억장 무너지는 주인
- 가수 홍진영, 송정동 건물주 됐다…고소영 빌딩 옆 빌딩 35억에 매입