국립국어원 AI에 뛰어든 까닭...“병렬말뭉치 3000만 어절 구축 도전”

이상덕 기자(asiris27@mk.co.kr) 2023. 12. 5. 11:12
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

국립국어원이 인공지능(AI) 기반 연구에 뛰어들었다.

국립국어원은 2021년 '한국어-외국어 병렬 말뭉치'를 웹사이트 '모두의 말뭉치'에 공개한 바 있다.

심포지엄 주제는 '국립국어원 한국어-외국어 병렬 말뭉치의 활용과 응용'이다.

이러한 문제를 해결하기 위해 국립국어원은 2021년부터 베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어, 러시아어, 우즈베크어 등 8개 언어를 대상으로 한국어-외국어 병렬 말뭉치 사업을 추진하고 있다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

12월8일 대한상의서 심포지엄
국립국어원
국립국어원이 인공지능(AI) 기반 연구에 뛰어들었다. 국립국어원은 2021년 ‘한국어-외국어 병렬 말뭉치’를 웹사이트 ‘모두의 말뭉치’에 공개한 바 있다. 국립국어원은 이에 대한 성과와 활용 사례를 공유하는 국제 심포지엄을 12월 8일 오전 9시 대한상공회의소에서 개최한다고 발표했다. 심포지엄 주제는 ‘국립국어원 한국어-외국어 병렬 말뭉치의 활용과 응용’이다.

국립국어원이 AI 연구에 뛰어든 이유는 따로있다. 국립국어원에 따르면, 최근 5년간 한국에 체류한 외국인 수가 연평균 약 220만 명에 달한다. 이들 중 가장 많은 국적은 중국, 베트남, 태국, 미국, 우즈베키스탄, 필리핀, 일본 순으로 나타났다. 한국의 국경과 국적의 경계가 점차 허물어지면서 언어 다양성의 필요성이 증가하고 있는 것이다. 특히 영어, 중국어, 일본어는 자료가 상대적으로 국내에 풍부하다. 하지만 베트남어, 태국어, 우즈베크어 등은 자료를 구하기 어려운 상황이다. 이러한 문제를 해결하기 위해 국립국어원은 2021년부터 베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어, 러시아어, 우즈베크어 등 8개 언어를 대상으로 한국어-외국어 병렬 말뭉치 사업을 추진하고 있다. 이 사업의 목표는 약 3000만 어절의 병렬 말뭉치를 구축하는 것이다.

AI 학습시 말뭉치는 매우 중요한 역할을 한다. 말뭉치란 자연 언어 처리를 위해 수집된 텍스트나 구어 자료의 집합을 의미한다. AI 모델은 말뭉치를 통해 언어의 구조, 문법, 어휘 등을 학습하고 이를 통해 모델은 문장을 이해하고 적절한 문장을 생성한다.

이번 심포지엄에는 말뭉치와 관련된 다양한 산학 전문가들이 참여할 예정이다. 박진호 서울대 교수, 이도길 고려대 교수, 이정수 ㈜플리토 대표, 김윤기 ㈜업스테이지 엔지니어 등이 발표를 진행할 예정이다. 또한, 한국어-외국어 병렬 말뭉치의 활용과 응용 방안에 대한 패널 토의가 진행될 예정이다. 국립국어원은 이 심포지엄을 바탕으로 저자원 언어의 병렬 말뭉치 구축을 확대하고 국제적인 언어 연구 협력을 증진시킬 계획이다. 이번 심포지엄은 유튜브를 통해 실시간 온라인으로 중계될 예정이어서 전 세계 관심 있는 이들이 참여할 수 있다.

이 심포지엄에서는 다양한 언어권의 연구자들이 한국어-외국어 병렬 말뭉치를 활용한 연구 사례를 공유된다.

카첸 딴시리(Kachen Tansiri) 태국 쭐랄롱꼰대 시린톤태국어연구소 이사와 박경은 한국외대 교수는 한국어-태국어 번역에서의 일반적인 오류와 이를 개선하기 위한 접근 방식을 논의한다. 꾸마르 스리잔(Kumar Srijan) 부산외대 교수와 뒤웨디 아난드 쁘라까쉬 샤르마(Dwivedi Anand Prakash Sharma) 델리대 교수는 한국어-힌디어 병렬 말뭉치에서 고유명사의 음역에 대한 중요성을 탐구한다. 갈라노바 딜노자(Kalanova Dilnoza) 호남대 교수는 한국어-우즈베크어 번역의 특징을 고유명사를 중심으로 분석한다. 또한, 모졸 따지아나(Mozol Tatiana) 모스크바국립외대 교수와 마블레에바 다리아(Mavleeva Darya) 모스크바국립외대 교수는 한국어와 러시아어의 화용론적 마커를 논의하며, 알드린 리(Aldrin P. Lee) 필리핀국립대 교수는 한국어-타갈로그어 병렬 말뭉치에서의 번역 오류 유형을 분석한다.

이번 사업은 한국의 언어 다양성과 국제적인 언어 교류를 촉진하는 중요한 단계가 될 것으로 보인다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지