국립국어원, 인공지능 언어자원 12종 공개

박정환 문화전문기자 2025. 9. 29. 08:52
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

국립국어원이 한국어-외국어 병렬 말뭉치와 한국수어, 국어 역사 자료 등 인공지능 언어자원 12종을 29일 새롭게 공개했다.

이번 신규 자원은 한국어-외국어 병렬 말뭉치 8종, 한국수어 말뭉치 3종, 국어 역사 자료 말뭉치 1종으로 구성됐다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

외국어 병렬·수어·역사 자료 등 다채로운 언어자원
모두의 말뭉치 첫화면

(서울=뉴스1) 박정환 문화전문기자 = 국립국어원이 한국어-외국어 병렬 말뭉치와 한국수어, 국어 역사 자료 등 인공지능 언어자원 12종을 29일 새롭게 공개했다. 이번 공개로 지금까지 총 134종의 말뭉치가 제공된다.

국립국어원은 한국어 특화 인공지능 개발과 연구에 필요한 고품질 언어자원을 구축해 산업계와 학계에서 활용할 수 있도록 지원해왔다. 이번 신규 자원은 한국어-외국어 병렬 말뭉치 8종, 한국수어 말뭉치 3종, 국어 역사 자료 말뭉치 1종으로 구성됐다.

한국어-외국어 병렬 말뭉치는 신문 말뭉치와 일상 대화 말뭉치를 기반으로 베트남어, 인도네시아어, 태국어, 힌디어, 크메르어, 타갈로그어, 러시아어, 우즈베크어 등 8개 언어로 번역해 구축했다. 이는 인공지능 기반 번역 모델과 다국어 처리 연구에 필수적이다.

한국수어 말뭉치는 수어 영상 자료를 원시 형태로 제공하는 원시 말뭉치, 한국어 번역과 주석을 추가한 주석 말뭉치, 한국어와 병렬로 구성된 병렬 말뭉치다. 수어통역 기술 개발과 농인 소통 지원에 기여할 것으로 기대된다.

국어 역사 자료 말뭉치는 17~19세기 언간(한글편지) 자료와 20세기 초 신소설 문헌을 포함했다. 한국어의 역사적 변천과 언어문화 연구에 활용할 수 있는 귀중한 자료다.

134종의 말뭉치는 연구자, 개발자 등 누구나 이용할 수 있다. '모두의 말뭉치' 누리집에서 온라인 약정서를 작성하고 승인받으면 내려받을 수 있다.

국립국어원 관계자는 "한국어와 한국문화를 잘 이해하는 독자 인공지능 개발을 위해 2030년까지 총 340종의 말뭉치를 공개할 계획"이라며 "이번 자원은 한국어 기반 인공지능 연구와 언어문화 전승에 중요한 밑거름이 될 것"이라고 말했다.

art@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.