국립국어원, 인공지능 언어자원 12종 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
국립국어원이 한국어-외국어 병렬 말뭉치와 한국수어, 국어 역사 자료 등 인공지능 언어자원 12종을 29일 새롭게 공개했다.
이번 신규 자원은 한국어-외국어 병렬 말뭉치 8종, 한국수어 말뭉치 3종, 국어 역사 자료 말뭉치 1종으로 구성됐다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(서울=뉴스1) 박정환 문화전문기자 = 국립국어원이 한국어-외국어 병렬 말뭉치와 한국수어, 국어 역사 자료 등 인공지능 언어자원 12종을 29일 새롭게 공개했다. 이번 공개로 지금까지 총 134종의 말뭉치가 제공된다.
국립국어원은 한국어 특화 인공지능 개발과 연구에 필요한 고품질 언어자원을 구축해 산업계와 학계에서 활용할 수 있도록 지원해왔다. 이번 신규 자원은 한국어-외국어 병렬 말뭉치 8종, 한국수어 말뭉치 3종, 국어 역사 자료 말뭉치 1종으로 구성됐다.
한국어-외국어 병렬 말뭉치는 신문 말뭉치와 일상 대화 말뭉치를 기반으로 베트남어, 인도네시아어, 태국어, 힌디어, 크메르어, 타갈로그어, 러시아어, 우즈베크어 등 8개 언어로 번역해 구축했다. 이는 인공지능 기반 번역 모델과 다국어 처리 연구에 필수적이다.
한국수어 말뭉치는 수어 영상 자료를 원시 형태로 제공하는 원시 말뭉치, 한국어 번역과 주석을 추가한 주석 말뭉치, 한국어와 병렬로 구성된 병렬 말뭉치다. 수어통역 기술 개발과 농인 소통 지원에 기여할 것으로 기대된다.
국어 역사 자료 말뭉치는 17~19세기 언간(한글편지) 자료와 20세기 초 신소설 문헌을 포함했다. 한국어의 역사적 변천과 언어문화 연구에 활용할 수 있는 귀중한 자료다.
134종의 말뭉치는 연구자, 개발자 등 누구나 이용할 수 있다. '모두의 말뭉치' 누리집에서 온라인 약정서를 작성하고 승인받으면 내려받을 수 있다.
국립국어원 관계자는 "한국어와 한국문화를 잘 이해하는 독자 인공지능 개발을 위해 2030년까지 총 340종의 말뭉치를 공개할 계획"이라며 "이번 자원은 한국어 기반 인공지능 연구와 언어문화 전승에 중요한 밑거름이 될 것"이라고 말했다.
art@news1.kr
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.
- 성폭행 피해 여성 "경찰이 성관계해 주면 사건 접수해 주겠다" 폭로 발칵
- '모텔 살인' 김소영 "엄마 밥 먹고 싶다, 무기징역 받을까 무섭다"
- "뒤에서 날 끌어안은 미모의 동료 여직원"…구청 공무원, 합성 프사 말썽
- "윤석열 반찬 투정에 식탐" 내부 폭로 나왔다…류혁 전 감찰관 "맞다"
- 천년 된 전통 음식이라는데 '아동 소변'으로 삶은 달걀 커피 판매 논란
- "'온몸 구더기' 아내, 오래된 골절…부사관 남편은 큰 빚 있었다"
- 여직원 책상에 'XX털' 뿌린 상사…'안 죽었니?' 택시 기사 폭행한 버스 기사[주간HIT영상]
- 김대희, 승무원 출신 아내 공개 "26살에 결혼…파혼할 뻔한 적도 있어"
- 나나 "꾸준히 잘 만나, 이상형은 부드러운 사람"…연하 채종석과 열애설 재점화
- 최준희, 5월 결혼 앞두고 더 물오른 미모…시크 비주얼 [N샷]