국립국어원, 한국어 말뭉치 218만 어절 추가 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
국립국어원은 오는 29일부터 한국어 학습자 말뭉치 218만 어절을 추가로 공개한다.
한국어 학습자 말뭉치는 외국인들이 한국어를 학습하면서 만들어 낸 외국어로서의 한국어 학습 자료를 컴퓨터와 사람이 활용할 수 있는 자료로 가공한 것이다.
국어원은 한국어교원과 연구자들이 손쉽게 말뭉치를 활용할 수 있도록 '한국어 학습자 말뭉치 나눔터'를 통해 공개·배포하고, 통계 및 검색 서비스도 제공하고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
총 1588만 어절 말뭉치 선보여
[이데일리 김미경 기자] 국립국어원은 오는 29일부터 한국어 학습자 말뭉치 218만 어절을 추가로 공개한다.
한국어 학습자 말뭉치는 외국인들이 한국어를 학습하면서 만들어 낸 외국어로서의 한국어 학습 자료를 컴퓨터와 사람이 활용할 수 있는 자료로 가공한 것이다.
‘말뭉치’란 언어학 용어인 코퍼스(corpus)에 대응하는 우리말 표현으로, 언어 연구를 위해 컴퓨터가 처리할 수 있도록 가공해 모아 놓은 언어 자료를 의미한다.
2015년 기초 연구를 시작해 올해 한국어 학습자 말뭉치 구축 10년을 맞는 국어원은 218만 어절을 추가한 총 1588만 어절의 한국어 학습자 말뭉치(이하 말뭉치)를 공개한다. 이는 108개 언어권 한국어 학습자들의 표본을 수집해 구축한 방대한 양이다.
한국어 학습자의 글쓰기, 말하기 자료를 수집해 기본이 되는 ‘원시 말뭉치’를 구축하고, 이 원시 말뭉치를 바탕으로 단어의 구성 및 품사 정보 등을 달아 ‘형태 주석 말뭉치’를, 학습자의 오류 정보를 달아 ‘오류 주석 말뭉치’를 구축한다.
국어원은 “이렇게 만들어진 말뭉치는 한국어 연구, 사전 편찬, 기계 번역 연구 등 다양한 용도로 활용된다. 특히 말뭉치를 통해 외국인의 한국어 사용 양상을 확인할 수 있고, 자주 틀리는 어휘, 문법, 표현 등을 분석할 수 있어 효과적인 한국어 교수법을 마련하거나 한국어 교재 제작할 때 큰 도움을 준다”고 말했다.
국어원은 한국어교원과 연구자들이 손쉽게 말뭉치를 활용할 수 있도록 ‘한국어 학습자 말뭉치 나눔터’를 통해 공개·배포하고, 통계 및 검색 서비스도 제공하고 있다. 또한 국어원에서 주최하고 연세대 산학협력단이 주관하는 ‘한국어 학습자 말뭉치 아카데미’도 이달부터 12월까지 4회에 걸쳐 운영한다.
국어원 관계자는 “인공지능 시대에 한국어 학습자 말뭉치의 중요성은 더욱 강조되고 있다”며 “한국어 학습자 말뭉치의 데이터들이 다양하게 활용될 수 있도록 앞으로도 말뭉치 사업 규모를 확대해 나가겠다”고 말했다.


김미경 (midory@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
- 'SM 시세조종 의혹' 카카오 김범수…檢, 징역 15년 구형(상보)
- 부산 고교 2곳에 폭발물 설치협박 팩스…1천여명 대피(종합)
- "3년에 2200만원"…혜택 더 커진 청년미래적금 나온다
- 마약 밀수범 잡고 보니…‘캄보디아 활동’ 한국인 쇼호스트
- 타는 듯한 더위에 곳간도 ‘텅’…직격탄 맞은 소상공인
- 특검 "김건희 주가조작 단순 '전주'아닌 공모관계…증거 多"
- 시속 82km로 역주행한 벤츠…50대 가장의 ‘마지막 배달’ [그해 오늘]
- 소나기 내리는 주말, 전국 최고 34도까지[내일날씨]
- 준강간 혐의 '나는솔로' 30대 남성…오늘 첫 재판
- "윤석열에 불리"...'김건희 성상납 의혹' 김용민, 벌금 700만원