국립국어원, 한국어 학습자 말뭉치 1588만 어절 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
국립국어원(이하 국어원)이 '한국어 학습자 말뭉치 나눔터'를 통해 한국어 학습자 말뭉치 218만 어절을 29일부터 추가 공개한다.
국어원은 '한국어 학습자 말뭉치 나눔터'를 통해 자료를 공개·배포하며, 통계와 검색 서비스도 제공한다.
국어원 관계자는 "인공지능 시대에 한국어 학습자 말뭉치의 중요성은 더욱 강조되고 있다"며 "데이터들이 다양하게 활용될 수 있도록 앞으로도 말뭉치 사업 규모를 확대해 나가겠다"고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(서울=뉴스1) 박정환 문화전문기자 = 국립국어원(이하 국어원)이 '한국어 학습자 말뭉치 나눔터'를 통해 한국어 학습자 말뭉치 218만 어절을 29일부터 추가 공개한다. 이번 공개로 말뭉치 규모는 총 1588만 어절에 이른다.
한국어 학습자 말뭉치는 외국인들이 한국어를 학습하며 작성한 글쓰기·말하기 자료를 수집해 컴퓨터와 사람이 활용할 수 있도록 가공한 것이다.
2015년 기초 연구를 시작해 올해로 구축 10년을 맞았으며, 108개 언어권 학습자의 자료를 토대로 한다.
국어원은 학습자의 글쓰기·말하기 자료를 기반으로 기본 '원시 말뭉치'를 구축했다. 이를 바탕으로 '형태 주석 말뭉치', '오류 주석 말뭉치'를 제작한다.
원시 말뭉치는 문장·문단 경계와 형식 정보를 담고, 형태 주석 말뭉치는 단어의 구성 및 품사 정보를, 오류 주석 말뭉치는 학습자의 어휘·문법·표현 오류 정보를 기록한다.
국어원은 '한국어 학습자 말뭉치 나눔터'를 통해 자료를 공개·배포하며, 통계와 검색 서비스도 제공한다. 또한 연세대학교 산학협력단과 함께 '한국어 학습자 말뭉치 아카데미'를 8월부터 12월까지 총 4회 운영한다.
국어원 관계자는 "인공지능 시대에 한국어 학습자 말뭉치의 중요성은 더욱 강조되고 있다"며 "데이터들이 다양하게 활용될 수 있도록 앞으로도 말뭉치 사업 규모를 확대해 나가겠다"고 밝혔다.
art@news1.kr
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.
- 홍서범 교사 아들의 불륜, 제자들에 먼저 들통…"야자때 둘이 사라졌다"
- '모텔 살인' 김소영 "IQ 70 수준, 하위 10%…사이코패스 아닐 수도"
- 배우 이상보 44세 사망 …안타까움 속 소속사 "유족 요청으로 사인 비공개"
- "퇴폐업소 다니던 남편, 내가 13㎏ 빼자 스킨십 시도…토악질 나온다"
- 집단 성폭행 후 하반신 마비 25세 스페인 여성 안락사 '충격'
- "22살에 은퇴자 같은 생활 선택"…노인들 '말벗' 대가로 월세 단돈 '4만원'
- "도움드리지 않는 게 원칙"…장성규, 누리꾼 금전 요청 거절 후 500만원 기부
- 블랙핑크 제니, 해변부터 침대까지…관능적 비키니 자태 [N샷]
- '40억 건물주' 이해인 "절반이 공실, 월 이자 600만원 낼 줄 몰랐다"
- '룸살롱 폭행' 이혁재가 국힘 청년 오디션 심사…"이게 맞나"