단국대 한문교육연구소, 고문헌 한자 90% 인식 A.I 개발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI)과 빅데이터 기술로 조선왕조실록, 일성록(日省錄), 개인 문집류 등 고문헌의 한자를 지금보다 좀 더 빠르게 확인하고 연구할 수 있는 길이 열렸다.
단국대 부설 한문교육연구소와 자율형블록체인융합연구소는 고문헌에 표기된 흘림체 글자 등 복잡한 한자에 인공지능 기술을 적용, 한자를 자동으로 분할하고 인식하는 모델을 개발하는데 성공했다고 6일 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
기사내용 요약
한자 3억 자 자동 인식·유영화 DB 구축
2019년부터 3년간 연, 10억 원 투입
[용인=뉴시스]신정훈 기자 = 인공지능(AI)과 빅데이터 기술로 조선왕조실록, 일성록(日省錄), 개인 문집류 등 고문헌의 한자를 지금보다 좀 더 빠르게 확인하고 연구할 수 있는 길이 열렸다.
단국대 부설 한문교육연구소와 자율형블록체인융합연구소는 고문헌에 표기된 흘림체 글자 등 복잡한 한자에 인공지능 기술을 적용, 한자를 자동으로 분할하고 인식하는 모델을 개발하는데 성공했다고 6일 밝혔다.
이번 개발로 3억 자 이상의 한자 이미지를 데이터베이스로 구축, 사용자가 사용할 경우 전체 한자의 90% 이상을 판별할 수 있다.
이 프로그램은 고문헌 이미지 파일의 한자 이미지를 자동으로 분할하고 이후 추출된 한자 자형 이미지에 맞는 한자 유니코드를 부여해 검색과 활용이 용이한 신뢰도 높은 한자 자형 정보 데이터베이스를 구축한다.
연구소는 데이터베이스 구축을 위해 개인 문집류 1,259종과 조선왕조실록, 일성록(日省錄) 등에 표기된 1만593종의 글자를 확인했고 이를 통해 3억 80만여 자의 한자 자형 이미지 추출에 성공했다.
이 프로그램은 금속활자본, 목활자본, 목판본, 납으로 만든 연활자본 등 다양한 판종을 기준으로 개발됐다.
다만, 정제된 필사본에 대해서는 뛰어난 해석 성능을 보였지만 초서나 행서 등 흘림서체에 대해서는 일치율을 높여야 하는 과제도 남아 있다.
이 프로젝트는 단국대 한문교육연구소의 ‘한국 역대 한자 자형 자전(字典) 데이터베이스 구축 및 활용’ 과제로 수행됐고 2019년부터 2022년까지 3년간 한국학중앙연구원의 지원금 10억 5000만 원이 투입됐다.
또 프로젝트 추진을 위해 자율형블록체인융합연구소가 한자 자형 분할·추론 모델을 개발했고 부설 동양학연구원이 세계 최대 규모 사전인 한한대사전(漢韓大辭典)의 자형 정보를 제공했다.
김우정 소장은 “우리 민족의 지식 자산을 우리 기술로 처리하고 관리하는 시스템을 구축했다는 점에서 의미가 크다”며 “관련 앱을 만들어 국학을 연구하는 학생과 교수, 관련 연구자에게 제공할 계획”이라고 밝혔다. 단국대는 조만간 한국학중앙연구원의 허가를 받아 포털에도 서비스를 제공한다는 계획이다
☞공감언론 뉴시스 gs5654@newsis.com
Copyright © 뉴시스. 무단전재 및 재배포 금지.
- '월매출 4억' 정준하, 자영업자 고충 토로…"너무 화나 경찰 신고"
- 태권도 졌다고 8살 딸 뺨 때린 아버지…심판이 제지(영상)
- 김숙 "한가인에게 너무 미안해서 연락도 못 해"…무슨 일?
- 허윤정 "전 남편, 수백억 날려 이혼…도박때문에 억대 빚 생겼다"
- 채림, 전 남편 허위글에 분노 "이제 못 참겠는데?"
- '8번 이혼' 유퉁 "13세 딸 살해·성폭행 협박에 혀 굳어"
- "김병만 전처, 사망보험 20개 들어…수익자도 본인과 입양딸" 뒤늦게 확인
- '마약 투약 의혹' 김나정 누구? 아나운서 출신 미스맥심 우승자
- 박원숙 "사망한 아들에 해준 거 없어…손녀에 원풀이"
- "아내 숨졌다" 통곡한 신입에 모두 아파했는데 기막힌 반전