AI 활용 한자 자동인식 프로그램 개발…국학자료 번역 '청신호'

김진호 기자 2022. 12. 26. 10:57
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 기술을 활용한 문자인식 프로그램 보급으로 국학자료의 디지털화 속도를 30배 이상 앞당길 수 있게 됐다.

한국국학진흥원은 국학자료 속 한문을 디지털 텍스트화하는 문자인식(OCR) 프로그램인 '고도서 한자 인식'을 오는 28일 홈페이지를 통해 공개한다고 26일 밝혔다.

이번에 공개한 고도서 한자 인식 프로그램은 국학자료 속 한자를 디지털 텍스트로 변환하는 기술로 한문 인식률의 정확성은 90% 이상이다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

기사내용 요약
한국국학진흥원,…국학자료 디지털화 작업 '속도'

고도서 이미지 검색 웹서비스 화면 (사진=한국국학진흥원 제공) *재판매 및 DB 금지

[안동=뉴시스] 김진호 기자 = 인공지능(AI) 기술을 활용한 문자인식 프로그램 보급으로 국학자료의 디지털화 속도를 30배 이상 앞당길 수 있게 됐다.

한국국학진흥원은 국학자료 속 한문을 디지털 텍스트화하는 문자인식(OCR) 프로그램인 '고도서 한자 인식'을 오는 28일 홈페이지를 통해 공개한다고 26일 밝혔다.

이로써 막대한 분량의 국학자료 디지털화 작업에 속도가 붙을 전망이다.

한국국학진흥원은 4차 산업혁명 시대 국학자료 관리 방법의 획기적인 전환 필요성을 인식하고, 장기 프로젝트로 인공지능을 활용한 국학자료 자동번역 프로그램 개발에 착수했다.

이번에 공개한 고도서 한자 인식 프로그램은 국학자료 속 한자를 디지털 텍스트로 변환하는 기술로 한문 인식률의 정확성은 90% 이상이다.

국학자료는 한문으로 적혀 있어 일반인은 접근하기 어려운 높은 벽이 존재한다.

국학자료의 활용을 위해서는 디지털 텍스트화와 한글 번역은 필수적이라 할 수 있지만 막대한 예산과 긴 시간이 필요하다.

현재 방대한 분량의 국학자료를 디지털화 및 번역 작업은 '스캐닝·촬영→텍스트 입력→전문 번역'이라는 20년 전부터 이뤄진 방식 그대로 진행되고 있는 실정이다.

그 결과 이미지 디지털화는 50% 미만, 텍스트 디지털화는 5%도 채 진행되지 못했다.

전문기관 연구에 의하면 지금과 같은 방식일 경우 국학자료에 대한 이미지 디지털화 완료에는 20년 이상, 텍스트 디지털화 완료에는 380년 이상이 소요될 것으로 추정된다.

하지만 인공지능 기술을 활용한 문자인식 프로그램을 개발·활용한다면 인력 대비 30배 이상 빠른 속도로 디지털화 작업이 가능하다.

한국국학진흥원은 60만 점에 달하는 우리나라에서 가장 많은 국학자료를 소장하고 있는 기관이다.

소장 중인 국학자료를 기반으로 고도서 원문자료의 자동인식부터 표점, 한글 번역까지 일련의 과정을 인공지능을 통해 자동화할 계획이다.

향후 지속적인 데이터 축적을 통해 한자의 해서체뿐만 아니라 초서체에 대한 인식률도 높여 나갈 예정이다.

정종섭 한국국학진흥원장은 "인공지능을 활용해 국학자료를 자동 번역하는 사업은 일반인들이 국학자료를 쉽고 가깝게 접할 수 있는 중요한 작업"이라며 "나아가 우리의 전통 기록유산과 첨단기술을 접목한 새로운 일자리 창출뿐만 아니라 기록유산에 담긴 소중한 가치를 발굴하는 데 기여할 것"이라고 말했다.

☞공감언론 뉴시스 kjh9326@newsis.com

Copyright © 뉴시스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?