누리IDT, AI 기반 고문헌 한문의 ‘자동 표점 서비스’ 출시

안충기 2024. 5. 2. 08:00
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

고문헌 〈자동 표점 서비스〉의 원문 텍스트 입력과 자동 표점 텍스트 출력 예시

지능형 데이터 전문 기업 (주)누리아이디티(대표 배성진)는 5월 2일 인공지능(AI) 기반의 고문헌 한문의 〈자동 표점 서비스〉를 국내 기업 최초로 개발해 공개했다.

표점이란 원문 전체가 하나의 문장처럼 붙어서 작성된 고전 한문 텍스트에 대해 의미 단위로 띄어쓰기하고 온점(。마침표)과 반점(, 쉼표) 등 구두점을 찍어 문장을 구분하는 것을 말한다. 이러한 표점 작업은 한문 원문을 정확하게 해석하거나 현대어로 번역하자면 반드시 선행되어야 하는 과정으로, 지금까지는 전문 연구자들이 원문 텍스트 한 줄 한 줄에 대해 꼼꼼히 읽고 의미 단위마다 일일이 구두점을 찍는 고된 작업을 해 왔다.

누리IDT의 고성능 〈자동 표점 서비스〉는 이러한 표점 작업을 AI가 빠르고 정확하게 자동 처리해 준다. 누리IDT는 이를 위해 트랜스포머 계열의 최신 자연어처리(NLP) 모델로 1억 자 이상의 한문 데이터를 학습시킨 자동 표점 AI 모델을 개발하고 누구나 사용할 수 있는 서비스로 공개했다. 1,000자 분량의 한문 원문 텍스트를 입력하면 1초 이내에 표점 처리해 주며, 표점의 정확도는 90% 이상으로 관련 전공 석사 수준을 능가한다. 이 서비스를 이용하면 전문가가 한 달 넘게 전념해야 할 표점 작업을 단 하루 만에 마칠 수가 있다.

누리IDT는 이와 함께 AI 모델이 초서체 한자와 옛 한글, 국한문 혼용문을 자동 인식하는 〈고문헌 OCR 서비스〉 3종도 새로 개발해 출시했다. 누리IDT는 지난해 5월 AI 모델이 고문헌의 해서체와 행서체 한자를 평균 98%의 정확도로 자동 인식하여 디지털 텍스트로 변환해 주는 고성능 〈한자 OCR 서비스〉를 개발하여 각계의 호평을 받은 바 있다.

그리고 흘려쓴 손글씨인 초서체 한자를 AI가 인식하여 정자(正字)로 자동 변환해 주는 〈초서 OCR〉, 한글 고문헌을 읽어주는 〈옛 한글 OCR〉, 한자와 한글이 혼용된 고문헌 문서를 읽어주는 〈국한문 혼용 OCR〉 등 3종의 AI 기반 OCR 모델을 새로 개발하여 기존 해서/행서체 고문헌 한자 OCR 서비스에 추가해 출시한 것이다.

손글씨로 흘려쓴 초서 필사본은 〈승정원일기〉와 같은 국가 공식 기록물을 비롯해 각종 공문서, 개인 문집, 일기류, 서한 등 전통 고문헌의 상당 부분을 차지하고 있다. 하지만 소수의 초서 전문가들이 일일이 탈초(정자로 옮겨쓰기)해 주기 전에는 고문헌 연구자들도 판독하기 어려워하는 대상이었다. 그러한 초서 원문을 본 〈초서 OCR〉 서비스를 이용하여 연구자들을 포함해 누구나 쉽고 간편하게 읽고 콘텐츠 데이터로 활용할 수 있게 된 것이다.

누리IDT의 〈고문헌한자시스템〉은 고문헌 자료의 자동 인식 → 자동 표점 → 자동 번역이란 자동 처리 솔루션을 목표로 하는 서비스이다. 〈고문헌 OCR〉 3종과 〈자동 표점 서비스〉를 신규 출시하면서 누리IDT의 배성진 대표는 “작년에 〈고문헌 한자 OCR〉을 출시한 이후 지속적인 기술 투자로 고문헌 토털 솔루션의 두 번째 단계에 도달하게 되었다. 앞으로 출시 서비스의 성능 향상에 노력하는 한편, 고문헌 자료의 자동 번역 모델 개발에 착수하여 누구나 손쉽게 고문헌 콘텐츠에 접근할 수 있도록 하겠다.”고 의지를 밝혔다.

본 서비스는 누구나 〈누리IDT고문헌한자시스템〉 웹페이지에서 간단한 회원 가입을 거쳐 사용해 볼 수 있다.

안충기 기자 newnew9@joongang.co.kr

Copyright © 중앙일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?