]이파피루스, 문서 속 표를 엑셀파일로 제공한 AI OCR '텍스트센스 2.0' 출시
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
전자문서 이파피루스(대표 김정희)는 문서 내 표 부분만 자동으로 인식해 텍스트 데이터로 추출하는 것은 물론 표 구조와 내용을 엑셀 파일로 그대로 다운로드 가능한 인공지능 광학문자인식(AI OCR) 솔루션 '텍스트센스 2.0'를 선보였다고 4일 밝혔다.
김정아 부사장은 "단순히 종이 문서 전체를 '잘 읽기만' 하면 됐던 1차원적인 OCR의 시대는 이미 지나갔다. 오늘날 비즈니스 현장에서 필요로 하는 것은 데이터 선별과 분류까지 도와주는 솔루션"이라면서 "텍스트센스 2.0은 정확한 텍스트 인식은 물론 표 인식과 키워드 검출 기능으로 그간 OCR 후 수정·데이터 분류 작업에 필요했던 많은 시간과 수고를 덜어줄 수 있는 획기적 제품"이라고 강조했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
전자문서 이파피루스(대표 김정희)는 문서 내 표 부분만 자동으로 인식해 텍스트 데이터로 추출하는 것은 물론 표 구조와 내용을 엑셀 파일로 그대로 다운로드 가능한 인공지능 광학문자인식(AI OCR) 솔루션 '텍스트센스 2.0'를 선보였다고 4일 밝혔다.
회사는 2020년 '텍스트센스 1.0'을 출시한 이후 '표 인식 기능'을 대폭 강화한 신버전 제품을 출시했다. 국내 OCR 솔루션 중 텍스트센스 2.0처럼 표 인식 기능과 표를 엑셀 파일 형식으로 다운로드하는 기능을 동시 지원하는 솔루션은 드물다.
김정아 이파피루스 부사장은 “텍스트센스 2.0은 표의 행과 열 순서 파악은 물론 병합된 셀 구조까지 분석해 원본 표 형태를 그대로 정확하게 읽어내기 때문에 후 작업을 대폭 줄여준다”고 강조했다.
기존 OCR는 표 안에 있는 구조에 대한 정보 없이 텍스트만 인식하는 것이 고작이었고, 표에 병합된 셀이 하나라도 들어 있으면 텍스트 순서가 흐트러져 사람이 일일이 뒷마무리를 하는 번거로운 과정이 있었다.
회사는 원하는 데이터만 빠르게 뽑아내는 '키워드 검출 기능'도 추가했다. 일반 줄글 문서 속에서 특정 키워드를 포함한 줄을 모두 찾거나 표 안에서 원하는 단어가 있는 행 또는 열만 찾아내 준다. 일례로 인적 사항을 수집한 표에서 '010-'으로 시작하는 전화번호가 있는 열만 찾아 데이터로 추출할 수 있다.
이외 문서 내에서 가로 세로 위치를 지정해 해당 위치에 있는 텍스트만 읽어내는 것도 가능하다. 사업자등록증, 통장사본 등 일정 양식을 지닌 문서에서 사업자등록번호, 예금주 등 특정 정보만 필요로 할 때 특히 유용한 기능으로 기존 방식보다 업무 처리 시간을 대폭 줄일 수 있다.
김정아 부사장은 “단순히 종이 문서 전체를 '잘 읽기만' 하면 됐던 1차원적인 OCR의 시대는 이미 지나갔다. 오늘날 비즈니스 현장에서 필요로 하는 것은 데이터 선별과 분류까지 도와주는 솔루션”이라면서 “텍스트센스 2.0은 정확한 텍스트 인식은 물론 표 인식과 키워드 검출 기능으로 그간 OCR 후 수정·데이터 분류 작업에 필요했던 많은 시간과 수고를 덜어줄 수 있는 획기적 제품”이라고 강조했다.
안수민기자 smahn@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- 레이부터 토레스까지… 전기차로 변신 중
- “네이버클라우드로 헤쳐모여”…'B2B' 사업에 힘 주는 네이버
- [2022 국정감사]과방위, 망이용대가 무임승차, 연구진 처우개선 등 이슈 전망
- 사라지는 '문자알림 300원'…카드사 플랫폼 알림 가속화
- 카카오톡 메시지 송수신 오류 발생…"모두 정상화"
- 1000만 가입자 앞둔 KT IPTV '지니 TV'로 리브랜딩
- [뉴스줌인]삼성 파운드리, '체격 확대' '체질 개선' 투트랙
- 삼성, "2027년 1.4나노 양산"…최첨단 공정 선점
- [뉴스줌인]네이버, 포시마크 업고 세계 MZ세대 공략
- 네이버, 美 1위 리커머스업체 '포시마크' 인수