“문자 넘어 문맥까지 이해…제미나이보다 정확도 높아”

■김지현 한국딥러닝 대표
VLM 접목 OCR 기술 사업 내세워
표·도형 등 비문자 정보도 뽑아내
120억 투자 유치…매출 80억 목표

김지현 한국딥러닝 대표가 10일 서울 서초구 한국딥러닝 본사에서 서울경제신문과 인터뷰하고 있다. 김태호 기자

“‘사과’라는 글자를 스캔해 한글 단어를 인식하는 프로그램은 많습니다. 그런데 이 사과가 과일인지 사죄의 표현인지 의미까지 파악하는 프로그램은 찾기 어려워요. 단어 안에 함축된 정보를 추출하는 광학문자인식(OCR) 프로그램을 만드는 게 한국딥러닝의 차별화 지점입니다.”

10일 서울경제신문과 만난 김지현(사진) 한국딥러닝 대표는 한국딥러닝 사업의 특수성에 대해 이같이 밝혔다. 그는 “기존 OCR이 문자 획의 위치를 파악해 한 글자씩 디지털 문자로 변환하는 수준에 그쳤다”면서 “한국딥러닝의 OCR은 비전언어모델(VLM)을 활용해 문서 배치와 문맥을 함께 분석해 문서 내 정보를 해석한다”고 덧붙였다. OCR이란 인쇄된 문자나 손글씨 등을 디지털 문자로 변환하는 기술을 뜻한다.

김 대표가 2019년 설립한 한국딥러닝은 비정형 문서를 디지털 데이터로 바꾸는 OCR 전문 기업이다. 회사의 가장 큰 특징은 인공지능(AI)을 활용한 문서 독해다. 스캔만으로 문서 내 담긴 정보를 추출하는 점이 가장 큰 특징이다. AI가 문자가 아닌 문맥을 읽기에 인위적인 자간 띄우기와 행 나눔이 많은 문서에 내포된 정보도 인식할 수 있다. 문자뿐만 아니라 표와 도형 등 비문자 데이터에 담긴 정보도 추출한다.

이렇게 추출된 정보는 별도의 저장소에 옮겨져 관리된다. OCR 서비스 이용자는 챗GPT를 이용하듯 필요할 때마다 AI에 요구사항을 입력하고 필요한 정보를 찾아낼 수 있다. 한국딥러닝이 지난해 3월 출시한 새로운 서비스로 OCR과 AI 에이전트가 결합한 ‘딥 에이전트’다. 김 대표는 “금융, 물류, 공공행정 분야에서 딥 에이전트의 인기가 많다”고 전했다.

김 대표는 딥 에이전트의 인기 요인으로 문서 독해 성능을 꼽았다. 한국딥러닝 자체 시험 결과 딥 에이전트의 문서 구조를 재구성하는 정확도는 97.9%다. 이는 AI가 표, 그래프, 블록 등 문서 전반의 배치 구조를 인지하고 다시 복원하는 기능을 뜻한다. 같은 기준으로 구글의 AI 모델인 제미나이3의 정확도는 74.2%에 불과했다. 문서 내 개별 정보 항목과 각각의 정보값을 일치시키는 성능 부문에서도 제미나이3의 정확도가 79.4%인 반면 딥 에이전트는 99.2%를 자랑한다.

한국딥러닝은 이러한 기술력을 바탕으로 매해 성장을 거듭하고 있다. 한국딥러닝의 누적 고객사 수는 90여 개. 지난해엔 경기도청의 생성형 AI 플랫폼 구축 사업에 VLM 문서 구조 분석 솔루션을 공급했다. 지난달엔 120억 원 규모의 초기 투자 유치를 완료했다. 회사는 올해 매출을 지난해 대비 2배가량 늘려 80억 원을 달성하겠다는 목표를 내걸었다.

김 대표는 “한국딥러닝의 다음 목표는 해외 시장 공략”이라며 “단순 OCR 기업이 아닌 AI가 문서를 깊게 해독해 인류의 지식노동 체계를 효율적으로 개선하는 사업을 펼치고 싶다”고 강조했다.

김태호 기자 teo@sedaily.com

IT/과학

“문자 넘어 문맥까지 이해…제미나이보다 정확도 높아”