복잡한 문서도 완벽 분석… '도큐먼트 파스' 공개

조윤주 2024. 10. 17. 18:21
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 스타트업 업스테이지는 차세대 광학문자인식(OCR) 모델 '도큐먼트 파스'를 공개했다고 17일 밝혔다.

도큐먼트 파스는 여러 열의 레이아웃이나 테이블 등을 포함한 복잡한 형태의 문서까지 각 구조와 텍스트 정보를 정확히 분석해 인식할 수 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 스타트업 업스테이지 출시
빅테크5개사 서비스보다 우월

인공지능(AI) 스타트업 업스테이지는 차세대 광학문자인식(OCR) 모델 '도큐먼트 파스'를 공개했다고 17일 밝혔다.

도큐먼트 파스는 여러 열의 레이아웃이나 테이블 등을 포함한 복잡한 형태의 문서까지 각 구조와 텍스트 정보를 정확히 분석해 인식할 수 있다. 어떤 형식의 문서도 HTML과 같은 구조화된 텍스트 형식으로 전환해 기업이나 기관에서 실제 거대언어모델(LLM) 활용 시 바로 적용할 수 있다. 문서 구조 분석 벤치마크 프로그램인 DP-벤치에 따르면 도큐먼트 파스는 레이아웃 및 테이블 구조, 콘텐츠 분석 등 정확성을 측정하는 모든 지표에서 아마존웹서비스(AWS)와 마이크로소프트(MS)를 포함한 빅테크 5개사의 관련 서비스와 비교해, 5% 이상 높은 점수를 받았다. 속도면에서도 1분에 100장을 처리해 같은 기준을 적용한 AWS 텍스트랙트와는 10배, 메타의 라마파스 보다는 5배 가량 빨랐다. 도큐먼트 파스는 DOCX, PDF, PPTX, PNG 등 업무에 사용하는 9종의 문서 처리뿐만 아니라 수식 인식 및 이미지 추출과 같은 새로운 기능을 추가했다. 업스테이지 김성훈 대표는 "도큐먼트 파스는 각 기업이 가진 기존 문서를 가장 정확하게 자산화시켜 LLM을 실제 업무에 즉각 효율적으로 적용할 수 있도록 만드는 최적의 도구"라며 "다양한 분야에서 업무 혁신을 도울 것"이라고 말했다.

yjjoe@fnnews.com 조윤주 기자

Copyright © 파이낸셜뉴스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?