PDF에서 표·글·이미지까지 쉽게 뽑는다…한컴 로더, 깃허브 트렌딩 상위권

문서 구조 분석해
Markdown·JSON·HTML로 변환
누적 스타 8300개 돌파
개발자 커뮤니티서 관심 확대

[이데일리 김현아 기자] 한글과컴퓨터(030520)의 오픈소스 PDF 추출 도구 ‘오픈데이터로더 PDF’가 글로벌 개발자 커뮤니티에서 주목받고 있다. 복잡한 PDF 문서에서 글, 표, 이미지, 제목 구조를 분해해 인공지능(AI)이 활용하기 쉬운 데이터 형태로 바꿔주는 기능을 앞세워 깃허브에서 빠르게 관심을 끌고 있다. 저장소 기준 누적 스타(즐거찾기)는 8.3k, 포크(사용)는 561개 수준이다.

이 도구의 핵심은 단순한 텍스트 복사 수준을 넘어선다는 점이다. 오픈데이터로더 PDF는 PDF를 Markdown, JSON, HTML 형식으로 추출하고, 각 요소의 위치 정보까지 함께 제공한다.

설명서 첫장(README)에는 AI 활용이 가능한 형태로 PDF를 추출·변환하는 도구(PDF Parser for AI-ready data)라고 소개돼 있으며, 문서의 읽기 순서와 표, 제목, 이미지 영역까지 구조적으로 분석하는 기능을 내세우고 있다.

쉽게 말해 사람이 PDF를 보며 “이 부분은 제목, 이 부분은 표, 이 이미지는 오른쪽 아래”라고 구분하는 작업을 소프트웨어가 대신 수행하는 셈이다. 이 때문에 보고서, 계약서, 논문, 매뉴얼 같은 PDF를 검색 시스템이나 생성형 검색증강생성(AI, RAG)용 데이터로 전처리할 때 활용도가 높다는 평가가 나온다. 공식 설명에도 구조화된 Markdown 출력, 좌표가 포함된 JSON, LangChain 연동 지원이 명시돼 있다.

기능도 일반적인 PDF 추출기를 넘어선다. 저장소 설명에 따르면 올바른 읽기 순서 추출, 표 추출, 제목 계층 인식, 리스트 인식, 이미지 좌표 추출을 지원한다. 하이브리드 모드에서는 OCR, 복잡한 표 추출, 수식 추출, 차트·이미지 설명 생성도 가능하다. 또 외부 서버 전송 없이 로컬 환경에서 구동되는 방식도 제공한다.

깃허브 반응도 빠르다. 저장소 페이지에는 이 프로젝트가 Apache 2.0 라이선스를 적용했고, Python·Node.js·Java 환경에서 사용할 수 있다고 안내돼 있다. 깃허브 Java 트렌딩 페이지에서도 해당 저장소가 상위권에 올라 있다. 현재 시점에서 공식 화면으로 확인되는 사실은 Java 트렌딩 노출과 저장소의 누적 스타·포크 수다.

업계에서는 이런 도구가 PDF를 단순 보관 문서가 아니라 ‘탐색 가능한 데이터’로 바꾸는 역할을 할 수 있다는 점에 주목하고 있다. 특히 기업들이 사내 문서, 기술 문서, 연구 자료를 AI에 연결하려는 수요가 커지는 상황에서, 문서 구조를 최대한 유지한 채 데이터를 추출하는 기술의 중요성도 함께 커지고 있다. 오픈데이터로더 PDF가 개발자 커뮤니티에서 관심을 얻는 배경도 여기에 있다는 해석이다.

김연수 한컴 대표는 “문서 데이터 추출 기술의 완성도와 실용성이 글로벌 개발자 커뮤니티에서 검증받았다”며 “전 세계 기업과 개발자가 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다”고 밝혔다.

김현아 (chaos@edaily.co.kr)

IT/과학

PDF에서 표·글·이미지까지 쉽게 뽑는다…한컴 로더, 깃허브 트렌딩 상위권