PDF에서 표·글·이미지까지 쉽게 뽑는다…한컴 로더, 깃허브 트렌딩 상위권
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
한글과컴퓨터(030520)의 오픈소스 PDF 추출 도구 '오픈데이터로더 PDF'가 글로벌 개발자 커뮤니티에서 주목받고 있다.
복잡한 PDF 문서에서 글, 표, 이미지, 제목 구조를 분해해 인공지능(AI)이 활용하기 쉬운 데이터 형태로 바꿔주는 기능을 앞세워 깃허브에서 빠르게 관심을 끌고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
Markdown·JSON·HTML로 변환
누적 스타 8300개 돌파
개발자 커뮤니티서 관심 확대
[이데일리 김현아 기자] 한글과컴퓨터(030520)의 오픈소스 PDF 추출 도구 ‘오픈데이터로더 PDF’가 글로벌 개발자 커뮤니티에서 주목받고 있다. 복잡한 PDF 문서에서 글, 표, 이미지, 제목 구조를 분해해 인공지능(AI)이 활용하기 쉬운 데이터 형태로 바꿔주는 기능을 앞세워 깃허브에서 빠르게 관심을 끌고 있다. 저장소 기준 누적 스타(즐거찾기)는 8.3k, 포크(사용)는 561개 수준이다.
이 도구의 핵심은 단순한 텍스트 복사 수준을 넘어선다는 점이다. 오픈데이터로더 PDF는 PDF를 Markdown, JSON, HTML 형식으로 추출하고, 각 요소의 위치 정보까지 함께 제공한다.

쉽게 말해 사람이 PDF를 보며 “이 부분은 제목, 이 부분은 표, 이 이미지는 오른쪽 아래”라고 구분하는 작업을 소프트웨어가 대신 수행하는 셈이다. 이 때문에 보고서, 계약서, 논문, 매뉴얼 같은 PDF를 검색 시스템이나 생성형 검색증강생성(AI, RAG)용 데이터로 전처리할 때 활용도가 높다는 평가가 나온다. 공식 설명에도 구조화된 Markdown 출력, 좌표가 포함된 JSON, LangChain 연동 지원이 명시돼 있다.
기능도 일반적인 PDF 추출기를 넘어선다. 저장소 설명에 따르면 올바른 읽기 순서 추출, 표 추출, 제목 계층 인식, 리스트 인식, 이미지 좌표 추출을 지원한다. 하이브리드 모드에서는 OCR, 복잡한 표 추출, 수식 추출, 차트·이미지 설명 생성도 가능하다. 또 외부 서버 전송 없이 로컬 환경에서 구동되는 방식도 제공한다.
깃허브 반응도 빠르다. 저장소 페이지에는 이 프로젝트가 Apache 2.0 라이선스를 적용했고, Python·Node.js·Java 환경에서 사용할 수 있다고 안내돼 있다. 깃허브 Java 트렌딩 페이지에서도 해당 저장소가 상위권에 올라 있다. 현재 시점에서 공식 화면으로 확인되는 사실은 Java 트렌딩 노출과 저장소의 누적 스타·포크 수다.
업계에서는 이런 도구가 PDF를 단순 보관 문서가 아니라 ‘탐색 가능한 데이터’로 바꾸는 역할을 할 수 있다는 점에 주목하고 있다. 특히 기업들이 사내 문서, 기술 문서, 연구 자료를 AI에 연결하려는 수요가 커지는 상황에서, 문서 구조를 최대한 유지한 채 데이터를 추출하는 기술의 중요성도 함께 커지고 있다. 오픈데이터로더 PDF가 개발자 커뮤니티에서 관심을 얻는 배경도 여기에 있다는 해석이다.
김연수 한컴 대표는 “문서 데이터 추출 기술의 완성도와 실용성이 글로벌 개발자 커뮤니티에서 검증받았다”며 “전 세계 기업과 개발자가 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다”고 밝혔다.
김현아 (chaos@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
- 美재무장관 “中에 팔던 이란 원유, 韓 등 동맹으로 전환…제재 유예 정당”
- "삼성 어쩌나" 머스크, 반도체 직접 만들겠다…'테라팹' 건설 선언
- `트럼프 48시간 통첩`에 비트코인 또 하락…"5만달러 볼 수도"
- '모텔 살인' 김소영, 구치소서 "무기징역 무서워..엄마 밥 먹고 싶다"
- 딸 친구 26번 성폭행…“죽어도 무죄”라더니 결국 [그해 오늘]
- 美, 우라늄 농축 제로·핵시설 해체 등 이란에 6대 요구 준비
- 50억 '하정우 집' 산 민호…'한강뷰' 고급빌라 어디? [누구집]
- 바이든 조롱 '오토펜' 사진에 폭소한 다카이치…日 일각서 "외교 결례" 비판
- ‘쿠팡식 비협조’에 칼 빼든 공정위…지능형 조사방해 기준 손본다[only 이데일리]
- 5배 오른다더니…개미 주머니 턴 리딩방 전문가의 실체