“문서 데이터를 무기로”…한컴, AI로 글로벌 시장 장악 나선다

미디어펜 2026. 3. 30. 14:49
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

PDF→AI 데이터 전환 기술 오픈소스 공개…글로벌 개발자 커뮤니티서 확산
기술 개방으로 생태계 선점…AI 솔루션·서비스로 이어지는 확장 전략 가속
[미디어펜=배소현 기자] 한글과컴퓨터가 문서 데이터 처리 기술을 앞세워 글로벌 시장 공략에 나섰다. PDF 등 비정형 문서를 AI(인공지능)가 활용 가능한 데이터로 변환하는 기술을 오픈소스로 공개하며 해외 개발자 생태계 확장에 속도를 내는 모습이다. 단순 SW(소프트웨어) 공급을 넘어 기술 확산을 기반으로 AI 사업으로 연결하는 전략이 본격화되고 있다는 분석이다.
한글과컴퓨터가 PDF 등 비정형 문서를 AI가 활용 가능한 데이터로 변환하는 기술을 오픈소스로 공개하며 해외 개발자 생태계 확장에 속도를 내고 있다. 사진은 한글과컴퓨터 본사 전경./사진=한글과컴퓨터 제공

30일 업계에 따르면 한글과컴퓨터는 최근 PDF 문서를 AI 학습에 활용 가능한 형태로 변환하는 기술을 오픈소스로 공개하고 글로벌 개발자 커뮤니티를 중심으로 확산을 유도하고 있다. 해당 기술은 비정형 문서를 구조화해 텍스트·표·이미지 데이터를 분리하고, 이를 AI 모델이 활용할 수 있는 형태로 가공하는 것이 핵심이다.

업계에서는 그동안 기업 내 문서 데이터가 AI 활용의 핵심 자산으로 꼽히면서도, 정제되지 않은 형태로 인해 실제 활용에는 제약이 있었다는 점에서 이번 기술 공개에 주목하고 있다. 특히 기술을 폐쇄적으로 운영하기보다 오픈소스로 공개해 개발자 생태계를 먼저 확보한 뒤 사업으로 확장하는 전략이 뚜렷해지고 있다는 평가다.

◆ "비정형 문서 풀어낸다"…AI 시대 '데이터 전처리' 핵심 기술

AI 산업에서 데이터 확보 경쟁이 치열해지는 가운데 문서 데이터 처리 기술은 그간 상대적으로 주목받지 못했던 영역으로 꼽혀왔다. 그러나 실제 기업 환경에서는 업무 데이터의 상당 부분이 PDF, 워드, 이미지 등 비정형 문서 형태로 존재해 이를 활용 가능한 데이터로 전환하는 과정이 필수적이다.

한컴이 공개한 기술은 이러한 비정형 문서를 구조화해 AI 학습과 추론에 활용할 수 있도록 돕는 데 초점이 맞춰져 있다. 단순 텍스트 추출을 넘어 문서 내 표 구조, 문맥, 레이아웃 등을 함께 인식하는 방식으로 데이터 활용도를 높인 것이 특징이다.

이는 생성형 AI 확산 흐름과도 맞닿아 있다. 기업들이 자체 데이터를 기반으로 AI를 구축하려는 수요가 늘면서 데이터 전처리 기술이 실제 도입 과정에서 핵심 변수로 떠오르고 있어서다. 

결과적으로 문서 데이터 처리 기술은 단순 기능을 넘어 AI 서비스 품질을 좌우하는 기반 기술로 자리잡고 있으며 관련 기술을 확보한 기업의 경쟁력이 부각되는 흐름이다.

◆ 오픈소스로 먼저 뿌린다…'개발자 생태계 → 사업화' 전략

한컴은 핵심 문서 데이터 처리 기술을 오픈소스로 공개하며 기술 개방을 통한 생태계 확장 전략을 본격화하고 있다. 기존 패키지 SW 기업들이 제품 판매에 집중해온 것과 달리 기술을 먼저 개방해 글로벌 개발자 커뮤니티 내 확산을 유도하는 방식이다.

이 같은 접근은 글로벌 IT 기업들이 채택해온 생태계 전략과 유사하다. 기술을 개방해 개발자들이 자유롭게 활용하도록 한 뒤, 이를 기반으로 사용자 기반과 활용 사례를 축적하고 이후 상용 서비스로 연결하는 구조다.

실제 확산 속도도 빠른 편이다. 한글과컴퓨터는 자사의 PDF 데이터 추출 오픈소스 '오픈데이터로더 PDF v2.0'이 최근 글로벌 개발 플랫폼인 깃허브에서 트렌딩 1위를 기록했다고 밝혔다. 깃허브 트렌딩은 전 세계 개발자들이 주목하는 오픈소스를 보여주는 지표로 기술 관심도를 가늠할 수 있는 기준으로 활용된다.

특히 해당 기술은 해외 개발자 커뮤니티를 중심으로 빠르게 공유되며 활용 사례가 늘어나고 있는 것으로 전해진다. 단기간 내 글로벌 접점을 확보하기 어려운 국내 SW 기업 입장에서 의미 있는 진전이라는 평가다.

기술 중심의 확산 전략을 통해 브랜드 인지도와 신뢰도를 동시에 확보하고 이를 사업 기회로 연결하는 구조가 점차 가시화되고 있다는 분석이다.

◆ '문서 SW 기업' 넘어 'AI 플랫폼'으로… 글로벌 확장 가속

한컴은 이번 기술 공개를 계기로 문서 소프트웨어 기업에서 AI 기반 플랫폼 기업으로의 전환을 본격화하고 있다. 문서 데이터를 처리하는 기술을 중심으로 AI 솔루션과 서비스 사업을 확장하는 구조를 구축하고 있는 것이다.

특히 기업용 AI 시장에서는 내부 문서 데이터를 활용한 맞춤형 서비스 수요가 빠르게 증가하고 있다. 한컴은 기존 문서 SW 시장에서 축적한 기술력과 데이터를 기반으로 이러한 수요를 흡수하겠다는 전략이다.

향후에는 문서 데이터 처리 기술을 바탕으로 AI 에이전트, 업무 자동화 솔루션, 협업 도구 등으로 사업 영역을 넓힐 가능성도 제기된다. 기술을 중심으로 한 단계적 확장을 통해 글로벌 시장에서의 입지를 강화하겠다는 구상이다.

시장에서는 이를 두고 레거시 SW 기업이 AI 시대에 맞춰 체질 전환을 시도하는 대표적인 사례로 보고 있다. 기술 경쟁력을 기반으로 글로벌 시장에서 얼마나 빠르게 성과를 만들어낼지가 향후 관건이 될 전망이다.

한 업계 관계자는 "AI 경쟁은 결국 데이터를 얼마나 잘 활용하느냐에 달려 있는 것 아니겠냐"며 "문서 데이터를 구조화하는 기술을 확보한 기업은 글로벌 시장에서도 충분히 기회를 만들 수 있다"고 말했다.