"PDF 정보, AI가 학습하기 쉽게 정리"…한컴 데이터 로더 출시

윤주영 기자 2024. 4. 18. 09:36
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

한글과컴퓨터(030520)는 PDF 문서에서 텍스트를 추출해 인공지능(AI)이 학습하기 쉬운 형식으로 바꿔주는 '한컴 데이터 로더'를 출시했다고 18일 밝혔다.

RAG는 AI가 특정 데이터베이스에서 정보를 검색해 LLM 답변에 반영하는 것이다.

PDF뿐만 아니라 오피스 문서에서도 텍스트 외 다양한 객체를 학습용 데이터로 추출한다.

한컴 데이터 로더는 국내 대기업을 대상으로 테스트를 완료했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(한글과컴퓨터 제공)

(서울=뉴스1) 윤주영 기자 = 한글과컴퓨터(030520)는 PDF 문서에서 텍스트를 추출해 인공지능(AI)이 학습하기 쉬운 형식으로 바꿔주는 '한컴 데이터 로더'를 출시했다고 18일 밝혔다.

이는 대형언어모델(LLM) 답변 정확성을 높이는 '검색 증강 생성'(RAG) 작동에 기여한다. RAG는 AI가 특정 데이터베이스에서 정보를 검색해 LLM 답변에 반영하는 것이다. PDF 등 구조화되지 않은 문서 내 정보는 RAG를 통해 반영되기 어려웠다.

한컴은 추출 텍스트를 JSON·CSV·TXT·XML 등 여러 형식으로 변환해 준다. PDF뿐만 아니라 오피스 문서에서도 텍스트 외 다양한 객체를 학습용 데이터로 추출한다.

한컴 데이터 로더는 국내 대기업을 대상으로 테스트를 완료했다. 다음 달부터는 이 설루션을 포함한 한컴의 AI 기술을 해외 시장에 선보일 예정이다.

김연수 한컴 대표는 "한컴은 인수·투자·협력 등을 통해 AI 사업을 본격화하고 있다"고 말했다.

legomaster@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.

이 기사에 대해 어떻게 생각하시나요?