사람처럼, 문서 이해하고 답 찾아주는 AI

이준기 2021. 9. 7. 19:44
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

국내 연구진이 사람처럼 문서를 이해하고, 원하는 정보를 찾아주는 AI(인공지능) 기술을 선보였다.

한국전자통신연구원(ETRI)은 전자문서에서 사용자가 원하는 정보를 검색하고, 질문에 정답과 근거까지 제공하는 AI 기반의 'API(애플리케이션 프로그래밍 인터페이스) 2종'을 개발했다고 7일 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

ETRI 연구진이 오피스 문서에 사용자의 질문에 정답을 알려주고, 서로 다른 형태의 문장이 같은 의미인지를 이해하는 AI 기술에 대해 설명하고 있다. ETRI 제공

국내 연구진이 사람처럼 문서를 이해하고, 원하는 정보를 찾아주는 AI(인공지능) 기술을 선보였다.

한국전자통신연구원(ETRI)은 전자문서에서 사용자가 원하는 정보를 검색하고, 질문에 정답과 근거까지 제공하는 AI 기반의 'API(애플리케이션 프로그래밍 인터페이스) 2종'을 개발했다고 7일 밝혔다.

일반적으로 다양한 업무 관련 정보와 지식을 담은 전자문서를 찾으려면 게시물 제목과 파일 이름에 포함된 단어를 검색하고, 일일이 문서를 열어 확인해야 번거로움이 있다. 이번에 개발된 API 2종은 '행정문서 질의응답 API 기술'과 '패러프레이즈 인식 API 기술' 등이다.

행정문서 질의응답 API 기술은 딥러닝 언어모델을 이용해 단락과 표를 인식해 정답과 근거 문장을 찾아준다.

예를 들어, '출장 경비가 100만원 이하일 때, 결재를 어느 선까지 받아야 할까?'라는 질문을 입력하면, '100만원 이하인 경우, 실장 전결'과 같은 사내 규정 정보를 담은 문서와 그 근거까지 찾아준다. 이 기술의 정확도는 단락과 표을 대상으로 할 때 각각 89.65%, 81.5%로 높게 나왔다.

패러프레이즈 인식 API 기술은 사람처럼 문서를 보고 서로 다른 형태의 문장이 같은 뜻인지를 파악한다. 연구팀은 다양한 유형의 문장을 학습시켜 문장이 조금만 달라져도 의미 관계를 올바르게 인식하지 못하는 기존 AI과 딥러닝 기술의 견고성 문제를 해결한 것이다.

가령, '그는 빨간 자전거를 샀다'와 '그가 산 자전거는 빨간색이다'라는 두 문장은 사람과 기계가 쉽게 구분하지만, '그는 빨간 자전거를 안 샀다'라는 문장과는 구분을 하지 못한다.

연구팀은 이 같은 딥러닝 기술의 견고성 한계를 개선해 다양한 유형의 문장에서 의미 관계를 인식하도록 기술을 개발해 96.63%의 정확도를 달성했다. 이는 기존 오픈소스 딥러닝 기술보다 성능을 크게 개선한 것이다.

이 기술은 한글 문서뿐 아니라, 워드, PDF 등 다른 문서에도 범용적으로 적용할 수 있다고 연구팀은 설명했다. 해당 기술은 ETRI 공공 인공지능 오픈 API·데이터 서비스 포털에서 공개돼 누구나 쉽게 이용할 수 있다.

임준호 ETRI 언어지능연구실 박사는 "견고성이 높은 데이터를 구축하고, 알고리즘 성능을 높여 문서 서식이 다양하고 정형화되지 않은 것도 인식하도록 개선했다"며 "앞으로 언어 이해와 생성을 동시에 학습한 딥러닝 언어모델을 개발하는 등 AI 기술 고도화와 플랫폼 개발에 나서겠다"고 말했다.

이준기기자 bongchu@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?