사람처럼, 문서 이해하고 답 찾아주는 AI
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
국내 연구진이 사람처럼 문서를 이해하고, 원하는 정보를 찾아주는 AI(인공지능) 기술을 선보였다.
한국전자통신연구원(ETRI)은 전자문서에서 사용자가 원하는 정보를 검색하고, 질문에 정답과 근거까지 제공하는 AI 기반의 'API(애플리케이션 프로그래밍 인터페이스) 2종'을 개발했다고 7일 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
국내 연구진이 사람처럼 문서를 이해하고, 원하는 정보를 찾아주는 AI(인공지능) 기술을 선보였다.
한국전자통신연구원(ETRI)은 전자문서에서 사용자가 원하는 정보를 검색하고, 질문에 정답과 근거까지 제공하는 AI 기반의 'API(애플리케이션 프로그래밍 인터페이스) 2종'을 개발했다고 7일 밝혔다.
일반적으로 다양한 업무 관련 정보와 지식을 담은 전자문서를 찾으려면 게시물 제목과 파일 이름에 포함된 단어를 검색하고, 일일이 문서를 열어 확인해야 번거로움이 있다. 이번에 개발된 API 2종은 '행정문서 질의응답 API 기술'과 '패러프레이즈 인식 API 기술' 등이다.
행정문서 질의응답 API 기술은 딥러닝 언어모델을 이용해 단락과 표를 인식해 정답과 근거 문장을 찾아준다.
예를 들어, '출장 경비가 100만원 이하일 때, 결재를 어느 선까지 받아야 할까?'라는 질문을 입력하면, '100만원 이하인 경우, 실장 전결'과 같은 사내 규정 정보를 담은 문서와 그 근거까지 찾아준다. 이 기술의 정확도는 단락과 표을 대상으로 할 때 각각 89.65%, 81.5%로 높게 나왔다.
패러프레이즈 인식 API 기술은 사람처럼 문서를 보고 서로 다른 형태의 문장이 같은 뜻인지를 파악한다. 연구팀은 다양한 유형의 문장을 학습시켜 문장이 조금만 달라져도 의미 관계를 올바르게 인식하지 못하는 기존 AI과 딥러닝 기술의 견고성 문제를 해결한 것이다.
가령, '그는 빨간 자전거를 샀다'와 '그가 산 자전거는 빨간색이다'라는 두 문장은 사람과 기계가 쉽게 구분하지만, '그는 빨간 자전거를 안 샀다'라는 문장과는 구분을 하지 못한다.
연구팀은 이 같은 딥러닝 기술의 견고성 한계를 개선해 다양한 유형의 문장에서 의미 관계를 인식하도록 기술을 개발해 96.63%의 정확도를 달성했다. 이는 기존 오픈소스 딥러닝 기술보다 성능을 크게 개선한 것이다.
이 기술은 한글 문서뿐 아니라, 워드, PDF 등 다른 문서에도 범용적으로 적용할 수 있다고 연구팀은 설명했다. 해당 기술은 ETRI 공공 인공지능 오픈 API·데이터 서비스 포털에서 공개돼 누구나 쉽게 이용할 수 있다.
임준호 ETRI 언어지능연구실 박사는 "견고성이 높은 데이터를 구축하고, 알고리즘 성능을 높여 문서 서식이 다양하고 정형화되지 않은 것도 인식하도록 개선했다"며 "앞으로 언어 이해와 생성을 동시에 학습한 딥러닝 언어모델을 개발하는 등 AI 기술 고도화와 플랫폼 개발에 나서겠다"고 말했다.
이준기기자 bongchu@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- 아동 성 착취물 제작·유포 최찬욱 "피해자들이 더 강한 행위 요구했다"
- 의료사고로 39년간 혼수상태…끝내 깨어나지 못한 전 프랑스 축구 국가대표
- 죽음의 놀이기구…34m 지하로 수직추락 미국 6살 아이 참변
- 50명 의료진 달라붙은 감동의 대수술…머리 붙은 샴쌍둥이 분리 기적
- 전자발찌 훼손 성범죄자 마창진 16일만에 붙잡혔다
- 상속세 개편 또 미루나… 거야 `부자 감세` 반발에 속도 조절
- 현대차·기아 `비상`… 테슬라에 첫 역전
- 순익 50% 환원… 메리츠의 파격 밸류업
- `밸류업 세제지원` 덕 본 금융株… KB·신한지주 신고가
- 다가오는 입주 반감기… 집값 급등 `비상`