추출 요약보다 높은 수준의 ‘추상 요약’ 방식으로 데이터 구축
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
AI 기술이 발전하며 문서 요약 서비스가 증가하고 있는 추세다.
추상 요약 사업은 AI와 사람이 추상 요약문을 각각 작성하고, 요약문에 포함된 오류를 AI가 학습할 수 있는 데이터로 구축했다.
또한 AI가 오류를 학습할 수 있도록 하나의 데이터 세트에 오류 요약문, 요약문 오류의 위치, 오류 유형 정보, 오류를 고친 정보가 들어 있고 json 파일 형태로 구축했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
추출 요약 방식은 본문에서 중요한 문장을 선택하여 그대로 요약문에 제시하는 방식이다. 일반적으로 포털에서 접할 수 있는 기사 요약 서비스에서 볼 수 있다 각 문장의 완성도가 높다는 장점이 있지만 문맥이 연결되지 않는 문장이 선택될 경우, 문장의 연결이 어색하거나 중요한 내용의 누락, 비슷한 내용이 중복으로 제시되는 등의 한계가 있다.
추상 요약은 추출 요약의 단점을 보완하여 나온 요약 방식으로, AI가 본문의 내용을 요약한 새로운 문장을 작성한다. 추출 요약보다 발전된 요약 방식으로, 내용을 보다 충실히 요약한다는 장점이 있다. 그러나 각 문장에 문법 오류가 있거나 어색한 문장이 작성될 수 있다는 한계점이 지적돼왔다.
추상 요약의 한계점을 보완하고 완성도를 높이기 위해 ㈜알토비전 컨소시엄은 한국지능정보사회진흥원(이하 NIA)의 ‘추상 요약 사실성 검증 데이터’(이하 추상 요약 사업) 10만 세트를 구축했다.
이 컨소시엄은 ㈜알토비전을 주관기관으로하고 ㈜나라지식정보와 비플라이소프트㈜가 참여하여 지난 7월부터 이 사업을 추진해 왔다. 컨소시엄에서는 비플라이소프트㈜에서 원시데이터 수집 및 정제와 원천데이터 생성을, ㈜알토비전이 데이터 가공을, ㈜나라지식정보에서 검수 및 품질 관리를 맡았다. 추상 요약 사업은 AI와 사람이 추상 요약문을 각각 작성하고, 요약문에 포함된 오류를 AI가 학습할 수 있는 데이터로 구축했다.
오류의 유형은 문장 생성 과정의 오류인 문장 오류와 내용 요약 과정의 오류인 내용 오류로 구분되고 세부적으로는 6가지 유형으로 분류되었다. 문장 오류는 △한글맞춤법, 띄어쓰기 오류 △단어 선택 오류 △비문 △미완성 또는 불완전한 문장 등으로 나뉘고 내용 오류는 △키워드 또는 중요 내용 오류 △유사한 내용 반복 오류 등으로 나뉜다.
또한 AI가 오류를 학습할 수 있도록 하나의 데이터 세트에 오류 요약문, 요약문 오류의 위치, 오류 유형 정보, 오류를 고친 정보가 들어 있고 json 파일 형태로 구축했다.
알토비전과 ㈜테디썸은 사람이 쓴 문장 또는 AI가 만든 문장의 오류를 지적하거나 수정을 할 수 있는 ‘선생님 AI’ 솔루션을 개발할 예정이다.
㈜알토비전은 2020년 설립된 중소기업으로 AI학습용 데이터 구축 전문 기업이다. NIA의 데이터 구축 사업, 정보통신산업진흥원(NIPA) 사업 등을 수행해 왔다.
김동호 기자 dongho@sedaily.com
Copyright © 서울경제. 무단전재 및 재배포 금지.
- 퀸연아·유느님 다 제쳤다…올해 광고모델 1위는 아이유
- 송중기, 영국인 여성과 열애 인정 '따뜻한 시선 부탁' [전문]
- 올 기술주 폭락에 세계 억만장자 1.9조달러 날려
- '요리 쉬워요'…무심코 먹은 밀키트 부대찌개 '이 병' 부른다
- '만나줘'…접근금지 무시, 몸에 기름 붓고 불지른 40대
- 출소한 김경수 '받고 싶지 않은 선물 억지로 받아'
- '술 마셨지?' 묻자 도망간 현직 경찰…시민이 쫓아가 잡았다
- '올라프 눈사람 들고 튀어'…동심 파괴 절도범 처벌 가능?
- '아바타2 보는데 '초장' 냄새 진동'…강남 영화관서 벌어진 일
- 美폭설에 갇힌 韓관광객…미국인 부부 집 내어줬다