업스테이지 논문 2편, '자연어처리' 최고 학회서 채택

윤주영 기자 2023. 10. 23. 17:15
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 스타트업 업스테이지는 자사 논문 2편이 자연어처리(NLP) 분야의 권위 있는 학회인 'EMNLP 2023'에서 채택됐다고 23일 밝혔다.

해당 학회는 AI 번역과 챗봇, 기계 독해 등 데이터 기반 NLP 접근법을 다룬다.

업스테이지의 논문은 한국어 관련 NLP 연구 성과다.

두 번째 논문에서는 형태소라는 한국어의 특성을 살린 새로운 데이터 증강 기법을 제안한다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

자연어 처리 분야 학회 'EMNLP 2023'의 홈페이지. (업스테이지 제공)

(서울=뉴스1) 윤주영 기자 = 인공지능(AI) 스타트업 업스테이지는 자사 논문 2편이 자연어처리(NLP) 분야의 권위 있는 학회인 'EMNLP 2023'에서 채택됐다고 23일 밝혔다.

해당 학회는 AI 번역과 챗봇, 기계 독해 등 데이터 기반 NLP 접근법을 다룬다. 12월6~10일 싱가포르에서 열리며 구글·애플·아마존·바이두 등 글로벌 AI 기업이 참여한다.

업스테이지의 논문은 한국어 관련 NLP 연구 성과다. 박찬준 업스테이지 선임 연구원과 임희석 고려대 교수가 협업했다.

첫 번째 논문은 한국어 음성인식 처리와 관련한 새로운 측정기준(벤치마크) 데이터 집합(데이터셋)을 구축한 것이다. 음성인식 모델의 약점을 정확히 분석하지 못하는 기존 평가 방법을 지적하며 새로운 평가 방법론을 제안한다.

두 번째 논문에서는 형태소라는 한국어의 특성을 살린 새로운 데이터 증강 기법을 제안한다.

데이터 증강 기법은 보유한 데이터셋을 여러 가지 방법으로 확대해 실질적인 학습 규모를 키우는 방식이다. 논문은 생성형 언어 모델이 같은 입력값으로도 자연스러운 문장을 생성하고 형태소 조합을 다양하게 변형해 데이터를 증강하는 방법론을 담았다.

김성훈 업스테이지 대표는 "지속적인 R&D 투자를 통한 연구 성과를 바탕으로 최고 성능의 AI를 누릴 수 있게 노력하겠다"고 했다.

지난해 학회에서는 총 3242편의 제출 논문 중 715편만 통과돼 22%의 채택률을 기록했다.

legomaster@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.

이 기사에 대해 어떻게 생각하시나요?