업스테이지, 최고 AI 학회서 논문 2편 채택

허진 기자 2023. 10. 23. 09:21
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 스타트업 업스테이지가 자연어 처리(NLP·Natural Language Processing) 분야 세계 최고 학회 'EMNLP 2023'에서 2개 논문이 채택되는 쾌거를 달성했다고 23일 밝혔다.

EMNLP 2023은 Empirical Methods in Natural Language Processing의 약자로 AI 번역과 챗봇, 기계 독해 등 언어 데이터 기반 자연어 처리 접근법과 관련한 연구를 다루는 세계 최고 수준의 학회로 꼽힌다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

논문 2편 모두 한국어 생성·평가 관련 기술 담아
[서울경제]

인공지능(AI) 스타트업 업스테이지가 자연어 처리(NLP·Natural Language Processing) 분야 세계 최고 학회 ‘EMNLP 2023’에서 2개 논문이 채택되는 쾌거를 달성했다고 23일 밝혔다.

EMNLP 2023은 Empirical Methods in Natural Language Processing의 약자로 AI 번역과 챗봇, 기계 독해 등 언어 데이터 기반 자연어 처리 접근법과 관련한 연구를 다루는 세계 최고 수준의 학회로 꼽힌다. 구글, 애플, 아마존, 바이두 등 세계 유수의 AI 기업이 참여한다.

이번에 채택된 논문 2편은 한국어 NLP 관련 주제며 박찬준 업스테이지 테크 리드 주도로 임희석 고려대 교수 연구팀과 협업을 통해 진행됐다. 지난해 이 학회에는 3242편의 논문이 제출돼 22%인 715편이 채택됐다.

첫 번째 논문 ‘KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing’은 한국어 음성 인식 후처리기와 관련한 새로운 벤치마크 데이터셋을 구축한 논문이다. 음성인식 모델의 약점을 평가하고 식별하기 위한 새로운 평가 방법론을 제안한다. 이 논문은 전통적인 평가 방법의 문제점을 지적·극복해 음성과 텍스트 두 수준의 오류를 모두 고려해 모델의 설명 가능성을 향상한 연구라고 회사는 설명했다.

두 번째 논문 ‘CHEF in the Language Kitchen: A Generative Data Augmentation Leveraging Korean Morpheme Ingredients’은 한국어 특성을 살린 새로운 데이터 증강 기법을 제안한 논문이다. 한국어는 영어와 달리 형태소라는 작은 단위로 구성돼 있어 기존 영어 기반의 데이터 증강법을 사용하면 문장 의미가 바뀌거나 자연스럽지 않은 문장이 만들어지는 맹점이 있었다. 논문은 한국어의 특성을 기반한 새로운 데이터 증강 방법론을 통해 한국어 특징을 반영해 자연스러운 문장을 생성·증강하는 방법론을 제시한다.

이 회사는 지난 6월 데이터 중심(Data-Centric) AI 분야에서 가장 권위 있는 워크숍인 ICML 2023-DMLR에서 논문 7편을 발표하며 국내 기업 중 논문이 최다 채택되기도 했다. 업스테이지는 창사 3년 만에 국내외에 AI 논문 100편 발표 하고, 구글 스콜라 랭킹 기준 NLP 분야 컨퍼런스 상위 7개 학회 중 6개 학회에서 모두 논문이 채택됐다.

허진 기자 hjin@sedaily.com

Copyright © 서울경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?