MS가 만든 AI 목소리 “너무 사람 같아서...”

원호섭 기자(wonc@mk.co.kr) 2024. 7. 12. 16:06
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

마이크로소프트(MS)가 자사가 개발한 인공지능(AI) 음성 생성기를 공개하지 않기로 했다.

MS 연구진은 출판 전 논문 공개 사이트인 '아카이브'에 최근 '밸리-2(VALL-E2)'라 이름 붙인 AI 음성 생성기를 공개했다.

라이브사이언스는 이 소식을 전하면서 "인간적 동등성이란 VALL-E2에서 생성한 음성이 MS에서 벤치마크로 사용하는 인간 음성 품질과 동등하거나 더 우수함을 뜻한다"라고 설명했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

MS 연구진, AI 음성 기술 아카이브 발표
사람과 구별할 수 없을 정도의 성능 선보여
“악용 우려로 대중에게 공개 계획 없어”
AI가 노래를 부르고 있는 모습을 형상화한 그림 [그림=뤼튼]
마이크로소프트(MS)가 자사가 개발한 인공지능(AI) 음성 생성기를 공개하지 않기로 했다. 이유는 사람과 너무 똑같기 때문이다.

MS 연구진은 출판 전 논문 공개 사이트인 ‘아카이브’에 최근 ‘밸리-2(VALL-E2)’라 이름 붙인 AI 음성 생성기를 공개했다. 연구진은 논문을 통해 “인간의 수행 능력과 비슷할 정도로 정확하고 자연스러운 음성을 생성할 수 있다”라며 “실제 사람으로 착각할 만큼의 성능을 보였다”라고 밝혔다.

연구진에 따르면 VALL-E2는 복잡하거나 반복적인 구문을 줘도 고품질의 음성을 만들어 냈으며 이 분야에서 처음으로 인간과 동등한 수준을 달성했다고 설명했다. 라이브사이언스는 이 소식을 전하면서 “인간적 동등성이란 VALL-E2에서 생성한 음성이 MS에서 벤치마크로 사용하는 인간 음성 품질과 동등하거나 더 우수함을 뜻한다”라고 설명했다. MS의 이러한 기술은 향후 교육, 엔터테인먼트, 대화형 음성 응답 시스템, 번역, 챗봇 등에 사용될 것으로 기대된다.

다 이러한 성능에도 불구하고 MS는 잠재적인 오용의 위험성 때문에 VALL-E2를 대중에게 공개하지 않기로 했다. MS 연구진은 블로그를 통해 “VALL-E2는 순수하게 연구 프로젝트”라며 “VALL-E2를 제품에 넣거나 대중에게 공개할 계획이 현재로서는 없다”라고 말했다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?