“무료인데 챗GPT보다 빠르다고?”…프랑스 회사가 공개한 이 음성비서, 정체가

이상덕 기자(asiris27@mk.co.kr), 정호준 기자(jeong.hojun@mk.co.kr) 2024. 9. 26. 08:09
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

에릭 슈밋 투자 佛큐타이
무료버전으로 ‘모시’ 내놔
개방형으로 오픈AI와 차별화
시장규모 5년후 56조원 전망
메타·모질라 등 개발코드 공개
기술 접근성 높여 표준화 노려
[이미지 출처 = 픽사베이]
오픈AI가 음성 인공지능(AI)을 대폭 업데이트한 가운데, 소프트웨어를 무료로 배포하는 ‘오픈소스’ 진영이 맞불을 놓고 있다.

음성 인식은 대규모 언어 모델(LLM)처럼 아직 주목받는 시장은 아니다. 하지만 문장·이미지·음성을 포함한 다양한 AI를 연동해 사용하는 ‘멀티모달’ 시대가 펼쳐질 경우 반드시 필요한 AI로 꼽힌다.

정보기술(IT) 업계에 따르면, 프랑스에 본사를 둔 비영리 AI 연구소인 ‘큐타이’는 최근 자체 개발한 음성 AI 모델인 ‘모시(Moshi)’를 무료 버전으로 코드까지 전격 공개했다. 큐타이의 모시는 인간 두뇌 시냅스에 해당하는 파라미터의 수가 70억 개에 달하는 ‘헬리움’이라는 언어 모델을 근간으로 했다.

특히 인터넷이 연결되어 있지 않더라도 사용 가능한 것이 특징이다. 때문에 스마트폰이나 태블릿에 넣어두고 사용할 수 있다. 이는 오픈AI의 음성 AI가 클라우드 기반인 것과 대조된다. 또한 음성 생성 시간이 0.2초에 불과하다. GPT-4가 0.23~0.32초인 것에 비해 더 빠르다는 설명이다.

큐타이의 패트릭 페레즈 최고경영자(CEO)는 최근 본지와 만나 “모든 사람이 AI를 쉽게 사용할 수 있도록 하겠다”면서 “모시와 다른 멀티모달 파운데이션 모델에 대한 연구를 지속하겠다”고 강조했다.

큐타이는 현재 프랑스판 오픈AI로 꼽힌다.

프랑스의 일리아드 그룹과 CMA CGM 그룹, 전 구글 CEO인 에릭 슈미트가 이끄는 슈미트퓨처스가 작년 11월 공동 설립한 비영리 연구소다. 당시 이들은 총 3억 유로(약 4485억 원)를 투자했다. 8명의 핵심 인력이 반년 만에 오픈AI에 버금가는 음성 AI를 개발해 주목받았다. 오픈AI의 음성 AI처럼 매우 자연스러운 대화를 주고받을 수 있으며, 온라인에서 체험할 수 있도록 했다.

음성 AI를 오픈소스로 배포한 기업은 또 있다. 메타, 코키, 모질라 딥스피치, 칼디가 대표적이다. 앞서 메타는 4000개 이상의 언어를 인식하고 생성할 수 있는 ‘MMS’를 공개했다. 특히 MMS는 학습용 꼬리표인 ‘라벨’이 없더라도 데이터를 학습할 수 있는 것이 강점으로 꼽힌다. 또한 모질라 딥스피치는 그래픽처리장치(GPU) 효율을 한층 높인 음성 AI를 내놓았으며, 코키는 실시간 음성 인식과 텍스트-음성 간 변환이 빠른 음성 AI를 내놓았다. 둘 다 오픈소스 기반이다.

AI를 오픈소스로 배포하는 까닭은 선점 효과 때문이다. 오픈소스는 오픈AI의 GPT나 앤스로픽의 클로드 같은 폐쇄형 모델과 달리 누구나 무료로 소스 코드에 접근하고 활용할 수 있는 것이 특징이다. 보다 방대한 사용자에 대해 기술 접근성을 높일 수 있으며, 일부 폐쇄형 모델에 대한 종속을 피할 수 있다는 것도 장점이다.

개발 기업은 오픈소스로 생태계를 구축하고, 많은 개발자들이 해당 기술을 사용하게 만들어 기술 표준화를 주도할 수 있다. 한 업계 관계자는 “AI 시장이 오픈AI나 앤스로픽처럼 폐쇄형 모델 중심으로만 움직이지 않고 있으며, 오픈소스 모델도 충분히 좋은 성능을 구현하고 있다”라고 말했다.

폐쇄형 진영 역시 음성 AI 개발에 열을 올리고 있다.

오픈AI는 최근 한국어와 일본어를 포함한 50개 언어의 사용을 개선한 챗GPT ‘음성 모드’를 출시했다. 한국에서도 유료 사용자를 대상으로 공개된 상태다. 특히 오픈AI의 ‘음성 모드’는 AI 음성 발화 속도를 조절할 수 있으며 화자의 감정까지 인식한다. 오픈AI는 한국어 음성을 보다 자연스럽게 개편했으며, 총 9가지 음성 버전을 지원한다. 또한 구글은 AI 음성 비서인 ‘제미나이(Gemini)’를 지난달 공개했다. 스마트폰을 비롯한 모바일 환경에 최적화됐고, 10가지 목소리를 제공해 톤과 스타일을 선택할 수 있다.

시장 조사 업체인 모도인텔리전스에 따르면, 음성 인식 시장은 2024년 149억 5000만 달러에서 2029년 420억 8000만 달러로 성장할 전망이다. 특히 AI가 발전하면서 △스마트 홈 및 IoT(사물인터넷) △고객 서비스 및 콜센터 △의료 및 헬스케어 △자동차 및 내비게이션 △교육 및 학습 도구 △게임 및 엔터테인먼트 △은행 및 금융 △법률 및 행정 서비스 △접근성 지원 △통번역 서비스 등에 전방위적으로 도입될 것으로 보인다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?