알리바바 클라우드, 멀티모달 AI 모델 'Qwen2.5-Omni-7B' 공개

김민석 기자 2025. 3. 31. 09:46
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

알리바바그룹 알리바바 클라우드가 엔드투엔드 멀티모달 인공지능(AI) 모델 'Qwen2.5-Omni-7B'를 공개했다고 31일 밝혔다.

이 모델은 텍스트·이미지·음성·영상 등 다양한 입력 데이터를 실시간으로 텍스트·음성 응답으로 지원한다.

Qwen2.5-Omni-7B는 사전학습한 방대한 데이터셋을 기반으로 '이미지-텍스트' '영상-텍스트' '영상-음성' '음성-텍스트' 등 다양한 작업에서 성능을 낸다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

"70억 개 파라미터 경량 모델…아키텍처 기술로 강력한 성능"
"텍스트·영상·음성 통합 처리 강점…깃허브 등 오픈소스 공개"
알리바바 클라우드 엔드투엔드 멀티모달 AI 모델 Qwen2.5-Omni-7B(알리바바 제공)

(서울=뉴스1) 김민석 기자 = 알리바바그룹 알리바바 클라우드가 엔드투엔드 멀티모달 인공지능(AI) 모델 'Qwen2.5-Omni-7B'를 공개했다고 31일 밝혔다.

이 모델은 텍스트·이미지·음성·영상 등 다양한 입력 데이터를 실시간으로 텍스트·음성 응답으로 지원한다.

Qwen2.5-Omni-7B는 70억 개 파라미터 기반의 경량 모델로 지능형 음성 애플리케이션 개발에 적합한 비용 효율적인 AI 에이전트 구현을 지원한다. 시각 장애인을 위한 실시간 음성 설명, 요리 가이드 제공, 고객 응대 시스템 등 다양한 응용 분야에서 활용할 수 있다.

알리바바 클라우드 관계자는 "혁신적인 아키텍처를 바탕으로 저비용으로 높은 성능을 발휘한다"며 "대표 기술로는 텍스트 생성과 음성 합성을 분리해 간섭을 최소화하는 'Thinker-Talker 아키텍처', 비디오와 오디오 동기화를 강화하는 위치 임베딩 기술 'TMRoPE'(Time-aligned Multimodal RoPE) 등이 있다"고 설명했다.

Qwen2.5-Omni-7B는 사전학습한 방대한 데이터셋을 기반으로 '이미지-텍스트' '영상-텍스트' '영상-음성' '음성-텍스트' 등 다양한 작업에서 성능을 낸다. 특히 시각·청각·텍스트 정보를 통합적으로 처리하는 능력을 평가하는 OmniBench 벤치마크에서 최고 수준의 성능을 기록했다.

이 모델은 '허깅페이스'와 '깃허브'를 통해 오픈소스로 공개됐다. 알리바바 클라우드의 오픈소스 커뮤니티인 '모델스코프'에서도 접근할 수 있다.

알리바바 클라우드는 지난 몇 년간 200개 이상 생성형 AI 모델을 오픈소스로 공개했다.

알리바바 클라우드는 지난해 9월 'Qwen2.5'를 처음 공개한 데 이어 올해 1월 'Qwen2.5-Max'를 출시했다. 또 시각 이해와 장문 입력 처리를 위한 'Qwen2.5-VL'과 'Qwen2.5-1M' 등도 선보였다.

ideaed@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.