알리바바 클라우드, 멀티모달 AI 모델 'Qwen2.5-Omni-7B' 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
알리바바그룹 알리바바 클라우드가 엔드투엔드 멀티모달 인공지능(AI) 모델 'Qwen2.5-Omni-7B'를 공개했다고 31일 밝혔다.
이 모델은 텍스트·이미지·음성·영상 등 다양한 입력 데이터를 실시간으로 텍스트·음성 응답으로 지원한다.
Qwen2.5-Omni-7B는 사전학습한 방대한 데이터셋을 기반으로 '이미지-텍스트' '영상-텍스트' '영상-음성' '음성-텍스트' 등 다양한 작업에서 성능을 낸다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
"텍스트·영상·음성 통합 처리 강점…깃허브 등 오픈소스 공개"
(서울=뉴스1) 김민석 기자 = 알리바바그룹 알리바바 클라우드가 엔드투엔드 멀티모달 인공지능(AI) 모델 'Qwen2.5-Omni-7B'를 공개했다고 31일 밝혔다.
이 모델은 텍스트·이미지·음성·영상 등 다양한 입력 데이터를 실시간으로 텍스트·음성 응답으로 지원한다.
Qwen2.5-Omni-7B는 70억 개 파라미터 기반의 경량 모델로 지능형 음성 애플리케이션 개발에 적합한 비용 효율적인 AI 에이전트 구현을 지원한다. 시각 장애인을 위한 실시간 음성 설명, 요리 가이드 제공, 고객 응대 시스템 등 다양한 응용 분야에서 활용할 수 있다.
알리바바 클라우드 관계자는 "혁신적인 아키텍처를 바탕으로 저비용으로 높은 성능을 발휘한다"며 "대표 기술로는 텍스트 생성과 음성 합성을 분리해 간섭을 최소화하는 'Thinker-Talker 아키텍처', 비디오와 오디오 동기화를 강화하는 위치 임베딩 기술 'TMRoPE'(Time-aligned Multimodal RoPE) 등이 있다"고 설명했다.
Qwen2.5-Omni-7B는 사전학습한 방대한 데이터셋을 기반으로 '이미지-텍스트' '영상-텍스트' '영상-음성' '음성-텍스트' 등 다양한 작업에서 성능을 낸다. 특히 시각·청각·텍스트 정보를 통합적으로 처리하는 능력을 평가하는 OmniBench 벤치마크에서 최고 수준의 성능을 기록했다.
이 모델은 '허깅페이스'와 '깃허브'를 통해 오픈소스로 공개됐다. 알리바바 클라우드의 오픈소스 커뮤니티인 '모델스코프'에서도 접근할 수 있다.
알리바바 클라우드는 지난 몇 년간 200개 이상 생성형 AI 모델을 오픈소스로 공개했다.
알리바바 클라우드는 지난해 9월 'Qwen2.5'를 처음 공개한 데 이어 올해 1월 'Qwen2.5-Max'를 출시했다. 또 시각 이해와 장문 입력 처리를 위한 'Qwen2.5-VL'과 'Qwen2.5-1M' 등도 선보였다.
ideaed@news1.kr
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.
- "유부남인 가수 겸 작곡가, 아내와 불륜…작업실서 관계"
- "시부모 안 재워주고 보낸 아내에 복수…6시간 걸려 온 장모님 못 자게 했다"
- 출산 12일차 아내에게 '부부관계' 요구…거부하자 갓난아기 버린 남성
- 윤 대통령, 장제원 극단적 선택에 "너무 안타깝고 가슴 아파"
- 신생아 안고 "낙상 마렵다"…대구 상급종합병원서 아동학대 논란
- '박성광♥' 이솔이 "퇴사 후 암 투병, 아이 못 가져…남편 ATM 취급 안해"
- "이혼사유 1위는 불륜…배우자 숨소리만 들어도 안다" 사례 폭로한 양나래
- 성폭행 당하고 "꽃뱀" 무고 협박 시달리다 숨진 아내, 남편 분노
- 사내 커플로 결혼했는데…아내, 동기와 바람 나 '1호 불륜 부부' 신세
- 박한별 "이혼 안한 이유? 아이에게 가정 뺏을 수 없어" 오열