"오픈AI o1 능가했나?"…알리바바, 추론 특화 모델 'QwQ' 출시

중국 최대 전자상거래 기업 알리바바가 추론에 특화된 인공지능(AI) 모델인 'QwQ'를 출시했다. 수학 등 일부 벤치마크에서 오픈AI의 추론 모델인 'o1'의 성능을 능가했다고 알리바바 측은 소개했다.

알리바바는 27일(현지시간) 허깅페이스를 통해 새로운 AI 모델인 'QwQ-32B-프리뷰'를 공개했다. 이 모델은 최대 3만 2000단어 길이의 컨텍스트 창을 지원하며, 325억개의 매개변수를 보유하고 있다.

'QwQ'는 오픈AI의 'o1' 모델과 같이 추론에 특화된 모델이다. 알리바바는 'QwQ-32B-프리뷰'가 'AIME', 'MATH' 등 벤치마크에서 오픈AI의 'o1-프리뷰', 'o1-미니' 모델보다 우수한 성능을 보였다고 강조했다.

MATH는 수학 문제를 통해 사고력을 검증하는 평가이며 AIME는 AI 모델간 성능을 평가하는 시스템이다. 'QwQ-32B-프리뷰'는 상당히 어려운 수학 문제에 답할 수 있다고 한다.

그러나 아직까지 언어를 갑자기 전환하거나 상식적 추론이 필요한 작업에서 성능이 떨어질 수 있다고 알리바바는 언급했다.

'QwQ-32B-프리뷰'의 경우 스스로 사실 확인을 할 수 있기 때문에 응답의 신뢰성이 높다는 게 특징이다. 그러나 응답에 걸리는 시간이 다른 모델보다 오래 걸린다는 게 단점이다.

'QwQ-32B-프리뷰'는 허깅페이스에서 다운로드할 수 있다. 한편 알리바바는 AI 경쟁에서 우위를 점하기 위해 다양한 AI 도구를 잇따라 출시하고 있다. 최근 AI 기반 번역 도구의 업데이트 버전을 공개했다.

AI 번역 도구는 자체 개발한 거대언어모델(LLM) 쿠웬(Qwen)을 기반으로 작동한다. 자체 플랫폼에 도입된 AI 번역 도구는 판매자들이 판매하는 제품 정보, 이미지 설명 등을 목표 시장 언어로 번역해준다.

알리바바는 번역 벤치마크 프레임워크인 플로레스(Flores)를 통해 시험한 결과 구글, 챗GPT, 딥엘보다 자사의 AI 번역 도구인 마르코 MT가 우수한 성능을 보였다고 밝혔다.
AI포스트(AIPOST) 조형주 기자

■ 보도자료 및 광고, 비즈니스 협업 문의 aipostkorea@naver.com