中알리바바 오픈소스 AI '큐원3-코더' 클로드 소넷4에 도전

김민석 기자 2025. 7. 25. 14:34
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

중국 알리바바가 오픈소스로 공개한 인공지능(AI) 코딩 모델 '큐원3-코더'(Qwen3-coder)가 주요 성능 벤치마크에서 오픈AI와 구글의 최신 모델을 앞선 것으로 나타났다.

알리바바 측은 "큐원3-코더는 7.5조개 토큰을 학습했고 이 중 70%는 코드 데이터"라며 "모델 성능을 높이기 위해 '코드 강화학습'(Code RL)으로 다양한 코딩 작업 테스트 케이스를 자동 생성해 고품질 훈련 인스턴스를 만들었다"고 말했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

SWE-벤치서 '오픈AI GPT 4.1·구글 제미나이 2.5프로' 추월
현존 오픈소스 모델 중 최고성능…美·中 AI 성능격차 줄어
Qwen3-coder 이미지(허깅페이스 갈무리)

(서울=뉴스1) 김민석 기자 = 중국 알리바바가 오픈소스로 공개한 인공지능(AI) 코딩 모델 '큐원3-코더'(Qwen3-coder)가 주요 성능 벤치마크에서 오픈AI와 구글의 최신 모델을 앞선 것으로 나타났다.

25일 IT 업계와 외신에 따르면 큐원3-코더는 총 4800억개의 파라미터를 갖춘 전문가 혼합(MoE) 방식으로 쿼리마다 350억 개 파라미터와 160개 전문가 중 8개만 활성화하는 구조를 채택했다.

큐원3-코더는 프로그래밍 에이전트 평가 'SWE-벤치'에서 정답률 67.0%(표준), 69.6%(500턴 테스트)를 기록해 GPT-4.1(54.6%)과 제미나이 2.5 프로(49.0%) 등을 앞섰다. 클로드 '소넷4'(70.4%)에도 근접한 수치다.

알리바바 측은 "큐원3-코더는 7.5조개 토큰을 학습했고 이 중 70%는 코드 데이터"라며 "모델 성능을 높이기 위해 '코드 강화학습'(Code RL)으로 다양한 코딩 작업 테스트 케이스를 자동 생성해 고품질 훈련 인스턴스를 만들었다"고 말했다.

이어 "'장기 강화학습'(Agent RL)을 통해 모델이 도구를 사용해 다중 턴 상호작용으로 실제 문제를 해결하도록 했다"며 "이를 위해 알리바바 클라우드 인프라를 활용해 2만 개의 독립적인 환경을 병렬 실행하는 대규모 시스템을 구축했다"고 설명했다.

그러면서 "큐원3 활용 시 주니어 단계 개발자도 시니어 개발자가 일주일 동안 걸리는 프로그래밍 작업을 하루 만에 완료할 수 있다"며 "기업 웹사이트도 5분 만에 만들 수 있다"고 했다.

알리바바는 개발자 터미널용 오픈소스 코딩 도구 '큐원 코드'(Qwen Code)도 함께 공개했다. 구글 제미나이 CLI를 기반으로 큐원3-코더 모델에 최적화한 형태의 코딩 도구로 명령줄 터미널에서 직접 실행된다.

최근 알리바바의 큐원 시리즈와 딥시크 등 중국 AI 모델이 약진하고 있다. 스탠포드대 보고서에 따르면 중국과 미국 AI 모델 성능 격차는 2024년 1월 103포인트에서 2025년 2월 23포인트로 크게 줄었다.

ideaed@news1.kr

<용어설명>

■ 전문가 혼합(MoE)
전문가 혼합(Mixture-of-Experts)은 인공지능 모델의 효율성과 확장성을 극대화하기 위해 설계된 혁신적인 아키텍처다. 이 기법은 입력 데이터에 따라 특화된 하위 모델(전문가)을 선택적으로 활성화해 연산 비용을 절감하면서도 대규모 모델의 장점을 유지한다.

■ 코드 강화학습
코드 강화학습(Code RL)은 인공지능(AI) 모델이 다양한 코딩 과제를 스스로 해결할 수 있도록 강화학습(Reinforcement Learning·RL) 기법을 코딩 데이터와 문제에 적용하는 것을 의미한다.

■ 장기 강화학습
장기 강화학습(Agent RL)은 강화학습(Reinforcement Learning·RL)의 한 방식으로 모델이 단순히 한 번의 행동으로 보상을 받는 것이 아니라 여러 단계(다중 턴)에 걸쳐 의사결정을 하면서 최종 목표(장기적인 보상)를 달성하도록 학습하는 방법이다.

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.