中알리바바 오픈소스 AI '큐원3-코더' 클로드 소넷4에 도전

SWE-벤치서 '오픈AI GPT 4.1·구글 제미나이 2.5프로' 추월
현존 오픈소스 모델 중 최고성능…美·中 AI 성능격차 줄어

(서울=뉴스1) 김민석 기자 = 중국 알리바바가 오픈소스로 공개한 인공지능(AI) 코딩 모델 '큐원3-코더'(Qwen3-coder)가 주요 성능 벤치마크에서 오픈AI와 구글의 최신 모델을 앞선 것으로 나타났다.

25일 IT 업계와 외신에 따르면 큐원3-코더는 총 4800억개의 파라미터를 갖춘 전문가 혼합(MoE) 방식으로 쿼리마다 350억 개 파라미터와 160개 전문가 중 8개만 활성화하는 구조를 채택했다.

큐원3-코더는 프로그래밍 에이전트 평가 'SWE-벤치'에서 정답률 67.0%(표준), 69.6%(500턴 테스트)를 기록해 GPT-4.1(54.6%)과 제미나이 2.5 프로(49.0%) 등을 앞섰다. 클로드 '소넷4'(70.4%)에도 근접한 수치다.

알리바바 측은 "큐원3-코더는 7.5조개 토큰을 학습했고 이 중 70%는 코드 데이터"라며 "모델 성능을 높이기 위해 '코드 강화학습'(Code RL)으로 다양한 코딩 작업 테스트 케이스를 자동 생성해 고품질 훈련 인스턴스를 만들었다"고 말했다.

이어 "'장기 강화학습'(Agent RL)을 통해 모델이 도구를 사용해 다중 턴 상호작용으로 실제 문제를 해결하도록 했다"며 "이를 위해 알리바바 클라우드 인프라를 활용해 2만 개의 독립적인 환경을 병렬 실행하는 대규모 시스템을 구축했다"고 설명했다.

그러면서 "큐원3 활용 시 주니어 단계 개발자도 시니어 개발자가 일주일 동안 걸리는 프로그래밍 작업을 하루 만에 완료할 수 있다"며 "기업 웹사이트도 5분 만에 만들 수 있다"고 했다.

알리바바는 개발자 터미널용 오픈소스 코딩 도구 '큐원 코드'(Qwen Code)도 함께 공개했다. 구글 제미나이 CLI를 기반으로 큐원3-코더 모델에 최적화한 형태의 코딩 도구로 명령줄 터미널에서 직접 실행된다.

최근 알리바바의 큐원 시리즈와 딥시크 등 중국 AI 모델이 약진하고 있다. 스탠포드대 보고서에 따르면 중국과 미국 AI 모델 성능 격차는 2024년 1월 103포인트에서 2025년 2월 23포인트로 크게 줄었다.

ideaed@news1.kr

<용어설명>

■ 전문가 혼합(MoE)
전문가 혼합(Mixture-of-Experts)은 인공지능 모델의 효율성과 확장성을 극대화하기 위해 설계된 혁신적인 아키텍처다. 이 기법은 입력 데이터에 따라 특화된 하위 모델(전문가)을 선택적으로 활성화해 연산 비용을 절감하면서도 대규모 모델의 장점을 유지한다.

■ 코드 강화학습
코드 강화학습(Code RL)은 인공지능(AI) 모델이 다양한 코딩 과제를 스스로 해결할 수 있도록 강화학습(Reinforcement Learning·RL) 기법을 코딩 데이터와 문제에 적용하는 것을 의미한다.

■ 장기 강화학습
장기 강화학습(Agent RL)은 강화학습(Reinforcement Learning·RL)의 한 방식으로 모델이 단순히 한 번의 행동으로 보상을 받는 것이 아니라 여러 단계(다중 턴)에 걸쳐 의사결정을 하면서 최종 목표(장기적인 보상)를 달성하도록 학습하는 방법이다.

IT/과학

中알리바바 오픈소스 AI '큐원3-코더' 클로드 소넷4에 도전