고난도 추론능력 2배 좋아졌네 … 구글 '제미나이 3.1 프로' 출시

문제해결능력·종합 사고력
클로드 오퍼스 앞질러 1위

구글이 제미나이 3 대비 추론 능력을 2배 이상 높인 인공지능(AI) 신모델을 출시했다. 고난도 벤치마크에서 주요 경쟁 모델을 앞서며 빅테크 간 AI 성능 경쟁이 한층 가열되는 양상이다. 구글은 19일(현지시간) '제미나이 3.1 프로'를 공개했다. 이 모델은 제미나이 3를 잇는 구글의 주력 대형언어모델(LLM)로 복잡한 질문에 대한 추론과 여러 단계를 거치는 작업 수행에 강점을 둔 것이 특징이다. 단순 질의응답을 넘어 실제 업무에 곧바로 적용할 수 있도록 기능을 강화했다는 설명이다.

구글은 제미나이 3.1 프로가 단순 질의응답을 넘어 실제 업무에 바로 적용할 수 있는 기능이 강화됐다고 설명했다. 예를 들어 텍스트 명령만으로 웹사이트에 바로 사용할 수 있는 애니메이션 SVG 파일을 생성할 수 있다. 픽셀 기반 영상이 아닌 코드 기반으로 제작돼 해상도 손실 없이 확대가 가능하고 파일 크기도 작다.

구글이 공개한 벤치마크 결과에서도 기존 모델 대비 큰 폭의 점수 상승이 확인됐다. 복잡한 문제 해결 능력과 종합적 사고력을 측정하는 고난도 평가 '휴머니티스 라스트 이그잼(HLE)'에서 44.4%의 점수를 받아 GPT-5.2(34.5%)와 클로드 오퍼스 4.6(40%)을 앞선 것으로 나타났다.

코딩 능력을 평가하는 'SWE-벤치 베리파이드'에서도 최고 수준으로 평가받고 있는 클로드 오퍼스 4.6(80.8%)과 비슷한 80.6%를 기록했으며 새로운 논리 패턴을 풀어내는 능력을 평가하는 'ARC-AGI-2' 성능 지표에서는 제미나이 3(31.1%) 대비 2배를 뛰어넘는 77.1%를 기록하기도 했다.

AI 스타트업 머코의 브렌던 푸디 최고경영자(CEO)는 소셜미디어 X에 "AI 모델이 실제 직무 환경에서 얼마나 잘 작동하는지를 측정하는 벤치마크 시스템 APEX에서 제미나이 3.1 프로가 1위에 올랐다"며 "에이전트가 실제 지식 노동 영역에서 얼마나 빠르게 발전하고 있는지를 보여준다"고 밝혔다.

[실리콘밸리 원호섭 특파원]

매일경제

IT/과학

고난도 추론능력 2배 좋아졌네 … 구글 '제미나이 3.1 프로' 출시