고난도 추론능력 2배 좋아졌네 … 구글 '제미나이 3.1 프로' 출시
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
구글이 제미나이 3 대비 추론 능력을 2배 이상 높인 인공지능(AI) 신모델을 출시했다.
AI 스타트업 머코의 브렌던 푸디 최고경영자(CEO)는 소셜미디어 X에 "AI 모델이 실제 직무 환경에서 얼마나 잘 작동하는지를 측정하는 벤치마크 시스템 APEX에서 제미나이 3.1 프로가 1위에 올랐다"며 "에이전트가 실제 지식 노동 영역에서 얼마나 빠르게 발전하고 있는지를 보여준다"고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
클로드 오퍼스 앞질러 1위

구글이 제미나이 3 대비 추론 능력을 2배 이상 높인 인공지능(AI) 신모델을 출시했다. 고난도 벤치마크에서 주요 경쟁 모델을 앞서며 빅테크 간 AI 성능 경쟁이 한층 가열되는 양상이다. 구글은 19일(현지시간) '제미나이 3.1 프로'를 공개했다. 이 모델은 제미나이 3를 잇는 구글의 주력 대형언어모델(LLM)로 복잡한 질문에 대한 추론과 여러 단계를 거치는 작업 수행에 강점을 둔 것이 특징이다. 단순 질의응답을 넘어 실제 업무에 곧바로 적용할 수 있도록 기능을 강화했다는 설명이다.
구글은 제미나이 3.1 프로가 단순 질의응답을 넘어 실제 업무에 바로 적용할 수 있는 기능이 강화됐다고 설명했다. 예를 들어 텍스트 명령만으로 웹사이트에 바로 사용할 수 있는 애니메이션 SVG 파일을 생성할 수 있다. 픽셀 기반 영상이 아닌 코드 기반으로 제작돼 해상도 손실 없이 확대가 가능하고 파일 크기도 작다.
구글이 공개한 벤치마크 결과에서도 기존 모델 대비 큰 폭의 점수 상승이 확인됐다. 복잡한 문제 해결 능력과 종합적 사고력을 측정하는 고난도 평가 '휴머니티스 라스트 이그잼(HLE)'에서 44.4%의 점수를 받아 GPT-5.2(34.5%)와 클로드 오퍼스 4.6(40%)을 앞선 것으로 나타났다.
코딩 능력을 평가하는 'SWE-벤치 베리파이드'에서도 최고 수준으로 평가받고 있는 클로드 오퍼스 4.6(80.8%)과 비슷한 80.6%를 기록했으며 새로운 논리 패턴을 풀어내는 능력을 평가하는 'ARC-AGI-2' 성능 지표에서는 제미나이 3(31.1%) 대비 2배를 뛰어넘는 77.1%를 기록하기도 했다.
AI 스타트업 머코의 브렌던 푸디 최고경영자(CEO)는 소셜미디어 X에 "AI 모델이 실제 직무 환경에서 얼마나 잘 작동하는지를 측정하는 벤치마크 시스템 APEX에서 제미나이 3.1 프로가 1위에 올랐다"며 "에이전트가 실제 지식 노동 영역에서 얼마나 빠르게 발전하고 있는지를 보여준다"고 밝혔다.
[실리콘밸리 원호섭 특파원]
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “은퇴하면 월세 받아먹어야죠”…임대사업자 절반이 60대 이상 - 매일경제
- “여보, 우리 이제 그만할까”…역대급 주식 열풍에 ‘안절부절’ 직장인들 왜? - 매일경제
- “설거지해 주실 분, 여자만요”…구인 글에 당근 ‘발칵’ 보수 얼마길래? - 매일경제
- “무조건 반등할거야”...개미들 ‘초상집’ 된 비트코인, 큰 손은 다 도망갔다 - 매일경제
- ‘이중간첩’ 혐의 체포 이수근…54일만에 사형, 49년만에 밝혀진 진실 - 매일경제
- 미국이 이란 공격하면 중동 정세는…BBC가 분석한 최악의 시나리오 - 매일경제
- [속보] ‘자사주 소각’ 3차 상법 개정안, 법사소위 통과…與 주도 - 매일경제
- “반도체株 다음은 저희가 끌어야죠”…23일까지 들고만있어도 깜짝선물 - 매일경제
- ‘무기징역’ 尹 “국민에 많은 좌절·고난 겪게 해…깊이 사과” - 매일경제
- 뮌헨서 위태로운 김민재, 독일 떠나 EPL 가나? 첼시·토트넘 러브콜…“매력적인 제안 온다면 이