“중국 딥시크 AI 모델, 미국 최고 모델보다 앞서거나 동등”

조재학 2025. 1. 28. 10:12
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

중국 인공지능(AI) 스타트업 딥시크가 내놓은 AI 모델이 챗GPT 개발사 오픈AI 등의 모델을 일부 앞섰다는 평가가 나온다.

특히 이번에 공개한 추론 특화 모델 '딥시크-R1'은 미국 수학경시대회인 AIME 2024 벤치마크 테스트에서 79.8%의 정확도를 기록해 오픈AI의 추론 모델 'o1'(79.2%)을 앞섰고, 500개 수학 문제 테스트에서 정확도는 97.3%를 기록했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

중국 인공지능(AI) 스타트업 딥시크가 내놓은 AI 모델이 챗GPT 개발사 오픈AI 등의 모델을 일부 앞섰다는 평가가 나온다.

딥시크는 지난해 12월 거대언어모델(LLM) V3를, 이번 달 20일엔 R1이라는 추론 모델을 공개했다.

딥시크는 기술보고서에서 V3의 성능을 오픈AI의 가장 강력한 모델인 GPT-4o, 페이스북 모회사 메타플랫폼의 AI 모델인 라마 3.1, 앤스로픽의 AI 모델 클로드 3.5 소네트를 비교했다.

비교 결과, V3는 22개 평가 테스트 가운데 13개 부문에서 다른 경쟁 모델보다 가장 뛰어났다고 설명했다.

선별된 500개의 수학 문제 테스트(MATH-500)에서 V3는 90.2%의 정확도를 보여 80%에 그친 다른 모델보다 압도했다. 다중 언어 코드 생성 평가(HumanEval-Mul)에선 82.6%로 GPT-4o(80.5%와) 라마 3.1(77.2%)을 앞섰다.

다양한 언어 이해 작업을 수행할 수 있는 대규모 멀티태스크 언어 이해 능력 평가(MMLU)에선 89.1%로, 두 번째로 높았던 클로드 3.5 소네트(88.9%)를 넘어섰다. 수치 추론과 정보 추출 능력 테스트(DROP)에선 91.6%, 중국어 기반 테스트(C-Eval)에서도 43.2%를 받아 10점대 이하에 그친 다른 모델을 제쳤다.

특히 이번에 공개한 추론 특화 모델 '딥시크-R1'은 미국 수학경시대회인 AIME 2024 벤치마크 테스트에서 79.8%의 정확도를 기록해 오픈AI의 추론 모델 'o1'(79.2%)을 앞섰고, 500개 수학 문제 테스트에서 정확도는 97.3%를 기록했다. 다양한 주제의 복잡한 다중 질문 테스트(FRAMES)에서도 82%로 'o1'(76.9%)을 능가했다.

AI 데이터 기업 스케일AI의 알렉산더 왕 최고경영자(CEO)는 “우리가 발견한 것은 딥시크의 성능이 최고이거나 미국의 최고 모델과 거의 동등하다는 것”이라고 말했다.

조재학 기자 2jh@etnews.com

Copyright © 전자신문. 무단전재 및 재배포 금지.