딥시크 vs 챗GPT, 충격 실험 결과…中 물리 경시대회 승자는

김지혜 2025. 1. 31. 18:25

번역beta Translated by kaka i

닫기

글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

닫기

중국 인공지능(AI) 스타트업 딥시크(DeepSeek) 최신 모델의 물리학 문제 해결 능력이 AI 선두주자인 미국의 오픈AI 대표 모델인 챗GPT(ChatGPT)를 넘어섰다는 주장이 나왔다.

중국 국영 연구소인 중국과학원 물리연구소는 지난 30일 소셜미디어 공식 계정을 통해 이 같이 밝혔다. 과학 수재들이 경쟁하는 경시대회 문제로 AI를 실험한 결과를 이날 공개한 것이다.

연구소에 따르면 지난 17일 장쑤성에서 열린 '톈무(天目)배 이론물리 경시대회'에서 출제된 문제를 딥시크의 R1, 오픈AI의 GPT-o1, 앤스로픽의 클로드 소넷 등 3개 AI 모델에 풀게 했다. 이후 문제 답안을 실제 경시대회 채점위원단에게 전달했다.

그 결과 140점 만점에 딥시크가 100점으로 1등을 차지했으며 챗GPT이 97점, 클로드 소넷이 71점을 각각 받았다. 이번 대회 참가자들과 비교했을 때 딥시크는 3등 수준의 성적으로, 인간 최고점인 125점과는 격차가 컸다.

연구소는 "AI 응답을 통해 시험 진행 방식에 대한 이해도를 확인한 후 시험을 시작했다"면서 "총 문제 7개에 대해 순차적으로 답안을 받았으며, 답안에 대해서는 중간에 어떤 피드백도 제공하지 않았다"고 설명했다.

이어 "이제 연구원이나 박사후연구원(Postdoc·포닥)을 뽑을 필요도 없는 걸까"라면서도 "AI의 사고 과정이 뛰어난 것은 사실이나 기본적 실수에서 헤매는 경향이 있는 것으로 나타났다"고 짚었다.

연구소는 각 AI 답안의 특징을 구체적으로 분석하기도 했다. 연구소는 "딥시크와 비교하면 챗GPT의 답안은 인간이 작성한 것과 더 유사한 스타일을 보였다"면서 "챗GPT가 증명 문제에서 더 높은 점수를 기록했다"고 했다.

그러면서 "딥시크는 증명의 의미를 제대로 이해하지 못했다"며 "증명해야 할 결론을 재서술했을 뿐 증명 과정을 답안에 포함하지 않았다"고 덧붙였다.

또 "클로드 소넷은 예상외로 부진한 성적을 보였다"며 "초반 두 문제에서 0점을 받는 실수를 저질렀고, 후반에는 챗GPT와 유사한 부분에서 감점을 받았다"고 언급했다.

김지혜 기자 kim.jihye6@joongang.co.kr

중앙일보에서 직접 확인하세요. 해당 언론사로 이동합니다.

국제