딥시크 vs 챗GPT, 충격 실험 결과…中 물리 경시대회 승자는

중국 인공지능(AI) 스타트업 딥시크(DeepSeek) 최신 모델의 물리학 문제 해결 능력이 AI 선두주자인 미국의 오픈AI 대표 모델인 챗GPT(ChatGPT)를 넘어섰다는 주장이 나왔다.
중국 국영 연구소인 중국과학원 물리연구소는 지난 30일 소셜미디어 공식 계정을 통해 이 같이 밝혔다. 과학 수재들이 경쟁하는 경시대회 문제로 AI를 실험한 결과를 이날 공개한 것이다.
연구소에 따르면 지난 17일 장쑤성에서 열린 '톈무(天目)배 이론물리 경시대회'에서 출제된 문제를 딥시크의 R1, 오픈AI의 GPT-o1, 앤스로픽의 클로드 소넷 등 3개 AI 모델에 풀게 했다. 이후 문제 답안을 실제 경시대회 채점위원단에게 전달했다.
그 결과 140점 만점에 딥시크가 100점으로 1등을 차지했으며 챗GPT이 97점, 클로드 소넷이 71점을 각각 받았다. 이번 대회 참가자들과 비교했을 때 딥시크는 3등 수준의 성적으로, 인간 최고점인 125점과는 격차가 컸다.
연구소는 "AI 응답을 통해 시험 진행 방식에 대한 이해도를 확인한 후 시험을 시작했다"면서 "총 문제 7개에 대해 순차적으로 답안을 받았으며, 답안에 대해서는 중간에 어떤 피드백도 제공하지 않았다"고 설명했다.
이어 "이제 연구원이나 박사후연구원(Postdoc·포닥)을 뽑을 필요도 없는 걸까"라면서도 "AI의 사고 과정이 뛰어난 것은 사실이나 기본적 실수에서 헤매는 경향이 있는 것으로 나타났다"고 짚었다.
연구소는 각 AI 답안의 특징을 구체적으로 분석하기도 했다. 연구소는 "딥시크와 비교하면 챗GPT의 답안은 인간이 작성한 것과 더 유사한 스타일을 보였다"면서 "챗GPT가 증명 문제에서 더 높은 점수를 기록했다"고 했다.
그러면서 "딥시크는 증명의 의미를 제대로 이해하지 못했다"며 "증명해야 할 결론을 재서술했을 뿐 증명 과정을 답안에 포함하지 않았다"고 덧붙였다.
또 "클로드 소넷은 예상외로 부진한 성적을 보였다"며 "초반 두 문제에서 0점을 받는 실수를 저질렀고, 후반에는 챗GPT와 유사한 부분에서 감점을 받았다"고 언급했다.
김지혜 기자 kim.jihye6@joongang.co.kr
Copyright © 중앙일보. 무단전재 및 재배포 금지.
- 노무현 경제관, 이재명과 상극…'쿠폰 경제'만 꺼내면 질색했다 | 중앙일보
- 홍상수·김민희 또 일냈다…베를린에서 전해진 놀라운 소식 | 중앙일보
- 7년 살고 70년 그리워했다, 이중섭 부부 '전설의 사랑' | 중앙일보
- "필리핀 여성을 섹스 인형 취급"…생부 DNA 찾는 그들 사연 | 중앙일보
- 서울 빌딩서 여성 2명 추락사…서로 손 묶여 있었다 | 중앙일보
- 초등 여교사가 11세 남제자를…4년 충격 성폭행, 애까지 낳았다 | 중앙일보
- "설날 통장에 5000만원 찍혔다"…전국민 부러움 받은 이 회사 | 중앙일보
- "윤, 22시 KBS 생방송 잡아놨다며 가버려…그건 국무회의 아니었다" | 중앙일보
- 추락 여객기에 한국계 선수 2명 탑승…"軍헬기 비극적 실수" | 중앙일보
- 잇단 항공기 사고에 “무서워서 못 탄다”…저가항공 불안한 시민들 | 중앙일보