딥시크, 챗GPT보다 소아과 진단 능력 떨어져

중국 스타트업 '딥시크'의 대형언어모델(LLM)이 소아청소년과 의사들을 위한 진료 조언에서 미국 오픈AI의 대표 LLM인 챗GPT보다 낮은 정확도를 보였다는 연구 결과가 나왔다.
딥시크는 저비용으로 세계 최고 수준의 성능을 구현해 화제가 되고 있다. 하지만 정작 '강점 분야'에서는 힘을 쓰지 못한 결과가 나와 주목 받고 있다. 국내 전문가들은 딥시크 모델이 챗GPT를 능가하기 위해선 앞으로 더 많은 데이터를 학습해야 할 수도 있다고 분석했다.
지안루카 몬딜로 이탈리아 캄파니아대 소아외과 전공의는 오픈AI와 딥시크의 최신 모델을 사용해 소아과 의료 현장에서 임상 조언을 구한 결과 오픈AI의 챗GPT 모델이 딥시크 모델보다 우수한 정확도를 보였다는 논문을 바이오 분야 사전논문공개 사이트 '바이오 아카이브'에 29일(현지시간) 공개했다.
실험에는 최신 모델인 오픈AI의 '챗GPT-o1'과 딥시크의 '딥시크-R1'이 사용됐다. 두 모델에는 소아과 진료 현장에서 일어날 수 있는 500개의 임상 사례가 제시됐고 5개 선택지 중 가장 적절한 진단이나 처치를 선택하도록 했다. 그 결과 챗GPT 모델은 92.8%의 진단 정확도를 기록하며 딥시크 모델의 정확도 87.0%를 크게 앞섰다.
두 모델이 내린 진단의 일치도는 매우 낮았다. 연구팀은 "두 모델이 서로 다른 방식으로 의사 결정을 수행한 결과"라고 설명했다.
의료행위에 대한 조언은 딥시크 모델이 장점을 발휘할 수 있는 분야다. 딥시크-R1은 데이터의 양과 질에 따라 성능이 결정되는 강화학습(딥러닝) 기법을 사용한다. 의료는 전문가와 대형의료기관이 생산한 정제된 데이터가 풍부한 대표적인 분야다. 기존 데이터의 신뢰도가 높은 만큼 실제 의료 현장에서도 여러 LLM 중 딥러닝 기법의 모델을 가장 선호하는 것으로 알려졌다.
반면 챗GPT-o1은 인공지능(AI)의 자체적인 추론 능력이 중요한 생각의 사슬(Chain of Thought ·CoT) 기법을 사용한다. 복잡한 문제를 여러 단계로 나눠서 풀이하는 방식이다. 각 단계별로 정답이 도출된 이유를 설명해 정확도를 높인다. LLM 기법 중 현재 가장 발전한 기술로 여겨지지만 딥러닝 기법에 비해 연구 개발이 본격화된 시기가 늦다.
전문가들은 이번 연구 결과가 단순한 두 모델의 성능 차이에서 비롯됐을 수 있다고 설명했다. 고성민 딥노이드 의료R&D 본부장은 "일반적으로 의료 분야는 딥러닝이 학습하기 좋은 환경으로 여겨진다"며 "만일 딥시크와 같은 딥러닝 기법 LLM이 더 많은 데이터를 학습한다면 현재 챗GPT의 CoT 모델보다 높은 정확도를 보일 수 있다고 본다"고 말했다.
업계에선 딥러닝과 CoT 기법 중 어느 쪽이 차세대 LLM의 선두 주자 자리를 차지할지 관심이다. 챗GPT-o1과 딥시크-R1은 서로 다른 기법을 사용하지만 기존 모델보다 획기적으로 개발 비용을 낮추는 것을 목표로 한다는 공통점이 있다.
딥시크-R1은 딥러닝 기법에 오픈소스 모델을 도입해 개발 비용을 대폭 줄였다. 기업에 전속 전문 인력을 고용해야 하는 폐쇄형 모델과 달리 여러 연구자, 개발자, 기업이 개발에 참여한다. 새 모델을 계속 만드는 대신 기존에 공개된 알고리즘, 데이터, 코드를 개선하는 방식으로 연구개발시간과 비용을 아낀다.
또 독립적인 네트워크가 각각 특정 작업이나 데이터 패턴에 특화한 훈련을 실시하는 '혼합 전문가(MoE) 모델' 설계 방식을 사용한다. 어떤 네트워크에 훈련 과제를 연결할지 판단하고 실행하는 게이팅 네트워크 기술이 설계 방식을 구현하는 데 핵심역할을 한다. MoE 모델 설계 방식은 필요한 전문가 네트워크만 사용하면서 훈련과 추론에 필요한 계산량을 크게 줄인다. 이를 통해 고가의 그래픽처리장치(GPU) 없이도 높은 성능을 구현한다.
챗GPT-o1이 사용하는 CoT 기법은 정답이 아닌 추론 과정을 학습하는 방식이다. 양질의 방대한 정답 데이터 없이도 성능을 높이기 위한 훈련이 가능하다. 도출한 정답의 정확도를 확인하는 작업도 딥러닝 기법보다 사람의 손길이 덜 필요하다. 학습에 필요한 데이터와 GPU를 확보하는 데 필요한 비용과 인건비를 줄여 개발 비용을 절감할 수 있다.
차세대 LLM은 두 모델의 장점만을 취하는 방식으로 발전할 수 있다는 전망이 나온다. 이번 연구를 발표한 몬딜로 전공의는 "두 모델을 결합해 상호 보완하면 더욱 효과적인 임상 의사 결정 지원이 가능할 것"이라고 말했다.
<참고 자료>
- doi.org/10.1101/2025.01.27.25321169
[박정연 기자 hesse@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.