80억 들었다는 中 AI, 연산·추론서 1400억짜리 GPT 추월

최인준 기자 2025. 1. 31. 00:59
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

5Q로 본 중국 AI ‘딥시크’

중국 인공지능(AI) 스타트업 딥시크는 연구 인력이 139명으로 미국 오픈AI(1200명)의 9분의 1 수준이다. AI 개발 비용도 빅테크 대비 10분의 1에 불과하다. 이 기업이 어떻게 최고 수준의 생성형 AI 모델을 개발했을까? 딥시크는 AI 성능을 비교할 때 흔히 국제적으로 통용되는 벤치마크(성능 평가 기준) 평가에서 영어·수학·코딩 등 총 21분야 중 수학·상식·추론·정보추출 등 12개 항목에서 오픈AI·구글의 AI 모델을 앞섰다. 테크 업계에선 딥시크의 개발 방식과 기술에 대한 검증 작업이 진행 중이다. 오픈AI와 마이크로소프트(MS)는 데이터 도용 의혹을 제기하며 진상 조사에 착수했다. 딥시크를 둘러싼 궁금증을 문답으로 풀어봤다.

그래픽=백형선

Q1. 딥시크의 AI 모델은 뭔가? 한국어 등 52개 언어로 응답

챗GPT처럼 질문하면 텍스트로 답해주는 무료 AI 챗봇(대화형) 서비스다. 영어·중국어·한국어를 포함, 52개 언어를 지원한다. 지난해 11월 R1의 초기 버전인 ‘R1 라이트(Lite)’, 12월엔 ‘V3’, 지난 20일에 최신 모델인 R1을 내놨다. 빅테크 개발비의 10분의 1은 정확히 말하면 ‘V3’를 기준으로 한 것이다. ‘R1’의 개발비는 미공개다.

Q2. 미국에서 난리가 난 이유는? 저가 칩으로 고성능 AI 개발

지난해 나온 딥시크 모델도 ‘가성비가 좋다’는 평가를 받긴 했다. 이번에 나온 ‘R1’은 성능도 빅테크에 못지않다는 게 확인됐다. 고사양 AI칩이 없어도 AI 모델 개발이 가능하다는 게 증명됐다. 엔비디아 고성능 칩 판매에 악재가 될 수 있다. 딥시크 같은 경쟁자가 계속 나올수록, AI 개발에 천문학적 돈을 투입한 구글·메타 같은 빅테크는 앞으로 수익을 장담하기 어렵다. 반면 가성비 높은 AI 모델이 나오면 AI 생태계가 확장돼, 결국 엔비디아 등 빅테크의 실적이 좋아질 것이라고 보는 견해도 있다.

Q3. 적은 돈으로 어떻게 만들었나? 질문 따라 맞춤 데이터 활용

딥시크는 자신의 학습 데이터를 여러 전문 영역으로 구분해 나눠 두고, 질문이 들어오면 해당 특정 영역만 활성화해 답한다. 이른바 ‘전문가 혼합(MoE·Mixture of Experts)’ 모델이다. 예컨대 회사에서 특정 과제가 주어졌을 때 모든 직원을 일에 투입하는 대신 해당 분야에 전문성을 가진 직원만 일하도록 해 효율적으로 업무를 끝내는 것이다. 반면 기존 빅테크의 AI 모델은 모든 영역을 활성화해 답을 내놓는다. R1의 이전 모델인 V3는 데이터 학습 때 전체 6710억개 매개변수(AI가 학습 시 데이터를 서로 연결하는 규모) 중 5%만 활용한다. 이렇게 딥시크는 컴퓨터 사용 비용과 칩 사용량을 크게 줄였다. 일부에선 딥시크가 자국 기업 화웨이의 AI칩을 사용했을 것이라는 추측을 내놓기도 한다.

Q4. 美기업은 관련 기술 없나? 효율보다 인간 수준 AI 목표

물론 있다. 오픈AI 등도 ‘전문가 혼합’ 방식을 이용하는 것으로 알려져 있다. 다만 딥시크가 ‘전문가 혼합’ 방식에 주력하다 보니, 그 수준이 더 높다는 게 전문가들의 분석이다. 그렇다고 미 빅테크들의 개발 전략이 수정될 가능성은 높지 않다. 딥시크는 추론과 수학 계산 등 특정 기능을 구현하는 데는 효과가 있지만, 다양한 영역에 걸친 복잡한 질문에는 약점이 있다는 평가다. 또 미 빅테크는 궁극적으로 인간 수준의 범용인공지능(AGI) 개발을 목표로 한다. 이를 위해선 여러 영역을 동시에 활용하는 능력이 필요하기 때문에 ‘전문가 혼합’ 방식으론 한계가 있다는 게 전문가 의견이다. 다만 무료로 쓰는 AI 서비스나 소액의 구독료를 받는 AI 모델은 점차 개발 효율성을 추구하는 방향으로 나아갈 것으로 보인다.

Q5. 딥시크 발표, 신뢰할 수 있나? 저비용 고성능에 잇단 의문

몇 가지 의혹이 나온다. 먼저 비용이다. 딥시크는 지난달 공개한 AI 모델 V3 개발에 557만6000달러(약 80억원)가 들었다고 밝혔다. 이 비용 대부분은 AI 학습에 들어간 엔비디아의 저가형 AI 반도체 비용이다. 초기 AI 모델 개발 비용 등 기초 연구비는 포함되지 않았다. 딥시크가 오픈AI의 데이터를 무단 도용해 AI를 개발했다는 의혹도 있다. 빅테크들은 전 세계에서 끌어모은 데이터를 AI 모델 학습에 적합하도록 가공하는 데 많은 시간과 비용을 투자한다. 딥시크가 이렇게 잘 가공된 데이터를 몰래 가져다 썼을 것이라는 의혹이다. 오픈AI 측은 “지난해 딥시크와 관련된 것으로 추정되는 사람들이 자사 AI 서비스를 이용하면서 대량의 데이터를 빼돌린 것을 확인했다”고 했다. 전 세계에서 ‘딥시크의 답변 내용이 마치 오픈AI의 챗GPT 같다’는 이용자 후기도 올라오고 있다. 미 실리콘밸리에서는 딥시크가 사실 엔비디아의 고사양 AI칩을 5만장 보유하고 있다는 주장도 나온다. 하지만 딥시크의 성능 자체에 의문을 제기하는 목소리는 거의 없다. 딥시크는 ‘R1’에 쓰인 코드를 일반에 공개(오픈 소스)해, 누구나 검증 가능하도록 했다.

☞전문가 혼합(Mixture of Experts)

생성형 AI 성능을 높이는 머신 러닝(기계 학습) 기술의 일종. 일반적으로 주어진 질문에 답을 하기 위해선 AI 모델 전체가 동원된다. 반면 ‘전문가 혼합’은 AI를 분야별로 나눠 훈련시키고, 질문이 입력되면 적합한 특정 AI만 활성화시켜 업무를 처리한다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?