'딥시크'보다 싸게?…국내서도 게임용 칩으로 104배 빠른 AI 기술

중국 AI(인공지능) 스타트업 딥시크가 저사양 AI반도체로 학습한 이른바 '고성능·저비용 AI'를 공개한 가운데 국내에서는 이미 지난해 딥시크가 사용한 H800보다 저렴한 '게임용 GPU(그래픽처리장치)'로 AI를 학습한 사례가 있어 뒤늦게 주목받고 있다. 딥시크 AI의 개발비용을 낮춘 핵심기술인 'MoE'(Mixture of Expert)도 국내에서 구현됐다.

딥시크가 공개한 'R1'이 화제가 된 것은 엔비디아의 저사양 GPU인 H800을 써서다. 개당 6000만원을 호가하는 고사양 GPU H100으로 훈련한 '챗GPT'와 달리 H100과 비교해 성능은 30% 떨어지지만 가격은 수천만 원이 저렴한 H800을 활용, 고성능 AI 개발에 성공했기 때문이다. 그런데 한동수 KAIST 전기및전자공학부 교수 연구팀이 지난해 9월 공개한 분산학습 프레임워크 '스텔라트레인'(Stella Train)은 H800보다 저렴한 100만~300만원대 저가 GPU를 활용했다. 동네 PC방에서 사용하는 게임용 GPU인 엔비디아의 'RTX'다. 프레임워크는 AI제작에 필요한 도구를 모아둔 일종의 'AI 생성 틀'이다.

연구팀은 RTX 10개와 CPU(중앙처리장치)를 병렬로 연결해 학습속도를 높였다. 고속 네트워크 없이도 학습할 수 있도록 네트워크 속도에 맞춰 데이터를 압축·전송하는 알고리즘을 적용했다. 그 결과 같은 RTX를 사용하는 메타의 AI 프레임워크 '파이토치'보다 학습성능을 104배 높였다. 파이토치는 전세계에서 가장 많이 사용되는 개방형 AI 프레임워크다. RTX보다 성능이 약 2배 높은 H100과 비교하면 값싼 GPU만으로 성능을 52배까지 높인 셈이다. 이같은 성능을 내려면 기존엔 수억 원에 이르는 H100 여러 대와 이를 연결하기 위한 초당 400Gb(기가비트)급 고속 네트워크가 필요했다.

연구팀은 딥시크의 핵심기술인 'MoE' 모델을 학습할 수 있는 프레임워크 'ES-MoE'도 개발했다. '전문가 기반 혼합형'이라는 뜻의 MoE는 특정 작업에 특화된 여러 LLM(거대언어모델)을 한데 모은 뒤 작업종류에 따라 필요한 LLM만 활성화하는 기술이다. 메모리 사용량을 훨씬 줄이면서 작업속도도 높일 수 있다.

딥시크발 '충격'이 발생하기 전이어서 한 교수의 연구는 당시 크게 주목받지 못했다. 한 교수는 "앞서나가는 빅테크(대형 IT기업)가 비싼 GPU를 쓰는 데는 그만한 이유가 있을 것이란 시각이 대부분이었고 저가 GPU 활용기술은 거의 실현 불가능한 것으로 여겼다"고 했다. 그는 "오픈AI는 LLM 크기를 키울수록 AI 정확도가 높아진다는 사실을 확인했고 이 때문에 전세계 빅테크가 LLM 크기를 늘리는 데 집중했다. 고성능 GPU를 더 많이 쌓아두는 게 '대세'가 된 이유"라고 했다. 한 교수는 "하지만 AI시장도 스마트폰시장처럼 결국엔 '누가 더 좋은 반도체를 쓰느냐'보다 '누가 더 저렴한 AI를 공급하느냐'의 경쟁으로 이어질 것"이라며 "저가형 GPU를 사용한 딥시크의 등장이 그 신호탄"이라고 했다.

한 교수 연구팀은 앞으로도 누구나 활용할 수 있는 '저비용 AI' 연구를 이어나갈 계획이다. 대학 등의 연구기관은 수억 원의 GPU를 연구용으로 수급하기 어렵기 때문이다. 한 교수는 "가용자원이 적은 연구자도 AI를 활용할 수 있도록 인프라를 구축하는 게 목표"라고 했다.

박건희 기자 wissen@mt.co.kr

머니투데이

IT/과학

'딥시크'보다 싸게?…국내서도 게임용 칩으로 104배 빠른 AI 기술