화웨이, '전문가 그룹화' AI 학습기술 개발···"딥시크보다 낫다"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
중국 화웨이가 자체 반도체를 활용해 딥시크보다 효율적인 인공지능(AI) 학습 기술을 개발했다고 주장했다.
화웨이 판구팀은 MoE의 경우 각 입력 토큰(AI가 처리하는 입력의 최소 단위)에 대해 활성화되는 매개변수(파라미터)의 비율이 매우 낮아 일반적인 LLM보다 효율성은 뛰어나다면서도 일부 전문가들이 너무 자주 활성화되는 현상은 단점이라고 지적했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
저사양 자체 칩으로도 효율적 AI 훈련 가능

중국 화웨이가 자체 반도체를 활용해 딥시크보다 효율적인 인공지능(AI) 학습 기술을 개발했다고 주장했다.
홍콩 사우스차이나모닝포스트(SCMP)는 5일 이 같이 보도하면서 중국이 미국 기술에 대한 의존을 줄이려는 노력의 일환이라고 평가했다. SCMP에 따르면 화웨이의 대형언어모델(LLM) 개발팀인 판구(Pangu)팀은 지난달 28일 논문 저장 사이트 ‘arXiv’에 ‘판구 프로 MoE’라는 논문을 공개하고 ‘그룹화 전문가 혼합(MoGE)’ 모델을 소개했다. 이는 딥시크가 활용한 ‘전문가 혼합(MoE)’ 모델을 한 단계 더 개선한 모델이다. MoE는 문제 해결에 필요한 최적의 전문가들만 선별해 LLM 학습 방법에 적용한 방식이다. 딥시크는 이를 통해 저사양 칩으로도 효율적으로 AI 모델을 구성했다. 화웨이 판구팀은 MoE의 경우 각 입력 토큰(AI가 처리하는 입력의 최소 단위)에 대해 활성화되는 매개변수(파라미터)의 비율이 매우 낮아 일반적인 LLM보다 효율성은 뛰어나다면서도 일부 전문가들이 너무 자주 활성화되는 현상은 단점이라고 지적했다. 그러면서 자신들이 개발한 MoGE는 전문가 작업의 균형을 잘 잡게 해 MoE의 시스템 비효율성을 해소할 수 있다고 강조했다.
논문에 따르면 MoGE는 사전에 정의된 각 그룹 안에서 동일한 수의 전문가들을 활성화하도록 토큰값을 제약한다. 또 전문가를 겹치지 않는 그룹으로 분할해 특정 컴퓨팅 장치에 각각 할당한다. 화웨이는 또 자사의 신경망처리장치(NPU) 어센드를 활용해 MoGE 기반 희소 모델인 ‘판구 프로(Pro) MoE’를 구축했다고도 밝혔다. 이 모델은 매개변수 총 720억 개 가운데 토큰당 160억 개를 활성화한다. 이 구성은 화웨이의 어센드 300I 듀오, 어센드 800I A2에 최적화됐다.
판구팀은 어센드 NPU가 대규모 병렬화를 통해 판구 프로 MoE를 훈련해 1000억 파라미터(100B) 미만급에서 선도적 모델이 될 수 있다고 평가했다. 즈푸의 GLM-Z1-32B나 알리바바의 Qwen3-32B 등을 앞섰다는 주장이다.
윤경환 기자 ykh22@sedaily.comCopyright © 서울경제. 무단전재 및 재배포 금지.
- 아이유 악플 달고 시치미 떼던 40대…추가 벌금형
- '마트에서 보이면 바로 사야겠네'…심장·대사에 효과 좋다는 '이것', 뭐길래?
- “먹고 싶다” 장원영 한마디에 '품절 대란'…난리 난 '이 음료' 뭐길래?
- '어딜 지금!'…李대통령 앞에서 몸싸움한 경호원들, 무슨 일?
- '매운 음식 너무 많이 먹어서?'…20대 中 여성 인플루언서, '위암'으로 사망
- 속 빈 명품?…디올·티파니 이어 '까르띠에'도 해킹 당했다
- '트럼프랑 같이 살기 싫어' 美 떠나는 미국인들…'이 나라' 몰려갔다
- 네안데르탈인 '정체' 드디어 밝혀지나…인류 최초의 '4만년 전 이것' 발견
- '박사학위 있어야 가능해요'…연봉 3000만원 대학 ‘구내식당’ 채용 조건
- 얇아진 갤럭시 S25엣지, 유명 유튜버가 힘껏 힘주자 '깜짝'