모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

윤소진 2026. 5. 4. 09:58
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

AI 인프라 솔루션 기업 모레(대표 조강원)는 텐스토렌트의 '갤럭시 웜홀' 시스템에 자사 'MoAI 추론 프레임워크'를 적용해 LLM 추론 성능을 성공적으로 입증했다고 4일 밝혔다.

모레는 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE 모델 기준으로 테스트한 결과 텐스토렌트 갤럭시 웜홀 시스템에서 엔비디아 DGX A100급 또는 그 이상의 LLM 추론 성능을 달성했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

GPU–텐스토렌트 이종 분산 서빙으로 HBM 비용 절감

[아이뉴스24 윤소진 기자] AI 인프라 솔루션 기업 모레(대표 조강원)는 텐스토렌트의 '갤럭시 웜홀' 시스템에 자사 ‘MoAI 추론 프레임워크’를 적용해 LLM 추론 성능을 성공적으로 입증했다고 4일 밝혔다.

모레는 5월 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에 참여해 '텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론'에 대한 기술적 성과를 소개했다. [사진=모레]

모레는 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE 모델 기준으로 테스트한 결과 텐스토렌트 갤럭시 웜홀 시스템에서 엔비디아 DGX A100급 또는 그 이상의 LLM 추론 성능을 달성했다. 이는 GPU 중심의 기존 AI 인프라를 대체할 수 있는 수준의 성능 경쟁력을 보여주는 결과다.

모레는 GPU와 텐스토렌트 웜홀 칩을 결합한 ‘이종 분산 서빙(Disaggregated Serving)’ 구조를 통해 비용 효율성을 크게 개선했다. 텐스토렌트 칩을 prefill(입력 처리) 전용 가속기로 활용함으로써 고비용 구조의 HBM(고대역폭메모리) 사용을 줄이고 전체 인프라 비용을 절감했다.

모레는 이 같은 성과를 지난 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에서 처음 공개했다.

텐스토렌트의 전략적 파트너이자 TT-메탈리움 플랫폼의 주요 외부 기여자로 이번 행사에 참여한 모레는 데모 부스를 운영하며 AMD GPU를 실제 데이터센터 서비스 환경에 성공적으로 운용해온 경험을 바탕으로 ‘텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론(Production-Ready LLM Inference on Tenstorrent Galaxy)’에 대한 기술적 성과를 소개했다.

모레의 ‘MoAI 추론 프레임워크’는 엔비디아, AMD, 텐스토렌트 등 이종 GPU 및 NPU를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션이다. 이를 통해 기업들은 특정 벤더에 종속되지 않고, 다양한 AI 가속기를 유연하게 활용하는 인프라 전략을 구축할 수 있다.

조강원 모레 대표는 “이번 성과는 텐스토렌트 기반 시스템에서도 실제 서비스 환경에 적용 가능한 수준의 LLM 추론 성능과 안정성을 확보했다는 점에서 의미가 크다”며 “향후 이종 GPU 간 KV 캐시 전송 효율화, EP와 분리 추론의 공동 최적화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획”이라고 밝혔다.

/윤소진 기자(sojin@inews24.com)

Copyright © 아이뉴스24. 무단전재 및 재배포 금지.