모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증

GPU–텐스토렌트 이종 분산 서빙으로 HBM 비용 절감

[아이뉴스24 윤소진 기자] AI 인프라 솔루션 기업 모레(대표 조강원)는 텐스토렌트의 '갤럭시 웜홀' 시스템에 자사 ‘MoAI 추론 프레임워크’를 적용해 LLM 추론 성능을 성공적으로 입증했다고 4일 밝혔다.

모레는 5월 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에 참여해 '텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론'에 대한 기술적 성과를 소개했다. [사진=모레]

모레는 GPT-OSS, Qwen, GLM, DeepSeek 등 최신 MoE 모델 기준으로 테스트한 결과 텐스토렌트 갤럭시 웜홀 시스템에서 엔비디아 DGX A100급 또는 그 이상의 LLM 추론 성능을 달성했다. 이는 GPU 중심의 기존 AI 인프라를 대체할 수 있는 수준의 성능 경쟁력을 보여주는 결과다.

모레는 GPU와 텐스토렌트 웜홀 칩을 결합한 ‘이종 분산 서빙(Disaggregated Serving)’ 구조를 통해 비용 효율성을 크게 개선했다. 텐스토렌트 칩을 prefill(입력 처리) 전용 가속기로 활용함으로써 고비용 구조의 HBM(고대역폭메모리) 사용을 줄이고 전체 인프라 비용을 절감했다.

모레는 이 같은 성과를 지난 1일(현지 시각) 미국 샌프란시스코에서 열린 텐스토렌트 신제품 발표 행사(TT-Deploy)에서 처음 공개했다.

텐스토렌트의 전략적 파트너이자 TT-메탈리움 플랫폼의 주요 외부 기여자로 이번 행사에 참여한 모레는 데모 부스를 운영하며 AMD GPU를 실제 데이터센터 서비스 환경에 성공적으로 운용해온 경험을 바탕으로 ‘텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론(Production-Ready LLM Inference on Tenstorrent Galaxy)’에 대한 기술적 성과를 소개했다.

모레의 ‘MoAI 추론 프레임워크’는 엔비디아, AMD, 텐스토렌트 등 이종 GPU 및 NPU를 단일 클러스터에서 통합 운용하는 분리 추론 솔루션이다. 이를 통해 기업들은 특정 벤더에 종속되지 않고, 다양한 AI 가속기를 유연하게 활용하는 인프라 전략을 구축할 수 있다.

조강원 모레 대표는 “이번 성과는 텐스토렌트 기반 시스템에서도 실제 서비스 환경에 적용 가능한 수준의 LLM 추론 성능과 안정성을 확보했다는 점에서 의미가 크다”며 “향후 이종 GPU 간 KV 캐시 전송 효율화, EP와 분리 추론의 공동 최적화, 텐스토렌트 NPU 통합 등을 통해 성능 고도화를 추진할 계획”이라고 밝혔다.

/윤소진 기자(sojin@inews24.com)

IT/과학

모레, 텐스토렌트 갤럭시 기반 LLM 추론 성능 입증