"엔비디아 B300과 대등" AMD MI355X, AI 추론 벤치마크서 압도적 성능 과시

MLPerf 6.0서 '인스팅트 MI355X'로 초당 100만 토큰 돌파

[디지털데일리 김문기기자] AMD가 최신 AI 추론 벤치마크인 'MLPerf 6.0'에서 차세대 GPU '인스팅트(Instinct) MI355X'를 통해 초당 100만 토큰 처리 장벽을 돌파하며 기술력을 입증했다고 1일(현지시간) 밝혔다.

AMD는 이번 벤치마크에서 3nm 공정 및 CDNA 4 아키텍처 기반의 '인스팅트 MI355X' GPU를 투입했다. 이 제품은 288GB의 HBM3E 메모리와 FP4/FP6 데이터 타입을 지원하며, 단일 GPU에서 최대 5200억 개의 파라미터 모델을 수용할 수 있도록 설계됐다.

가장 주목받은 성과는 대규모 클러스터에서의 처리 속도다. 11개 노드(MI355X GPU 87개)를 연결한 환경에서 '라마 2 70B' 모델 기준 초당 104만 2110토큰(오프라인 기준)을 기록, 사상 처음으로 100만 토큰 고지를 넘어섰다. 특히 다중 노드 확장 효율성에서 93~98%라는 선형에 가까운 성능 향상을 보여주며 대규모 AI 팩토리 구축 역량을 증명했다.

단일 노드 성능에서도 엔비디아의 최신 '블랙웰(Blackwell)' 시리즈와 대등한 결과를 냈다. 라마 2 70B 벤치마크에서 MI355X 플랫폼은 엔비디아 B200 대비 인터랙티브(Interactive) 모드에서 119%의 성능을 기록했으며, B300과 비교해도 서버 및 오프라인 테스트에서 92~93% 수준의 높은 경쟁력을 유지했다.

신규 워크로드 대응력도 강화됐다. 처음 도입된 'GPT-OSS-120B' 모델에서 엔비디아 B200 대비 최대 115% 높은 성능을 기록했다. 텍스트-투-비디오 모델인 'Wan-2.2-t2v'에서도 B300의 87~100% 수준 성능을 일주일 만에 구현해냈다. 이는 AMD의 소프트웨어 스택인 'ROCm'이 최신 생성형 AI 모델에 기민하게 대응하고 있음을 시사한다.

또한 델, 망고부스트와 협력해 서로 다른 세대의 GPU(MI300X, MI325X, MI355X)를 혼합 사용하면서도 지리적으로 떨어진 시스템을 오케스트레이션하는 '이기종 추론' 기술도 업계 최초로 선보였다.

리사 수 AMD 최고경영자(CEO)는 "이번 결과는 단순한 수치를 넘어 하드웨어와 ROCm 소프트웨어가 결합된 풀스택의 승리"라며 "매년 신제품을 출시하는 연간 로드맵에 따라 2026년 CDNA 5 아키텍처 기반의 MI400 시리즈와 랙 스케일 솔루션인 '헬리오스(Helios)'를 통해 AI 인프라 시장의 정의를 새로 쓸 것"이라고 강조했다.

IT/과학

"엔비디아 B300과 대등" AMD MI355X, AI 추론 벤치마크서 압도적 성능 과시