엔비디아, NVFP4로 AI 훈련·추론 '속도·효율' 동시 향상
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
엔비디아가 4비트 부동소수점(NVFP4·데이터를 더 작게 계산하는 방식)을 적용해 인공지능(AI) 훈련과 추론 성능을 끌어올렸다.
엔비디아 그래픽처리장치(GPU)용으로 개발된 NVFP4는 엔비디아 블랙웰(Blackwell)부터 도입됐다.
24일 엔비디아에 따르면 글로벌 AI 반도체 벤치마크 대회인 엠엘퍼프(MLPerf) 훈련·추론 비공개 부문에서 NVFP4 기반 성능을 제출했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
[아이뉴스24 권서아 기자] 엔비디아가 4비트 부동소수점(NVFP4·데이터를 더 작게 계산하는 방식)을 적용해 인공지능(AI) 훈련과 추론 성능을 끌어올렸다. 엔비디아 그래픽처리장치(GPU)용으로 개발된 NVFP4는 엔비디아 블랙웰(Blackwell)부터 도입됐다.
24일 엔비디아에 따르면 글로벌 AI 반도체 벤치마크 대회인 엠엘퍼프(MLPerf) 훈련·추론 비공개 부문에서 NVFP4 기반 성능을 제출했다. 모든 거대언어모델(LLM) 테스트 항목에서 정확도 기준을 충족했다는 설명이다.
![NVFP4를 적용했을 때가 FP8 대비 GPU당 토큰 처리량이 가장 높게 나타난 모습. [자료=엔비디아]](https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202602/24/inews24/20260224080543910kcsa.jpg)
블랙웰 울트라 GPU는 NVFP4 기준 최대 15페타플롭스(PF·1PF는 1초에 1000조 번 연산)의 처리량을 제공한다. 이는 기존 8비트 부동소수점(FP8) 방식 대비 최대 3배 높은 수준이다.
테스트에서도 속도 차이가 나타났다. 블랙웰 울트라 GPU 512개를 묶은 'GB300 NVL72' 시스템은 초대형 AI 모델 '라마 3.1 405B'(4050억 개 매개변수)를 64.6분 만에 사전 훈련했다.
이는 이전 세대인 GB200 NVL72 시스템(FP8 적용) 대비 1.9배 빠른 기록이다.
추론 성능도 개선됐다. 6710억 개 매개변수를 가진 대형 모델 '딥시크-R1'에 NVFP4를 적용한 결과, 동일한 조건에서 토큰 처리량이 늘고 응답 지연이 줄었다.
딥시크-R1과 라마 3.1 8B·405B, 라마 2 70B 등에서도 기준선 수준의 성능을 유지했다는 설명이다.
엔비디아는 차세대 GPU '루빈'도 예고했다. 루빈은 NVFP4 기준 훈련 성능을 현재 블랙웰 대비 3.5배, 추론 성능은 5배 높이는 것을 목표로 한다.
/권서아 기자(seoahkwon@inews24.com)Copyright © 아이뉴스24. 무단전재 및 재배포 금지.
- '강북 모텔 연쇄 살인' 20대 여성 미화?…"키 170 미인, 나 같아도 음료 마셔"
- 트럼프 국정 지지율 39%⋯관세·물가·이민까지 줄줄이 '빨간불'
- 정청래, 李 대통령 팬카페 '재명이네 마을' 강퇴 당해⋯"당내 갈등 유발"
- 의붓딸 음란채팅 목격한 계부, 훈육은커녕…"돈벌이 되겠는데?"
- 김정관 "반도체는 미국 15% 글로벌 관세 대상 아냐"
- 건물 옥상서 에어컨 실외기 행인에게 던진 30대⋯"그냥 화가 나서"
- "추워서 낙엽에 불 피워"⋯단양 산불 80대 용의자 긴급체포
- 태진아 고발에 당황한 전한길 "이재용도 불참⋯공연서 정치색 따져야 하나"
- 이재명 지지율, 4주 연속 상승한 58.2%⋯"역대급 증시호황" [리얼미터]
- "전혀 새로운 아메리카노"⋯스타벅스, '에어로카노' 내놨다