[리뷰] 이름은 독특해도 성능은 확실하다, AMD 라데온 RX 7900 GRE

[IT동아 강형석 기자] 데스크톱 그래픽카드 시장의 화두는 단연 ‘게이밍(Gaming)’과 ‘인공지능(AI)’이다. 가정 내에서 게임을 즐기는 것 외에도 인공지능 관련 기능을 경험할 수 있게 되면서 떠오른 단어다. 특히 인공지능 관련 기능은 단순히 코딩을 하고 전문 연산을 수행하는 수준이 아니라 자연스레 우리 일상 속에 뿌리내리는 중이다. 동영상 화질을 개선해 준다거나 게임을 더 쾌적하게 즐길 수 있도록 도와주는 작업 등이 대표적인 사례다.

이런 부분에서 사실 AMD는 두각을 드러내지 못한 것이 사실이다. 그러나 다양한 지원과 노력을 앞세워 차이를 극복해 나가는 중이다. 게이밍에서는 FSR 3.0을 시작으로 인공지능 분야에서는 ROCm, 다이렉트-머신러닝(ML), 모자익-머신러닝(ML) 등을 지원하며 착실히 준비하는 모습이다. 개선은 더 필요하지만, 시간이 해결해 줄 부분이다.

제품군도 충실히 채워지고 있다. RX 7900 XTX와 XT에 머물러 있던 것에서 현재는 입문형이라 할 수 있는 RX 7600부터 중상급인 RX 7800 XT까지 선택 가능하다. 다만 상급 제품과 중상급 사이의 격차가 다소 큰 편이었다. 실제로 RX 7900 XTX는 스트림 프로세서 수가 6,144개에 달하지만, RX 7900 XT는 5,376개, RX 7800 XT는 3,840개로 급격히 낮아진다. 이 사이의 간극을 메워줄 그래픽카드의 존재가 필요한 셈이다.

엔비디아는 이를 성공적으로 마무리한 사례다. 지포스 RTX 4080, 4070 Ti, 4070에 각각 슈퍼(Super) 제품군을 추가하면서 촘촘한 선택지를 구성했다. AMD 또한 이에 대응하기 위해서는 적절한 제품을 배치할 필요가 있다. 그 그래픽카드가 바로 라데온 RX 7900 GRE다.

RX 7900 XT와 RX 7800 XT 사이 그 어딘가

라데온 RX 7900 GRE, 그동안 XT 혹은 XTX라는 이름을 사용한 라데온에게 생소한 이름이다. GRE는 Golden Rabbit Edition의 줄임말이라고 알려져 있다. ‘황금토끼 특별판’ 정도로 보면 된다. 올해는 용의 해라면 토끼는 지난 2023년을 의미한다. 이를 통해 완전히 새로 설계된 그래픽카드는 아님을 알 수 있다.

실제 그래픽 프로세서도 RDNA 3 설계를 따른다. 코드명 나비(Navi) 31로 5 nm(나노미터) 공정의 그래픽 코어(GCD)와 6nm 공정의 메모리 캐시(MCD)를 구성해 만들었다. 이른바 칩렛(Chiplet) 설계다. 스트림 프로세서의 수는 5,120개로 컴퓨팅 유닛 80개가 된다. 추가로 광선 가속 유닛 80개, 인공지능 가속기 160개 등이 게이밍 및 인공지능 가속에 힘을 보탠다.

AMD 라데온 RX 7900 GRE는 RX 7900 XT와 RX 7800 XT 사이의 간극을 메우는데 초점이 맞춰져 있다. / 출처=IT동아

기본 작동속도는 1,270 MHz(메가헤르츠), 최대 2,245MHz까지 상승한다. 별개로 게이밍 작동속도는 1,880MHz로 맞춰진다. 이 수치는 모두 라데온 RX 7900 XTX(1,900~2500MHz / 2,300MHz)와 7900 XT(1,500~2400MHz / 2,000MHz) 대비 낮다.

메모리 구성과 속도도 상위 제품 대비 조정이 이뤄졌다. 메모리 구성은 384비트(RX 7900 XTX)와 320비트(RX 7900 XT)에서 256비트가 되었다. 용량은 16GB로 여느 그래픽카드와 다를 바 없는 수치인데 24GB, 20GB 구성에 비하면 아쉬움이 느껴진다. 물론, 지포스 RTX 4070 계열 그래픽카드가 192비트 구성과 12GB 용량을 제공하는 것과 비교하면 충분히 경쟁 가능한 부분이다. 속도는 2,250MHz(18Gbps) 사양이다.

정리하자면 라데온 RX 7900 GRE는 중급기와 상급기 사이의 간극을 메워주는 역할에 충실하다. 과거 이런 경우에는 제품 성향이 극단적으로 드러났다. 하극상을 벌일 정도의 굉장한 물건이 되거나 기억 속에서 잊히는 물건이 되는 식이다. 최근에는 전략적인 목적으로 부족한 제품군의 간극을 메우거나 경쟁을 위해 배치되는 일이 많다. 따라서 성능이나 가격적인 부분을 철저히 고려해 사양이 정해진다.

RX 7900 이름 아깝지 않은 쾌적한 게이밍 성능

이제야 인공지능 연산에 대한 그래픽 프로세서의 중요성이 대두되고 있지만, 게이밍 성능에 대한 기대감도 지울 수 없다. 라데온 RX 7900 GRE의 게이밍 성능은 어느 정도일까? XT까지는 아니더라도 7900이라는 숫자를 달고 있기 때문에 기대가 되는 부분이다. 성능 측정은 AMD 라이젠 9 7950X 기반 PC 시스템에서 진행됐다.

AMD 라데온 RX 7900 GRE의 3D마크 파이어 스트라이크 익스트림 측정 결과. / 출처=IT동아

먼저 3D마크 파이어 스트라이크 익스트림 성능 측정 결과를 살펴보자. 그래픽 항목에서 2만 7,991점을 기록했다. 세부 내용을 보면 종합 테스트에서 초당 64.27 프레임을 기록한 것을 포함해 그래픽 측정 항목 2개 모두 104~146 프레임 사이를 기록했다. 최신 명령어는 아니지만, 4K 해상도 구동에 초점을 두고 성능 측정이 이뤄지기 때문에 높은 프레임을 구현한 점은 인상적이다.

AMD 라데온 RX 7900 GRE의 3D마크 타임 스파이 익스트림 측정 결과. / 출처=IT동아

3D마크 타임 스파이 성능 측정 결과는 그래픽 기준으로 2만 2,038점이다. 두 가지 그래픽 처리 성능 측정 항목에서 125~144 프레임을 기록했다. 이 테스트는 광원추적까지는 아니더라도 비교적 최신 그래픽 처리 명령어를 사용한다. 4K까지는 무리더라도 풀HD 혹은 QHD(2,560 x 1,440) 수준의 해상도 아래에서는 쾌적한 게이밍 경험이 가능할 것으로 예상된다.

AMD 라데온 RX 7900 GRE로 사이버펑크 2077(레이 트레이싱 : 울트라 설정)을 구동한 결과 80.39 프레임을 기록했다. / 출처=IT동아

게임 성능을 측정하기 위해 사이버펑크 2077을 실행했다. 해상도는 풀HD(1,920 x 1,080)에 게임 내 그래픽 설정은 레이 트레이싱 : 울트라를 일괄 적용했다. 라데온 RX 7900 GRE 기본 기능을 경험하기 자동 설정되는 항목 외에는 수정을 가하지 않았다. 내부 성능 측정(벤치마크)을 실행해 본 결과 평균 80.39 프레임을 기록했다. QHD 해상도 내에서는 초당 60 프레임 전후를 기록할 것으로 예상된다.

AMD 그래픽 드라이버 내에 있는 성능 향상 기능을 활용하면 조금 더 쾌적한 게이밍 경험이 가능하다. 실제 기능을 사용하니 같은 설정의 사이버펑크 2077에서 초당 4프레임이 향상됐다. / 출처=IT동아

다음으로 AMD의 지능형 기술을 활성화한 결과를 보자. AMD 그래픽카드 드라이버 내에는 성능과 품질을 높일 수 있는 설정들이 제공된다. 그중 HYPR-RX는 라데온 고해상도(RSR)부터 프레임 보정(FSR) 등을 일괄 적용하거나 부분 적용하는 등의 편의성을 갖췄다. 기본 설정을 통해 최정 성능이 어느 정도 향상되는지 확인했다.

동일한 설정의 사이버펑크 2077에서 확인해 보니 평균 84.01 프레임을 기록했다. 고사양 광원처리 효과와 더불어 그래픽 품질까지 최고인 상태에서 조금 더 쾌적한 게이밍 경험이 가능한 점이 인상적이다. 해상도가 높다면 이 같은 기능이 도움이 된다. 이질감이 들 때도 있지만, 순간 지나가기 때문에 익숙해지면 큰 문제없을 듯하다.

상급 제품 대비 부족함 느껴지지 않는 인공지능 성능

라데온 RX 7900 GRE의 인공지능 처리 성능은 어느 정도일까? UL Solutions(유엘 솔루션즈)의 성능 측정 소프트웨어인 Procyon(프로키온)을 활용해 실력을 확인해 봤다. 다양한 측정 목록 중 인공지능 추론(AI Inference benchmark for Windows)을 선택했다. 성능은 각 환경에 따라 다를 수 있다는 점 알려둔다. 해당 테스트는 반정밀도(FP16), 단정밀도(FP32), 정수(Integer) 항목이 있으므로 각각 진행한 결과를 살펴볼 것이다.

인공지능 추론 측정은 총 6가지로 이뤄져 있다. MobileNet(모바일넷) V3는 모바일 장치에 맞는 간단한 테스트로 이뤄진다. 이미지를 판별하는 과정이 주를 이룬다. RasNet(라즈넷) 50은 심층 훈련망 훈련을 바탕으로 이미지를 추론하는 것을 확인한다. 인셉션(Inception) V4는 조금 더 큰 이미지 분류를 위한 작업에 맞춰져 있다. DeepLab(딥랩) V3는 동일한 객체군에 속하는 이미지 픽셀을 병렬 연결하는데 소요되는 시간을 본다. YOLO(욜로) V3는 이미지 속 객체의 위치를 얼마나 빨리 찾는지를 판단하며 Real-ESRGAN은 업스케일링 합성 데이터 처리가 얼마나 빨리 이뤄지는지를 확인한다.

UL 프로키온 인공지능 추론 테스트(반정밀도) 결과를 쉽게 볼 수 있도록 정리한 것. 좌측이 라데온 RX 7900 XTX, 우측이 RX 7900 GRE의 결과값이다. / 출처=IT동아

먼저 라데온 RX 7900 XTX의 성능을 측정했다. 반정밀도(Half-Precision)라 부르는 FP16 항목을 선택해 진행했다. 그 결과 MobileNet V3 항목은 평균 0.6ms(추론 수 18만 9,346)가 소요됐다. RasNet 50 항목은 1.2ms(추론 수 12만 9,362), Inception V4는 6.82ms(추론 수 2만 2,696), DeepLab V3는 11.84ms(추론 수 1만 1,710), YOLO V3는 4.58ms(추론 수 2만 7,708), Real-ESRGAN 항목에서는 45.99ms(추론 수 3,867)를 기록했다.

이제 RX 7900 GRE의 성능을 확인해 볼 차례다. MobileNet V3 항목은 평균 0.56ms(추론 수 19만 6,901)로 근소하게 빠른 처리 능력을 보여준다. RasNet 50 항목은 1.35ms(추론 수 11만 6,054), Inception V4는 6.92ms(추론 수 2만 1,918)로 약간 뒤처졌으나 DeepLab V3는 9.59ms(추론 수 1만 3,451), YOLO V3는 4.41ms(추론 수 2만 6,745)로 다시 앞서기도 했다. Real-ESRGAN 항목에서는 59.22ms(추론 수 3,015)를 기록했다.

UL 프로키온 인공지능 추론 테스트(단정밀도) 결과를 쉽게 볼 수 있도록 정리한 것. 좌측이 라데온 RX 7900 XTX, 우측이 RX 7900 GRE의 결과값이다. / 출처=IT동아

단정밀도(Single-Precision) 측정 항목에서는 어떤 결과가 나왔을까? MobileNet V3 항목에서는 평균 0.53ms(추론 수 22만 4,934)가 소요된 것을 시작으로 RasNet 50 항목은 1.78ms(추론 수 9만 263)에 작업을 마쳤다. Inception V4는 6.38ms(추론 수 2만 4,100), DeepLab V3는 9.77ms(추론 수 1만 3,461), YOLO V3는 4.48ms(추론 수 2만 8,023), Real-ESRGAN 항목에서는 69.3ms(추론 수 2,580)를 각각 기록했다.

라데온 RX 7900 GRE는 어느 정도 성능인지 살펴보자. MobileNet V3 항목은 평균 0.46ms(추론 수 27만 7,337)로 소폭 약간 좋은 모습을 보여줬다. 이어 RasNet 50 항목 1.83ms(추론 수 8만 8,519), Inception V4는 6.74ms(추론 수 2만 2,402)이라는 수치가 나왔다. DeepLab V3는 8.52ms(추론 수 1만 4,885), YOLO V3 5.51ms(추론 수 2만 2,922), Real-ESRGAN 항목에서는 96.91ms(추론 수 1.848)를 기록했다.

UL 프로키온 인공지능 추론 테스트(정수) 결과를 쉽게 볼 수 있도록 정리한 것. 좌측이 라데온 RX 7900 XTX, 우측이 RX 7900 GRE의 결과값이다. / 출처=IT동아

정수(Integer)에서의 측정 결과를 보자. 라데온 RX 7900 XTX의 MobileNet V3 항목은 평균 2.11ms(추론 수 7만 1,406)가 소요되었고 RasNet 50 항목 1.37ms(추론 수 10만 2,515), Inception V4는 3.4ms(추론 수 3만 9,228)가 소요됐다. DeepLab V3는 65.06ms(추론 수 2,608), YOLO V3는 49.77ms(추론 수 3,411), Real-ESRGAN 항목에서는 150.88ms(추론 수 1,190)를 기록했다.

라데온 RX 7900 GRE의 결과는 이보다 조금 뒤처진다. MobileNet V3 항목은 평균 2.62ms(추론 수 5만 9,007)로 소폭 차이를 보인 것을 포함해 RasNet 50 항목 1.45ms(추론 수 10만 2,831), Inception V4는 4.21ms(추론 수 3만 2,787)이라는 수치가 나왔다. DeepLab V3는 65.78ms(추론 수 2,579), YOLO V3 38.83ms(추론 수 4,358), Real-ESRGAN 항목에서는 206.9ms(추론 수 868)를 기록했다.

여유로운 성능과 완성도, 합리적 가격이라는 퍼즐까지 더해지길

제품을 부를 때 약간의 어색함이 느껴지지만, 라데온 RX 7900 GRE의 존재 자체는 충분한 경쟁력이 있다. 컴퓨트 유닛(스트림 프로세서) 구성만 놓고 보자면 아쉬울 수 있다. 대신 이 부분을 256비트/16GB 용량 구성의 메모리로 대신한다. 엔비디아가 그래픽카드 메모리 용량에 조금 인색한 모습을 보일 때 AMD는 제품에 따라 최적의 메모리 구성을 제안해 왔다. 이번에도 그 기조에는 변함이 없다.

상위 제품군 이름에 맞는 성능은 갖춘 상태, 이제 남은 것은 최적의 가격이다. / 출처=IT동아

관건은 가격이다. 아직 국내 가격이 확정되지 않은 상태라 쉽게 단정할 수 없고 AMD가 발표한 권장소비자가격(MSRP)은 549달러다. 유통사가 기준 환율과 유통 마진, 기타 부대비용을 어떻게 설정하는가에 따라 달라진다. 여유롭게 달러당 1,350원으로 설정하고 기타 유통 마진 등을 고려하면 국내 출시가격은 89만 원대 혹은 90만 원대 중후반에 형성되지 않을까 예상된다.

경쟁 제품이 될 지포스 RTX 4070 슈퍼의 가격은 제품에 따라 90만 원대, RTX 4070 Ti 슈퍼는 120~140만 원 사이에 형성되어 있다. 라데온 RX 7900 GRE는 이 중간이라 볼 수 있는데 국내 시장 상황에 맞는 가격 설정을 위해 유통사들이 고심하는 듯하다.

고성능 제품은 끌리는데 너무 비싸고, 중급 제품은 성능이 아쉽다고 느껴질 때가 있다. 요즘은 구매심리가 애매해지는 구간을 잘 파고들어야 성공 가능성이 높아진다. 라데온 RX 7900 GRE는 그 심리를 잘 이해한 그래픽카드가 아닐까 생각된다.

글 / IT동아 강형석 (redbk@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

이 기사에 대해 어떻게 생각하시나요?

IT동아에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학