세계 최초 칩렛 GPU 목적 달성? AMD 라데온 RX 7900 XT

엔비디아에 이어 AMD에서도 그래픽 카드의 세대 교체를 단행했다.

이름은 지난 세대의 뒤를 이어 라데온 RX 7000 시리즈. 하이엔드 모델인 RX 7900 XTX와 RX 7900 XT가 먼저 출시된 것도 마찬가지고, 지포스 RTX 4090 대응 모델 이번에도 플래그십 경쟁은 기대하기 어려울 것 같다.

대신, AMD의 발표 내용에 따르면 라데온의 강력한 경쟁 무기인 가성비를 더욱 갈고 닦은 것이 특징이다. 라이젠 시리즈에 이어 라데온에도 칩렛 설계를 적용한 것은, 결과적으로 가성비를 끌어올리기 위한 전략중 하나로 볼 수 있다.

과연 세계 최초의 칩렛 GPU를 표방한 라데온 RX 7000 시리즈는 어떤 특성을 보여줄지, 지금부터 살펴보자.


GCD와 MCD 칩렛 RNDA3, CPU 칩렛보다 열 배 빠른 연결

라데온 RX 7000 시리즈에 적용된 RDNA3 아키텍처는 그래픽 연산에 쓰이는 코어와 메모리 컨트롤러 및 인피니티 캐시를 분리한 것이 특징이다. 이는 많아야 96코어 구성인 서버용 CPU 에픽에 비해 수천개의 코어가 구동되는 그래픽 코어의 특성상 CPU와 다른 접근 방식이 필요했다.


메인보드 칩셋과 연결되며, 메모리 컨트롤러와 PCIe Lane 등이 포함되어 플랫폼 조율의 핵심이 되는 IOD를 중심으로 CCD가 맞물린 라이젠 CPU와 달리, RDNA3에서는 그래픽 연산과 미디어 엔진 등이 포함된 핵심 기능으로 구성된 GCD(Graphics Compute Die)를 중심으로 MCD(Memory Cache Die)를 엮었다.


RDNA3는 CPU 대비 열 배에 달하는 다이간 연결 성능 요구량을 뒷받침하기 위한 인피니티 팬아웃 링크(Infinity Fanout Links, 이하 IFL)를 새롭게 구현했다. 라이젠 CPU에서 CCD와 IOD를 연결하는 방식에 비해 각 와이어의 크기와 높이가 1/8 수준이라, 전체적으로 약 1/64 수준의 공간에 두 배의 와이어를 배치해 MCD와 GCD 사이에 최대 5.3TB/s에 달하는 대역폭을 제공한다.

이는 라이젠 CPU에 쓰인 방식에 비해 열 배에 달하는 것이며, bit당 전력도 20% 수준으로 낮춰 GPU 전력 소비량의 5% 수준에서 3.5TB/s 수준의 유효 대역폭을 제공한다.


한편, 칩렛 방식은 필연적으로 구성요소간 레이턴시 증가를 피할 수 없는데, RDNA3에서는 기본 인피니티 패브릭 클럭을 43% 높여 상쇄시켰다. AMD 발표 자료에 따르면 Navi21 대비 Navi31 코어의 인피니티 캐시 레이턴시는 10% 개선되었고, DRAM 레이턴시는 동일한 수준을 유지해냈다.

참고로, 이러한 칩렛 설계는 칩렛별로 다른 공정을 적용할 수 있어 비용 증가를 기대할 수 있다. 실제로 GCD는 5nm 공정이 적용된 반면 MCD에는 6nm 공정이 사용되었다. 제조 공정에 따른 정확한 비용은 알려져 있지 않지만, 일반적으로 제조 공정 미세화에 따른 비용 상승에 대한 우려의 목소리가 이어져 온 것을 감안할 때, 5nm 단독 생산보다 비용 절감 효과를 기대할 수 있는 부분이다.


더 커진 캐시와 유연해진 데이터 처리 방식

RDNA3 아키텍처와 관련된 개요는 11월 초 발표에서 언급된 만큼, 이번 기사에서는 조금 더 자세한 내용을 다루고자 한다. 개요는 당시 기사(링크)를 통해 확인할 수 있으니, 참고하기 바란다.

그래도 간단히 요약 설명하며, 최대 2.7배 성능을 발휘하는 전용 AI 가속 유닛과 최대 50% 성능이 개선된 2세대 RT 가속기, 유연한 데이터 처리를 위한 듀얼 이슈 스트림 프로세서를 갖췄으며, 전력 효율은 52% 개선되었다.


RDNA3에서는 듀얼 CU 페어를 기본으로 L0 캐시가 16KB서 32KB로 두 배 늘었고, 벡터 GPR(General Purpose Register) 부분을 보면 기존 정수/ 부동소수점/ 행렬 작업을 수행하는 블록에 '부동소수점/ 행령 SIMD32' 처리를 담당하는 블록이 새롭게 추가되었다.


결과적으로 CU당 스트림 프로세서가 두 배 늘어난 것으로 볼 수 있지만, 각 블록당 처리 가능한 작업 종류가 다른 만큼 '완전한' 유닛 면에서는 RDNA2와 같은 개수로 볼 수 있다. 이에 따라 바라보는 관점에 따라 RDNA3의 SP는 CU당 64개 혹은 128개로 볼 수 있다.

지난 11월 발표 당시에도 CU당 SP를 64개, 128개로 소개한 자료가 혼용된 것도 이 때문으로 볼 수 있는데, AMD의 공식 제품 페이지에서는 CU당 64개의 SP를 기준으로 설명하고 있으므로, 보드나라는 이를 기준으로 설명한다.


한편, L0 캐시와 함께 L1 캐시용량도 128KB서 256KB로 100% 늘었고, L2 캐시는 4MB서 6MB로 50% 증가했다. 여기에 메인 유닛과 L1 캐시간 스루풋(클럭당 데이터), L1 캐시와 L2 캐시간 스루풋도 각각 50% 넓어졌다.

RDNA2와 비교해 RNDA3에서는 인피니티 캐시 용량이 상대적으로 줄어들었는데, L2 캐시와 인피니티 캐시간 스루풋도 125% 증가해, 결과적으로 RDNA3 캐시의 최대 유효 대역폭은 RDNA2와 비교해 2.7배에 달한다.


최대 50% 성능 향상된 2세대 RT 가속기, 베일에 가려진 구체적 변화

RDNA2 아키텍처는 레이 트레이싱에서 빛과 오브젝트의 충돌 감지를 위한 BVH(Bounding Volume Hierarchy) 전용 유닛이 없어 다른 공유 유닛의 힘을 빌어야 한다. 때문에 지포스 RTX 시리즈에 비해 레이 트레이싱 성능에서 약점을 보였는데, RDNA3에서도 기본적인 구조는 하이브리드 형식을 따르고 있다.


RDNA2의 광선 가속기(RA, Ray Accelerators)는 클럭당 최대 4개의 광선/박스 교차 또는 하나의 광선/ 삼각형 교차 작업을 처리할 수 있는데, RDNA3 RA의 해당 성능 지표는 공개되지 않았다.

대신 여러 면에서 효율 개선을 위한 작업이 수행되었다며 관련 내용을 공개하였는데, 이에 따르면 새로운 2단계 스케쥴링 알고리즘으로 불필요한 단계를 생략하고, 거리 우선/ 크기 우선/ 가까운 중간 포인트 우선 등 충돌 박스 정렬 알고리즘 최적화를 수행했다.

여기에 CU 확장과 비래해 더 많아진 RA와 VGPR, 최대 50%에 달하는 RA의 성능 향상, 동작 클럭 개선 등에 힘입어, RDNA3에서는 전 세대 대비 최대 1.8배의 레이 트레이싱 성능을 경험할 수 있다.


새로운 아키텍처, 새로운 디자인, 라데온 RX 7900 XT

AMD 라데온 RX 7900 시리즈는 우선 AMD 레퍼런스 디자인 모델이 우선 출시되고, 이후 제조사의 커스텀 모델이 등장하리란 소식이 전해졌다. 기사 작성 시점에서는 아직 확실치 않지만, 보드나라에서는 모든 라데온 RX 7900 시리즈 평가의 기준점이 될 레퍼런스 모델, 그중에서 라데온 RX 7900 XT를 입수할 수 있었다.

라데온 RX 7900 XT는 320bit 메모리 버스로, Navi31 풀칩 기준 6개의 MCD 중 한 개가 동작하지 않는 구조다. 하지만 GPU 특정 부위에 무게가 쏠려 발생하는 파손을 방지하기 위해 MCD 6개가 모두 배치되어 있다.


라데온 RX 7900 XT의 공식 가격(MSRP)은 899달러로, 999달러의 라데온 RX 7900 XTX와 함께 1199달러인 지포스 RTX 4080를 겨냥한 제품이다. AMD 공식 발표에 따르면 RX 7900 XTX는 성능으로, 라데온 RX 7900 XT는 가성비로 지포스 RTX 4080을 잡는다는 양면전술을 세웠다.

엔비디아가 지포스 RTX 4080의 가격 인하로 이에 대응할 계획이라는 소문이 돌고 있지만, 실제 가격 변동으로 이어질지는 추이를 지켜볼 일이다.


라데온 RX 7900 시리즈 보조전원 커넥터는, 지난 달 RTX 4090에서 커넥터 번 이슈화 되었던 12VHPWR 커넥터 대신 지난 세대에서도 쓰였던 PCIe 핀 커넥터가 쓰였다. 쿨러의 방열핀 사이로는 히트파이프의 모습을 볼 수 없는 것 역시 마찬가지다.


위 사진은 RX 7900 XTX의 것이긴 하지만 RX 7900 XT 역시 기본적으로 베이퍼 챔버 방식이 유지되었기 때문으로, 더 높아진 클럭을 제어하기 위해 베이퍼 챔버의 크기를 10% 키웠다. GPU 및 VRAM과 써멀블록간의 공간을 메워주고 열을 전달해줄 써멀 페이스트도 더 높은 성능의 것으로 교체되었다.


다이캐스트 처리된 알루미늄 재질의 백플레이트가 사용되었지만, 전원부 부품이나 GPU 실장 부위에 써멀패드가 없어 순수하게 제품 보호 기능만을 제공한다. 라데온 RX 7900 XT에서는 GPU 실장 부위 역시 보호받고 있는 밀폐형 디자인이다.

이 경우 열이 정체되어 온도 증가로 이어질 수 있는데, 붉은 삼각형으로 되어있는 여섯 곳에 작은 구멍을 내어 열이 빠져 나갈 수 있는 공간을 확보한 것도 또 다른 특징이다.


한편, 라데온 RX 7900 XT는 상위 모델인 라데온 RX 7900 XTX와 달리 LED가 제공되지 않는다. 대신 PCB는 공유하는 만큼 ARGB LED용으로 추정되는 커넥터의 모습을 확인할 수 있다.


DP2.1과 AV1 인코더 지원 듀얼 미디어 엔진 탑재

라데온 RX 7900 시리즈의 출력 포트 구성 자체는 전 세대 대응 모델인 RX 6900 시리즈와 동일하다. DP포트 2개와 HDMI 포트 1개, USB Type-C 포트 1개로 총 4개의 구성이다. 그러나 DP 포트는 1.4a 규격에서 2.1 규격으로 업그레이드되면서 지원 해상도와 주사율이 대폭 향상되었다.

Full HD 최대 600Hz, QHD와 UHD 최대 480Hz 주사율을 지원하며, 주사율과 해상도에 따라 최대 동시 출력 지원 모니터 갯수는 차이가 있으니 참고 바란다. 라데온 RX 7900 시리즈는 DP2.1 규격을 지원하면서 DP1.4a 규격인 지포스 RTX 시리즈의 4K 240Hz와 8K 60Hz보다 두 배 이상의 주사율을 지원한다.


라데온 RX 7900 시리즈도 AV1 인코더를 지원한다. RTX 40 시리즈와 같이 듀얼 미디어 엔진을 탑재해 인코딩과 디코딩을 동시 수행하거나 인코딩 또는 디코딩 성능을 단일 엔진으로 수행할 때 보다 높여 작업 효율 개선을 기대할 수 있다.

마지막으로, AMD는 지포스 RTX 4080과 비교했을 때 레이 트레이싱이나 업스케일링 기술이 들어가지 않은 '깡성능'면에서 라데온 RX 7900 XT은 최대 40%, RX 7900 XTX은 최대 50% 높다고 소개하고 있는데, 실제 게임에서는 어느 정도의 성능을 발휘하는지 테스트했다.


AMD 라데온 RX 7900 XT의 성능

테스트는 인텔 13세대 코어 CPU 랩터 레이크 플랫폼에서 진행했다. CPU는 코어 i9-13900KF, 메모리는 플랫폼 공식 지원 클럭인 DDR5 5600MHz (16GB*2)에 맞췄고, AMD 라데온 RX 7900 XT의 레퍼런스 모델 비교군으로는 AMD의 전세대 플래그십 모델인 라데온 RX 6950 XT, AMD에서 경쟁 모델로 선언한 지포스 RTX 4080을 투입했다.

게임 테스트는 모두 각 게임의 최대 품질 프리셋, AMD에서 SAM(Smart Access Memory)으로 브랜드화한 Resizable BAR 기능을 활성화한 상태에서 진행되었다.

라데온 RX 7900 XT는 4K 게이머를 겨냥한 제품인 만큼, 테스트 역시 4K를 중심으로 그 아랫 단계인 QHD 해상도의 두 가지 경우를 테스트했다.


AMD 라데온 RX 7900 XT의 깡성능

3DMark로 라데온 RX 7900 XT의 기본 게임 성능과 레이 트레이싱 성능을 확인했다.

기본 성능은 지포스 RTX 4080을 거의 따라잡은 것으로 나타났지만, 레이 트레이싱 성능은 여전히 크게 뒤쳐진 것으로 나타났다. 물론 순수 성능만 보자면 더 많은 2세대 RA가 더해지면서 RX 6950 XT보다 높은 성능을 내지만, 경쟁을 기대했던 수준에는 부족한 결과다.



AMD 라데온 RX 7900 XT 레이 트레이싱과 RTX On 성능


위 차트는 순서대로 기본 성능, 레이 트레이싱 옵션 추가, 레이 트레이싱과 업스케일링 기술(FSR or XeSS)을 동시 적용한, 엔비디아에서 RTX On으로 구분하고 있는 경우다.

전체적으로, 아쉽게도 라데온 RX 7900 XT의 게임 성능은 지포스 RTX 4080과 대결하기에는 아쉬운 것으로 나타났다. 최근작인 칼리스토 프로토콜이 RTX On 상태에서 RTX 4080을 능가하는 성능을 내주기는 했지만, RX 6950 XT와 RTX 4080 모두 FSR 효과를 보지 못했던 것을 감안하면, 아직 칼리스토 프로토콜의 최적화가 완벽하지 못하다는 반증으로 볼 수 있다.

최신작인 만큼 테스트에 포함시키기는 했지만, 이후 패치를 통해 성능이 변화할 수 있으니 칼리스토 프로토콜 테스트 결과를 심각하게 받아들일 필요는 없을 것으로 판단된다.


인플레이션 시대, RX 7900 XT의 가치는?

마지막으로, 지포스 RTX 4080을 기준으로 앞서 테스트한 해상도, 옵션 별 성능 비율을 정리했다. 옵션에 따라 차이는 있지만 라데온 RX 6950 XT에 비해 평균적으로 약 10% 가량의 성능 향상이 이뤄졌으며, RTX 4080 대비 약 80%에서 90% 수준의 성능을 내준다.

레이 트레이싱 성능이 개선된 점은 반길 소식이지만, 위 결과는 '평균'인 탓에 와치 독 리전이나 사이버펑크 2077 처럼 레이 트레이싱 성능 차이가 거의 두 배에 달하는 경우도 있다는 것도 감안할 필요가 있다.


결과적으로 AMD는 이번 라데온 RX 7900 XT도 가성비 우위를 내세우고 있으며, 실제 테스트 결과도 그에 맞춰 나왔다. MSRP 기준 QHD 깡성능 가성비는 RTX 4080보다 평균적으로 20% 가량 높고, UHD에서는 약 15% 높은 것으로 나타났다.

가성비 면에서 레이 트레이싱 성능은 거의 동급이고, 업스케일링 기술을 결합하면 그보다 높은 가성비를 기대할 수 있다.


단지, 전성비를 따지면 또 살짝 달라지는데, 3DMark 타임 스파이 스트레스 테스트 시 PC 전체 소비전력 기준으로 살짝 높은 전력을 소비한다. RX 6950 XT보다 약 40W 높아지긴 했지만, 전력대 성능비 경쟁은 여전히 라데온 시리즈가 더 개선되어야할 것이다.


라데온 RX 7900 XT, 조금은 애매한 가치

라데온 RX 7900 XT는 조금 애매한 포지션에 있다. RX 6950 XT와 비교하면 100달러 낮은 가격과 적어진 전력 소모로 더 높은 성능을 제공하는 개선된 모델이다. 그러나 절대 성능 차이가 살짝 애매한 분위기라, 이미 RX 6900 시리즈 사용자의 업그레이드 동력은 크지 않아 보인다.

RTX 4080과 비교하면 약간 다른데, 레이 트레이싱을 포함해 성능 자체는 뒤쳐지지만 공식 가격이 300달러나 싼만큼 전통적으로 AMD가 강세를 보여온 가성비가 뛰어나고, 성능이 뒤쳐진다해도 상대적인 평가인만큼 실제 성능은 4K 게임 경험에 충분하다.


게다가 상위 모델인 RX 7900 XTX가 단 100달러 높다. 구매자에 따라 다르겠지만, 4K 플래그십 모델을 고집할 게이머라면 크게 부담될 차이로 보기도 어렵다. AMD에서도 상위 모델의 가성비가 더 높다는 점을 인정하고 있는 만큼, 시장 가격에 따라 게이머들이 RX 7900 XTX로 몰려 RX 7900 XT는 외면받을 가능성도 무시하기 어렵다.