GS네오텍 “GPU 부족보다 비효율이 문제”…DRA 기반 운영 최적화 나서

[디지털데일리 이안나기자] 기업들이 AI 인프라 확보에 열을 올리는 가운데 GPU를 얼마나 많이 확보하느냐보다 어떻게 효율적으로 운영하느냐가 더 중요한 과제로 부상하고 있다. GS네오텍은 이 문제를 쿠버네티스 기반 새로운 자원 할당 기술로 풀어내고 있다.

김성혁 GS네오텍 AI센터 AI 리서치 엔지니어는 20일 서울 강남구 코엑스에서 열린 ‘AWS 서밋 서울 2026’에서 DRA(Dynamic Resource Allocation) 기반 GPU 운영 최적화 전략을 발표했다.

김 엔지니어는 “AI 워크로드 환경에서 GPU 부족보다 더 큰 문제는 활용 방식의 비효율”이라며 “GPU를 많이 쓰는 것보다 워크로드에 정확하게 쓰는 것이 중요하다”고 강조했다.

기존 수량 중심 정적 할당 방식은 GPU 개수를 맞춰도 물리적으로 멀리 떨어지거나 느린 경로로 연결된 GPU가 배정되는 일이 빈번하고 분산 학습이나 대형 추론에서 통신 병목으로 이어진다. 에이전트는 툴을 호출하고 응답을 기다리는 동안 GPU가 유휴 상태로 방치되는 구조적 낭비까지 더해진다.

DRA는 이 두 가지 문제를 동시에 겨냥한다. DRA는 지난해 9월 쿠버네티스 1.34 버전에서 표준 리소스 모델로 편입된 기술이다. AWS도 최신 클라우드 컨테이너 환경에서 DRA 드라이버 사용을 권장하고 있다. 올해 들어 AI 학습용 가속기와 고속 네트워크 인터페이스까지 지원 범위가 확대되는 추세다.

‘A100이고 메모리 40GB 이상인 GPU’처럼 필요한 요건을 코드로 명시하면 스케줄러가 실제 장치 속성과 대조해 자동으로 매칭하는 구조로 인프라 관리자는 공급 정책을 설계하고 개발자는 필요한 조건만 선언하면 된다.

에이전트 유휴 시간 문제는 GPU 혼합 분할 방식으로 해소했다. 기존에는 GPU를 동일한 크기로 쪼개는 데 그쳤지만 DRA를 활용하면 워크로드 크기에 맞춰 서로 다른 크기를 혼합 구성할 수 있다.

GS네오텍은 이 방식으로 에이전트 처리량을 유지하면서 동일 GPU 위에 다른 서빙 워크로드를 함께 올리는 데 성공했다. 대규모 학습과 에이전트 서빙을 한 노드에서 동시에 돌려도 서로 성능에 영향을 주지 않는다는 점도 확인했다.

실증 결과도 공개됐다. 서로 다른 세대의 GPU가 혼재된 클러스터에서 대·중형 에이전트 워크로드를 동시에 배포한 결과, 모두 의도한 GPU 타입에 정확히 배치됐고 2.3초 이내에 스케줄링이 완료됐다. 김 엔지니어는 “핵심은 속도가 아니라 노드 설정이나 라벨 관리 같은 수동 작업을 없앨 수 있다는 것”이라고 강조했다.

GS네오텍은 이 전략을 자사 AX 에이전트 솔루션 ‘미소(MISO)’와 연계해 운영하고 있다. 코드 없이 복잡한 에이전트 워크로드를 구축할 수 있는 자체 개발 도구로, 클라우드와 온프레미스 환경 모두에서 동일한 운영 모델을 적용하는 것이 목표다.

김 엔지니어는 “배포 위치가 바뀌어도 운영 모델은 그대로 유지된다”며 “DRA는 단순한 쿠버네티스 신기능이 아니라 에이전트 솔루션을 어디에 배포하든 일관되게 최적화하기 위한 운영 기반”이라고 말했다. 이어 “AI 인프라를 처음 고민하는 단계든, 전사 AX 전환을 준비하는 단계든 함께하겠다”고 전했다.

IT/과학

GS네오텍 “GPU 부족보다 비효율이 문제”…DRA 기반 운영 최적화 나서