선분 700억개 그래프서 삼각형 찾기…단일 컴퓨터 최고기록 경신
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
국내 연구팀이 GPU 4개가 장착된 컴퓨터 한대를 활용해 700억개의 선분이 포함된 거대한 그래프에서 20분만에 삼각형꼴의 관계를 모두 찾아 세는 데 성공했다.
KAIST는 김민수 전산학부 교수팀이 한정된 그래픽처리장치(GPU) 자원으로도 대규모 그래프 연산을 고속으로 처리할 수 있는 프레임워크인 '지플럭스(GFlux)'를 개발했다고 27일 밝혔다.
연구팀은 700억개의 선분으로 이어진 그래프에서 삼각형을 모두 찾는 과제를 통해 GFlux의 성능 검증을 진행했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

국내 연구팀이 GPU 4개가 장착된 컴퓨터 한대를 활용해 700억개의 선분이 포함된 거대한 그래프에서 20분만에 삼각형꼴의 관계를 모두 찾아 세는 데 성공했다. 슈퍼컴퓨터처럼 여러 컴퓨터가 연결된 시스템이 아닌 단일 컴퓨터에서 처리한 그래프 규모로는 역대 최대다.
KAIST는 김민수 전산학부 교수팀이 한정된 그래픽처리장치(GPU) 자원으로도 대규모 그래프 연산을 고속으로 처리할 수 있는 프레임워크인 '지플럭스(GFlux)'를 개발했다고 27일 밝혔다. 프레임워크는 프로그램 개발에서 뼈대 역할을 하는 도구를 말한다. 연구결과는 22일(현지시간) '국제데이터공학학술대회(ICDE)'에서 발표됐다.
인공지능(AI) 분야에서는 지식이나 데이터를 대규모 그래프 형태로 저장하고 활용하는 사례가 늘고 있다. 그래프 연산 중 하나인 삼각형 개수 세기는 점과 선으로 이뤄진 그래프에서 삼각형 형태의 관계를 모두 찾고 개수를 파악한다. 데이터 분석과 AI 분야에서 널리 활용된다.
복잡도가 높은 그래프 연산은 기존 GPU의 메모리 제한 때문에 규모가 작은 그래프만 처리할 수 있다는 한계가 있다.

연구팀은 그래프 연산을 GPU에 최적화된 단위 작업인 지태스크(GTask)로 나누고 이를 효율적으로 GPU에 배분해 처리하도록 했다. 불필요한 연산을 사전에 제거한 것이다. GFlux는 그래프를 GPU 처리에 최적화된 자체 개발 포맷인 HGF로 변환해 솔리드스테이트드라이브(SSD) 같은 저장장치에서 관리한다.
점 사이의 선분이 1조개인 그래프를 기존 표준 포맷인 CSR로 저장하면 용량이 9테라바이트(TB)지만 연구팀이 개발한 HGF 포맷으로 저장하면 약 절반인 4.6TB로 줄일 수 있다. 3바이트(Byte, 3바이트는 24비트) 주소 체계를 활용해 GPU 메모리 사용량도 약 25% 절감했다.
메모리에서 정보의 위치를 지정하기 위해 3바이트만큼의 정보를 사용한다는 뜻이다. 3바이트에는 0 또는 1을 나타내는 정보의 단위인 비트가 24개 있어 2의 24제곱인 약 1600만개 위치를 식별할 수 있다.
미국 엔비디아의 GPU 개발 도구인 쿠다(CUDA)에 의존하지 않고 연산 실패를 방지하도록 컴퓨터 메모리를 통합적으로 관리하는 GTask 전용 메모리 관리 기술도 함께 개발됐다.
연구팀은 700억개의 선분으로 이어진 그래프에서 삼각형을 모두 찾는 과제를 통해 GFlux의 성능 검증을 진행했다.
기존 기술에서는 GPU 없이 슈퍼컴퓨터처럼 고속 네트워크로 연결된 컴퓨터 25대가 동원돼 약 2000초가 걸렸다. 연구팀이 개발한 GFlux를 도입하자 하나의 컴퓨터로 약 2배 빠른 1184초 만에 연산을 마친 것이다. 단일 컴퓨터로 삼각형 개수 세기 연산을 처리한 사례 중 역대 최대 규모다.
김 교수는 "최근 그래프를 활용한 검색증강생성(RAG), 지식 그래프, 그래프 벡터 색인 등 대규모 그래프에 대한 고속 연산 처리 기술의 중요성이 점점 커지고 있다"며 "GFlux가 이런 문제를 효과적으로 해결할 것"이라고 기대했다.
<참고 자료>
- doi.org/10.1109/ICDE65448.2025.00075
[이병구 기자 2bottle9@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.