단국대 최종무 교수팀, 최우수 논문상 수상

김종성 기자 2025. 7. 25. 10:10
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

데이터 검색 인덱스 구축 시간 4만 배 앞당긴다.
▲ 단국대 최종무(왼쪽) 교수, 유시환 교수. /사진제공=단국대

단국대 SW융합대학 최종무·유시환 교수팀이 DB/빅데이터 분야 세계 최고 권위 학술대회인 ACM SIGMOD(Association for Computing Machinery Special Interest Group on Management of Data)에서 2024 최우수 연구 기록물상(Best Artifact Award)을 수상했다.

연구 논문은 인터넷이나 데이터베이스의 정보 검색에 샘플링 기법을 도입해 학습 기반 인덱스 구축 시간을 최대 4만 배 단축하는 기술이다. 논문명은 'Can Learned Indexes be Built Efficiently? A Deep Dive into Sampling Trade-offs(학습 기반 인덱스의 효율적 구축, 샘플링 기법의 성능 한계 분석'.

인터넷이나 데이터베이스에서는 원하는 정보를 빠르게 찾기 위해 '인덱스(Index)'라는 도구를 활용해 데이터를 구조화한다. 최근에는 머신러닝을 활용한 학습 인덱스가 등장해 검색 속도를 획기적으로 향상시켰지만, 전체 데이터를 학습해야 하는 한계로 인덱스 생성에 많은 시간과 자원이 소요됐다.

연구팀은 일부 데이터만 추출해 학습하는 '샘플링 기법'을 도입, 인덱스 성능을 유지하면서도 구축 효율을 대폭 향상시키는 두 가지 핵심 기법을 개발했다. 연구팀이 개발한 기법은 ▲Sample EB-PLA(Error-Bounded Piecewise Linear Approximation, PGM, RS 등 선형 회귀 기반 인덱스를 위한 샘플링 기법) ▲Sample EB-Histogram(히스토그램 기반 인덱스를 위한 보정된 샘플링 학습 기법) 이다.

연구팀은 2억 개의 키-값 데이터셋을 대상으로 테스트한 결과, 기존 방식보다 최대 4만 배 빠르게 인덱스를 구축했다. 정확도와 검색 속도는 5% 이내의 오차 범위를 유지하며 성능 저하 없이 안정적으로 구현해 냈다.

최종무 교수는 "이번 연구는 학습 기반 인덱스의 구축 효율성을 획기적으로 개선한 성과로 대규모 데이터 환경에서도 적용이 가능하다"라며 "앞으로도 빅데이터, 클라우드, AI 등 고속 인덱스 구축이 요구되는 다양한 분야에 기술을 확장하고 데이터 인프라 성능 향상을 위한 후속 연구에 박차를 가할 계획"이라고 밝혔다.

/용인=김종성 기자 jskim3623@incheonilbo.com

Copyright © 인천일보 All rights reserved - 무단 전재, 복사, 재배포 금지