기술 한계 옛말..."'데이터 홍수' 활용, 미래 아닌 현재"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
"예전부터 '데이터 레이크'를 말해왔지만, 국내에서 이를 갖고 논의할 인력이 없었다. 이제는 이 용어를 많은 사람들이 안다. 예전엔 대규모 데이터를 다루는 기술의 한계로 고객 요구사항을 전부 파악하기 힘들었지만, 이제는 이를 충족시켜줄 수 있는 기술이 생겼다."
이후에도 GPU DB 및 GPU와 직접 연결되는 GPU다이렉트 스토리지 등이 도입되면서 대규모 데이터를 소화할 수 있는 데이터 레이크하우스 기술이 고도화 단계에 이르렀다는 설명이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(지디넷코리아=김윤희 기자)"예전부터 '데이터 레이크'를 말해왔지만, 국내에서 이를 갖고 논의할 인력이 없었다. 이제는 이 용어를 많은 사람들이 안다. 예전엔 대규모 데이터를 다루는 기술의 한계로 고객 요구사항을 전부 파악하기 힘들었지만, 이제는 이를 충족시켜줄 수 있는 기술이 생겼다."
권동수 효성인포메이션 전문위원은 27일 지디넷코리아가 서울 잠실 롯데월드 호텔서 개최한 '제20회 ACC+ 2023'행사에서 이같이 말했다. 데이터 레이크는 대규모의 데이터 처리를 위한 데이터 저장소 기술이다.
권동수 위원은 데이터 레이크가 언급된 초기엔 이를 지원하는 기술이 하둡밖에 없었다고 했다. 데이터를 변환하고 저장하던 이전 방식과 달리 반정형·비정형 데이터를 모두 저장하게 되면서 페타바이트 단위의 대규모 데이터가 누적됐다. 이에 데이터노드가 100개 이상 필요한 상황이 발생하기도 했다.
이후 다양한 데이터 저장이 가능한 오브젝트 스토리지를 활용하면서 대규모 데이터 분석에 따른 인사이트 도출도 가능해졌다.
GPU가 등장하면서 대규모 데이터 처리 기술도 진보했다. 기존 시스템으로는 GPU를 통한 데이터 처리가 어렵게 되자, 오브젝트스토리지와 네트워크저장장치(NAS)를 초고속으로 병렬하는 시스템을 구축해 페타바이트 단위의 데이터 처리를 지원했다.
이후에도 GPU DB 및 GPU와 직접 연결되는 GPU다이렉트 스토리지 등이 도입되면서 대규모 데이터를 소화할 수 있는 데이터 레이크하우스 기술이 고도화 단계에 이르렀다는 설명이다.
권동수 위원은 "최근 많은 주목을 받는 GPT 모델의 매개변수가 1억1천700만개, 15억개, 1천750억개 이상으로 단기간에 급증했다"며 "자연어 처리 모델이 등장한지는 오래됐으나 대용량 처리 기술과 시스템이 없어 매개 변수를 늘리지 못했는데, 데이터 레이크를 비롯한 기술들이 고도화된 것"이라고 진단했다.
이런 기술을 활용한 구축 사례도 소개했다. 효성인포메이션은 국내 제조 기업에 실시간 대용량 데이터 분석 시스템을 제공했다. 일 수백 TB 수준의 데이터 분석 및 비용 효율적인 스토리지 인프라를 구축했다.
국내 R&D 기업 대상으로는 GPU 서버와 전용 스토리지를 통해 자연어 처리 알고리즘 학습 성능을 개선한 데이터 처리 시스템을 구성했다.
김윤희 기자(kyh@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.
- IT산업 미래기술 한 자리에서 본다
- "생성형 AI를 모든 앱에 도입해야 하는 시대됐다"
- 클라우드 환경에서 MSA 구현하는 최적의 방법은
- 생성 AI 확장 전략의 새 트렌드 '플러그인' 주목
- 수능 끝 첫 주말, 지스타2024 학생 게임팬 대거 몰려
- 세일즈포스發 먹통에 日 정부도, 韓 기업도 '마비'
- 삼성 차세대폰 갤럭시S25, 언제 공개되나
- 대기업 3Q 영업익 증가액 1위 SK하이닉스...영업손실 1위 SK에너지
- 머스크의 우주기업 ‘스페이스X’, 기업가치 약 349조원 평가 전망
- [인터뷰] 베슬에이아이 "AI 활용을 쉽고 빠르게…AGI 시대 준비 돕겠다"