[기고] 생성형AI 활용 전 데이터에 주목하라

최승철 클라우데라코리아 지사장

지난해 화두의 기술은 단연 생성형 AI다. 챗GPT의 성공에 힘입어 아마존, 마이크로소프트, 구글 등 내로라하는 글로벌 기업들은 기술의 힘을 활용해 생산성을 높이고 있다. 이미 제약, 법률 등 다양한 분야에서 상당한 발전을 이뤄내고 있지만, 지금까지는 시작에 불과하다. 기술의 진가는 대중적으로 쓰일 때 비로소 드러나기 때문이다.

기업의 입장에서 생성형 AI라는 거대한 흐름에 올라타려면 비용과 신뢰 문제를 해결해야 한다. 이를 위해서 반드시 필요한 과정 중 하나는 하이브리드 클라우드를 활용한 데이터 로드맵 구축이다.

생성형 AI도 결국 컴퓨팅 기술 중 하나이기에 신뢰할 수 없는 데이터로 모델을 학습시켜서는 좋은 결과를 기대하기 어렵다. 문제는 많은 기업들이 아직 초기 단계의 데이터 거버넌스와 보안에 머물러 있고, 심한 경우 중요한 정보가 사일로(Silo)에 갇혀 있는 경우도 있다는 점이다. 이 경우 비용이 많이 드는 통합 없이는 사실상 데이터를 활용할 수 없는 상태에 빠지게 된다.

신뢰할 수 없는 데이터, 불충분하거나 편향된 데이터는 고품질의 AI 훈련을 방해한다. 이를 통해 훈련된 AI는 비즈니스적으로 가치가 있는 답변이 아닌, 질문의 맥락을 파악하지 못하거나 허위 정보로 구성된 '환각' 등을 제시하게 된다.

기업이 겪는 또 다른 문제점은 생성형 AI 프로젝트의 높은 비용이다. 아웃소싱에는 보안, 규정 준수 등 잠재적 문제가 수반되지만, 기업 내에서 이를 수행할 경우에는 과도한 비용 문제가 생긴다. 특히, 대규모 언어 모델(LLM)을 실행하기 위해서는 특별히 설계된 최첨단 GPU에 많은 비용을 지불해야 한다. 만약 1,750억 개의 파라미터로 모델을 훈련시킨다면 GPU가 2000여 개가 필요하다.

이러한 비용 문제로 하이브리드 클라우드 인프라가 점차 주목을 끌고 있다. 클라우드 서비스 제공사(CSP)는 고객이 생성형 AI 프로젝트를 확장하기 위한 GPU 리소스를 보유하고 있으며, 고객은 사용한 만큼만 비용을 지불한다. 기업은 온프레미스 환경에서 GPU를 프로비저닝 할 필요 없이 생성형 AI를 실험하고 수정해 완성할 수 있다. 이를 통해 설비투자 비용을 절감하고 필요한 경우 다시 운영할 수 있는 유연성을 확보할 수 있다.

하이브리드 클라우드 구축을 결정한 이후 기업은 어떻게 생성형 AI 프로젝트를 실험 단계에서 벗어나 본격적으로 활용할 수 있을까? 구축, 개선, 식별, 실험, 확장 및 최적화(B.R.I.E.SO) 모델이 해답이 될 수 있다.

구축(Build)은 최신 데이터 아키텍처와 범용 기업 데이터 메시를 만드는 단계다. 기업은 온프레미스나 클라우드에 관계없이 데이터에 대한 가시성과 제어력을 확보할 수 있다. 이는 모든 데이터 사일로에서 매핑, 보안과 규정 준수를 위한 통합 온톨로지 구축에 도움이 된다. 당장의 수요를 충족할 뿐만 아니라 미래의 수요 증가에도 대응할 수 있는 확장성을 갖춘 도구를 찾는 것은 중요하다. 오픈 소스 솔루션은 대체로 가장 뛰어난 유연성을 제공한다.

개선(Refine)은 기존 비즈니스 요구 사항에 따라 데이터를 개선하고 최적화하는 단계다. 향후 요구 사항을 최대한 정확하게 예측하는 것이 중요하다. 쓰지 않을 데이터까지 마이그레이션 하는 것을 방지해 프로젝트 비용 증가를 막을 수 있기 때문이다.

식별(Identify)은 특정 워크로드에 클라우드를 활용할 수 있는지 파악하는 단계다. 잠재적 사용 사례를 고려한 워크로드 분석은 온프레미스나 서로 다른 클라우드 등에서 가장 많은 가치를 창출할 수 있는 데이터 위치를 파악하고 연결해 프로젝트를 최적화한다.

실험(Experiment)은 제삼자 생성형 AI 프레임워크를 사용해 비즈니스 요구사항에 가장 적합한 프레임워크를 찾는 단계다. 기업은 AWS의 베드록, 오픈 AI의 챗GPT, 구글의 버텍스 등 여러 프레임워크를 선택할 수 있다. 섣부른 접근보다는 기존 기업 데이터와 긴밀하게 통합하는 과정을 통해 성공 가능성을 높여야 한다.

확장과 최적화(Scale and Optimise)는 사용 사례를 선택해 생산 모델로 확장하는 단계를 말한다. 프로세스를 최적화하되, GPU 관련 비용이 급증할 경우를 대비해 지속적인 관리가 필요하다. 최적화를 통한 유연한 AI 플랫폼은 장기적인 성공과 직결된다.

IT, 비즈니스 리더들은 생성형 AI 애플리케이션이 불러올 혁신과 잠재력에 대해 큰 기대를 갖고 있다. 향상된 고객 서비스부터 원활한 공급망 관리, 강력한 데브옵스(DevOps)에 이르기까지 글로벌 경영진의 98%가 향후 3~5년간 AI 모델이 비즈니스 전략에서 중요한 역할을 할 것이라는 데 동의한다.

시작이 반이라 했던가. 멀리 가기 위해서는 출발점을 잘 다지는 것이 중요하다. 차세대 데이터 아키텍처는 성공적인 AI 프로젝트를 위한 출발점이자 경쟁 우위를 선점하는 훌륭한 지름길이 될 것이다.

디지털타임스

사설칼럼

[기고] 생성형AI 활용 전 데이터에 주목하라