생성형 AI에 '책임감' 부여해야 하는 이유
고품질 데이터 습득전략➋
AI, 사회에 긍정적 영향 미쳐야
윤리 및 규범 준수 학습 필요해
법적 허들 낮추는 ‘재현 데이터’
다양한 버전 데이터 대량 확보
AI 투자 늘려 미래에 대비해야
최근 인공지능(AI) 기술이 대세로 떠오르면서 데이터의 중요성이 더욱 커지고 있다. AI 시대에서 살아남아야 하는 기업들이 양질의 데이터를 확보하고 정교한 데이터 환경을 구축해야 하는 이유다. AI 시대에 필요한 '고품질 데이터 습득전략' 두번째 편이다.
우리는 시리즈 '고품질 데이터 습득 전략' 1편을 통해 인공지능(AI) 시대를 맞이한 기업의 IT경영법을 살펴봤다. 클라우드 기반의 데이터 에코시스템, 중앙집중형 서버에서 벗어난 엣지 AI는 기업이 갖춰야 할 필수적인 인프라로 꼽힌다. 다만, 데이터를 확보하는 것만큼 중요한 일은 또 있다. 데이터에서 파생하는 위험을 관리하는 일이다.
■ 방법➌ 책임 있는 AI = 기업이 고품질 데이터를 습득할 때 고려해야 할 요소엔 '책임 있는 AI'가 있다. 이는 AI가 사회에 위협이 아닌 긍정적인 힘으로 작용하도록 하는 핵심 요인이다. 책임 있는 AI에는 비즈니스 및 사회적 가치, 위험, 신뢰, 투명성 등의 요소가 들어있어야 한다. 이에 따라 기업은 AI의 올바른 가치를 제공하기 위해 위험을 고려한 접근 방식을 채택해야 한다.
AI가 제공하는 솔루션과 모델을 현장에 적용할 땐 '책임'의 범주에서 벗어나 있지 않은지 주의를 기울여야 한다. AI 공급업체가 위험ㆍ윤리 등을 명시한 규정을 제대로 준수하고 있는지 면밀히 확인하는 과정도 필요하다. 그래야 잠재적인 재정적 손실, 법적 리스크, 평판 훼손 등 위험성을 헤지(hedge)할 수 있다.
■ 방법➍ 재현 데이터 = 고품질 데이터 수집을 위한 네번째 방법은 역설적이지만 데이터 중심 AI(Data-Centric AI) 시스템을 구축하는 거다. 데이터 중심 AI는 모델과 코드 중심이던 기존의 접근 방식을 데이터 중심으로 변경하는 것을 의미한다. 이는 어쩌면 AI 시대의 필수 과제일지도 모른다. 데이터의 품질과 일관성을 높이는 것이 모델이나 코드를 조정하는 것보다 중요하기 때문이다.
그렇다면 '데이터 중심 AI'를 구축하기 위해 필요한 건 무엇일까. 이 질문이 답은 '재현(Synthetic) 데이터'인데, 설명이 필요하다. 재현 데이터는 실제 데이터의 통계적 특성을 파악해 모델을 만든 다음, 그 모델에서 생성한 가상의 데이터다. 개인정보보호 등을 이유로 실제 데이터에 접근하기 어려운 경우나 학습에 사용할 실제 데이터가 현저히 적은 경우에 사용할 수 있다.
당연히 재현 데이터는 실제 데이터와 달리 법적인 제약이 적다. 여러 버전으로 많은 양의 데이터를 만들어낼 수 있어 다양한 분석도 가능하다. 이런 장점 때문에 재현 데이터의 규모는 앞으로 대폭 늘어날 것이다.
가트너는 전체 AI 데이터에서 재현 데이터가 차지하는 비중이 2021년 1%에서 2024년 60%까지 커질 것으로 관측한다. 미래 산업의 퍼스트 무버가 되고 싶은 기업이라면 '재현 데이터'를 쌓는 데 또다른 힘을 쏟아야 한다.
자! 지금까지 고품질 데이터를 확보하기 위한 방법을 살펴봤다. 여러번 설명했듯, 많은 기업들이 데이터 사이언스와 머신러닝 분야에 자금을 투입하고 있다.
가트너가 2500명 이상의 기업 경영진을 대상으로 실시한 설문조사 결과를 보면, 전체의 45.0%가 'AI 투자를 늘렸다'고 밝혔다. 경영진 중 70% 이상은 '조직이 생성형 AI를 조사ㆍ탐색하는 단계에 있다'고, 19.0%는 '현재 AI 관련 파일럿 프로젝트를 진행 중이거나 상품화 상태에 있다'고 말했다.
아울러 가트너는 대량의 데이터를 기반으로 훈련된 대규모 AI 모델, 이를테면 파운데이션(Foundation) 모델을 활용하는 AI 스타트업에 2026년까지 100억 달러(약 13조원) 이상의 투자가 이뤄질 것으로 예상하고 있다. 파운데이션 모델은 불완전하지만 강력한 기능을 제공해서 스타트업에 다양한 혁신의 기회를 열어줄 것이다.
바야흐로 생성형 AI 시대다. 이 기술에 적응하지 못하는 기업은 어쩌면 미래 시장에서 도태될지도 모른다. 그만큼 데이터 사이언스 및 머신러닝(DSML)은 AI의 미래를 이끌고 있다고 해도 과언이 아니다.
데이터를 통해 새로운 성장동력을 찾고자 하는 기업이라면 DSML의 미래를 이끌 방법들을 반영해 비즈니스 전략을 세우기를 권한다. 가파른 변화 속에서 성공으로 향하는 지름길을 발견할 수 있으니 말이다.
박동배 가트너 시니어 어드바이저
윤정희 더스쿠프 기자
heartbring@thescoop.co.kr
Copyright © 더스쿠프. 무단전재 및 재배포 금지.