[전문가기고]데이터 산업 미래, 합성 데이터와 데이터 품질평가

김민영 2022. 11. 27. 18:01
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

이주행 페블러스 대표

과학기술 잡지 매사추세츠공대 테크놀로지 리뷰(MIT Technology Review)는 매년 초 주목할 만한 10대 혁신기술을 선정한다. 여기에 소개되는 신기술은 필자에게도 대부분 생소한 편이다. 하지만 올해 선정된 '인공지능(AI)을 위한 합성 데이터'는 몇 안 되는 익숙하고 반가운 주제였다.

가트너의 지난해 6월 보고서에 따르면 오는 2024년 AI 개발에 필요한 데이터 60%를 합성 데이터가 차지할 것이며, 2030년에는 합성 데이터 활용이 실제 데이터를 완전히 능가할 것으로 예측했다.

많은 이에게 합성 데이터는 아직 생소한 주제다. 합성 데이터는 개별 형태 및 전체 분포가 실제 데이터와 구별되지 않도록 만든 가상 데이터다. 실제 데이터의 한계와 다양한 문제를 극복하기 위해 탄생했다.

실제 데이터의 한계에는 어떤 것이 있을까. 현재 AI를 주도하는 딥러닝은 충분한 양의 데이터 확보에 기반하고 있다. 크라우드 소싱을 통한 데이터 수집은 데이터 부족 문제를 해결하기 위한 중요한 수단이었다. 이 덕에 '데이터 라벨러'가 새로운 일자리로 탄생하기도 했다. 크라우드 소싱에 의한 데이터 가공 비즈니스를 1세대라고 할 수 있다.

하지만 데이터 수요는 끝이 없다. AI가 한번 학습해도 새로운 테스트 케이스의 끊임없는 도전을 받는다. 이는 시장 경쟁 체제에서 불가피한 측면이 있다. 새 케이스에 대응하기 위한 학습 데이터는 이보다 최소 수십배 많이 수집돼야 한다. 크라우드 소싱 비용과 시간에 한계가 없다면 어쩌면 해결할 수 있는 문제다. 하지만 현실은 그렇지 않다.

이에 더해 내부 데이터 보안, 저작권, 개인정보보호, 특수 도메인 전문 라벨러 확보 등 문제가 발생한다. 심지어 어떤 도메인 라벨링은 인력으로 도저히 해결할 수 없을 정도로 복잡하다. 즉 데이터의 양적 확보에 품질 문제가 더해진다.

이러한 실제 데이터의 다양한 문제를 해결하기 위해 등장한 것이 합성 데이터 기법이다.

요즘 컴퓨터 애니메이션, 게임, 영화 특수효과를 보면 감탄사가 절로 나온다. 현실과 구별할 수 없는 수준의 영상이다. 인간에게 감동을 주는 컴퓨터그래픽 기술이 기계를 똑똑하게 만드는 데 그대로 사용될 수 있다. 센서로 확보한 실제 데이터가 부족한 경우 컴퓨터그래픽 기술로 가상 이미지를 생성할 수 있다. 이것이 합성 데이터의 가장 간단한 예다.

합성 데이터는 컴퓨터그래픽 기술만 사용하지 않는다. 모델링과 시뮬레이션 기술을 사용한다. 도메인 특성에 따라 사용하는 합성 데이터 생성기법이 달라진다. 예를 들어 적대적생성신경망(GAN)으로 생성한 이미지, 즉 합성 데이터를 합성곱신경망(CNN) 분류기 학습에 사용하게 된다. 한 AI가 다른 AI의 학습을 돕는다.

합성 데이터 생산을 전문으로 하는 글로벌 스타트업은 2017년부터 등장했다. 영상은 물론 금융 분야에도 스타트업이 있다. 메타(옛 페이스북)가 최근에 인수한 AI레버리도 대표적 합성 데이터 기업이다. 이런 합성 데이터 기업들이 2세대 데이터 비즈니스를 이끌고 있다.

국내에서는 2016년 한국전자통신연구원(ETRI)을 중심으로 합성 데이터 연구개발이 시작됐다. 2020년 무렵 국내에도 합성 데이터 전문 스타트업이 등장하기 시작했다. 하지만 아직 국내 비즈니스는 1세대를 넘지 못하고 있다. 각종 데이터 구축사업에서 합성 데이터 활용이 적극 검토된다면 국내 2세대 데이터 산업 생태계 발전에 큰 도움이 될 것이다.

합성 데이터 중심의 국내 2세대 데이터 비즈니스가 다소 늦은 감이 있지만 글로벌 3세대 데이터 비즈니스를 주도할 기회는 아직 있다. 최근 시행된 데이터기본법은 이러한 가능성을 짙게 한다. 법안은 '데이터 이코노미' 시대를 맞아 데이터 품질평가에 기반한 데이터 가격산정과 거래가 이뤄져야 하고, 이를 위한 기술과 산업을 육성한다는 내용을 담고 있다.

데이터 품질평가는 합성 데이터 생성과 연계돼 큰 시너지를 낼 수 있는 미래 데이터 산업이다. 예를 들어 데이터 품질평가를 통해 문제가 있는 데이터를 진단하고 합성 데이터로 문제를 치료하는 시대를 그려 볼 수 있다. 이러한 '데이터 클리닉'이 3세대 데이터 비즈니스 모습 아닐까.

이주행 페블러스 대표 joohaeng@pebblous.ai

Copyright © 전자신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?