똑똑한 AI 만드는 신기술에 뭉칫돈…'디지털 노가다' 사라질까
[편집자주] '테크업팩토리'는 스타트업과 투자업계에서 가장 '핫'한 미래유망기술을 알아보는 코너입니다. 우리의 일상과 산업의 지형을 바꿀 미래유망기술의 연구개발 동향과 상용화 시점, 성장 가능성 등을 짚어봅니다.
인공지능(AI)이 전산업에 적용되며 혁신을 일으키는 가운데 '합성데이터(Synthetic Data)' 생성기술이 AI 확산을 위한 핵심기술로 주목받고 있다. 합성데이터가 AI 서비스를 개발하는데 드는 시간과 비용을 혁신적으로 절감할 수 있어서다. MIT 테크놀로지리뷰는 합성데이터를 '2022년 10대 혁신기술' 중 하나로 선정했다.
자율주행과 관련된 데이터를 학습시키기 위해서는 거리 사진에서 자동차를 일일이 구분해 표시 한 후 'car'라는 이름표를 붙여(라벨링) AI에게 반복적으로 알려준다. 이 작업을 계속하다 보면 AI는 'car'를 인식할 수 있게 된다. 이 같이 인형 오리기를 하듯 필요한 특정 데이터를 마우스로 일일이 찍어 오려내야 하나의 데이터를 얻을 수 있다보니 데이터라벨링 관련 단순 아르바이트 시장이 형성됐을 정도다.
실제 고용노동부 국민내일배움카드 교육 과정에는 입문, 중급, 품질전문가 등 데이터라벨링 과정이 다양하게 개설돼 있다. AI 학습데이터 플랫폼 기업 크라우드웍스가 개설한 과정에서만 2021년 8월부터 2022년 2월까지 5만여명의 이수자를 배출한 것으로 알려졌다. 올해는 입문 1만4000명, 중급 7000명의 수강생을 모집 중이다. 단순하지만 인내심과 교육이 필요할 정도로 까다로운 작업이라는 평가다.
문제는 데이터라벨링이 수작업으로 이뤄지다보니 AI 개발에 필요한 시간과 비용 부담이 너무 크다는 것이다. 실제 국내 한 연구실에서 10만장의 멀티 카메라 트랙킹 데이터를 라벨링하기 위해 관련업체에 의뢰한 결과 70억원 가량의 비용이 든다는 견적서를 받았다. 결국 이 연구실은 데이터라벨링 작업을 포기했다. 미국 AI 스타트업의 경우 평균 테이터 라벨링 비용이 230만달러(약 30억원)에 달하는 것으로 알려졌다.
3차원(3D) 데이터 같이 어려운 작업은 외주를 맡기는 것도 어렵다. 실제 한 스마트팩토리 솔루션 엔지니어는 물체의 방향까지 알려주는 '6자유도 자세 추정(6D pose estimation)' 작업을 외주업체에 요청했으나 거절당했다. 복잡하고 까다로운 작업은 시간과 비용이 드는데다 할 수 있는 사람도 많지 않아서다. 데이터라벨링 외주업체도 누구나 할 수 있는 손쉬운 2D작업 위주로만 맡고있는 게 현실이다.
목마른 사람이 우물을 판다고 AI 전문가들이 해결책으로 내놓고 있는게 바로 합성데이터다. 합성데이터는 컴퓨터 시뮬레이션이나 알고리즘을 활용해 인공적으로 생성한 '가상데이터'를 말한다. 소량의 실제데이터보다 대량의 합성데이터가 AI 모델 훈련에는 더 적합해 실제데이터를 대체할 수 있고, 무엇보다 비용과 시간 절감은 물론, '휴먼 에러(인적 오류)'를 줄여주고 개인정보보호 문제까지 해결할 수 있어 이 시장은 전세계적으로 급격히 성장하고 있다.
2015년 설립된 스노켈 AI(Snokel AI)가 1억3530만달러 규모의 투자를 유치하면서 기업가치 10억달러의 유니콘 기업으로 성장했고, 2016년과 2017년에 설립된 케이퍼(Caper)와 에이아이리베리(AI.Reverie)는 지난해 각각 미국 최대 식료품 배달업체인 인스타카트와 페이스북을 운영하는 메타에 인수됐다. 토닉에이아이(Tonic.ai, 2018년 설립)와 그레텔랩스(Gretel Labs, 2019년)도 각각 4500만 달러, 6770만 달러의 시리즈B 투자를 유치했다.
국내에는 2019년 10월 설립된 씨앤에이아이(CN AI)가 합성데이터 생성 특허를 24개 출원하는 등 해당 시장을 선도적으로 이끌고 있다. NH농협은행이 정규직원으로 채용한 가상의 AI행원에 씨앤에이아이의 기술이 적용됐다. 메디컬 분야에도 진출해 위암 학습데이터를 생성, 진단모델 성능 향상에 사용중이다.
올해는 카이스트에서 교수와 박사과정 학생이 각각 합성데이터 기술로 창업에 나서 주목된다. 글로벌 기업들이 단순히 합성데이터 생성에 집중하는 반면 국내 스타트업은 데이터 케어와 복합 솔루션을 제시하며 한발 더 진화한 기술력을 선보이고 있다는 평가다.
지난 4월에 설립된 나니아랩스는 제조업체를 위한 AI 학습용 3D(3차원) 합성데이터를 자동으로 생성·평가·추천하는 솔루션 '아슬란 GD'를 개발했다. AI가 스스로 설계를 해내는 '노코드(No-code) AI SaaS(서비스형 소프트웨어) 플랫폼도 함께 제공해 인건비와 개발시간을 단축시킬 수 있다. 현대차그룹에서 2억원의 시드투자를 유치한 나니아랩스는 지난 7월부터 현대차, 현대모비스와 R&D 계약을 쳬결하고 프로젝트를 진행 중이다.
강남우 나니아랩스 대표는 "현대모비스의 경우 나니아랩스를 통해 1개월여 걸리던 브레이크 부품의 최적설계 기간을 1분으로 줄이는 성과를 냈다. 또한 AI가 만든 3만여개의 자동차 3D휠 합성데이터를 제공받았다"며 "외산 기업들이 장악하고 있는 랜더링 시장에서 국내 스타트업의 기술력이 얼마나 강력한지 보여주겠다"고 말했다.
회사 설립 한 달도 안된 드림투리얼은 AI 개발 과정에 필요한 합성데이터 생성은 물론 데이터 케어까지 해주는 솔루션 '오토데이터 스위트'를 개발했다. 현실과 유사한 시뮬레이션을 통해 리얼데이터 대신 합성데이터를 추출해 1개 데이터당 120분이 걸리던 라벨링 작업을 1분 내로 끝낼 수 있다. 합성데이터는 별도의 라벨링이 필요치 않아 인건비도 줄일 수 있다.
김명철 드림투리얼 대표는 "AI 기업들이 저희 합성데이터를 사용하면 기존에 가진 실제데이터를 10%만 사용해도 AI의 학습 정확도가 25% 상승한다"면서 "글로벌 기업들은 단지 합성데이터를 빠르게 생산하는데 집중하는 반면 우리는 데이터의 문제점을 분석하고 업데이트하는 등 데이터 케어 부문에 집중해 AI 모델 성능을 향상시킨다"고 설명했다.
[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']
<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지
- 前 LG·KIA 치어리더 김유나, 이태원 참사로 사망…향년 24세 - 머니투데이
- [영상]이찬원, 이태원 참사에 "노래 못해요"…관객 난입 몸싸움 - 머니투데이
- '이태원 참사' 꿈에서도…영상·사진만 봐도 PTSD 유발 '경고' - 머니투데이
- "송중기·김태리 데이트" 사진의 반전…알고 보니 현빈·손예진 - 머니투데이
- 6층 창문으로 들이닥친 외국인…30대 여성, 새벽 3시 '봉변' - 머니투데이
- 필라테스 강사 양정원, '사기 혐의' 고소당했다…"본사 운영과 무관" 해명 - 머니투데이
- 장계현, 길에서 본 여성과 외도…"어느날 아내와 거실에" 무슨 일? - 머니투데이
- '노벨평화상' 일본 피폭자단체, 시상식에 한국인 피해자 초청 - 머니투데이
- 차 집어삼키고, 나무 쓰러뜨렸다…100년 만에 '역대급 폭우' 내린 제주 - 머니투데이
- ICBM 부품 빼돌린 북한 부부사기단…정부, 개인 11명 등 독자제재 - 머니투데이