[스타트업 발언대] AI 상용화 최전선에서 뛴다
(서울=연합뉴스) 박세진 기자 = 지난해 10월 미국 거대 플랫폼 기업 메타(옛 페이스북)가 'AI레버리'(AI.Reverie)라는 스타트업을 조용히 인수했다.
미국을 중심으로 세계 최대 규모의 식료품 배달망을 갖춘 인스타카트도 같은 시기에 스마트 카트 및 무인 결제 서비스를 제공하는 스타트업 '케이퍼 AI'(Caper AI)를 3억5천만 달러에 사들였다.
메타와 인스타카트가 잇따라 품에 안은 두 스타트업은 합성데이터(synthetic data) 분야에서 앞서가는 것이 공통점으로 부각됐다.
도대체 합성데이터가 뭐기에 거대 기업들이 관련 기술을 보유한 스타트업에 눈독을 들인 걸까.
국내에선 2019년 10월 설립된 씨앤에이아이(CN.AI)가 비전(이미지·영상) 분야의 합성데이터 시장에서 가장 두각을 나타내는 스타트업으로 꼽힌다.
이 회사는 AI(인공지능) 학습용 데이터를 만들고(Generate data), AI 상용화를 가속(Accelerate)하는 것에 사업의 초점을 맞추고 있다.
올해 6월 합성데이터 생성·응용 기술을 앞세워 중소벤처기업부와 과학기술정보통신부 장관상(AI 부문)을 차례로 받았다.
높은 성장 가능성을 인정받아 10월에는 KT 주도 산학연 협력체 'AI 원 팀(One Team)' 등이 선정한 'AI 스타트업 100'에 이름을 올리기도 했다.
지난달 24일 서울 서초동 사옥에서 이원섭(36) 씨앤에이아이 대표를 만나 일반인들에게 아직은 낯선 합성데이터 시장 동향에 관한 얘기를 들어봤다.
데이터 넘쳐나지만 부족한 '역설'…대안으로 떠오른 합성데이터
인간 삶에 디지털 기술의 융합도가 극도로 높아지는 것이 이른바 4차 산업혁명 시대의 특징이다.
4차 산업혁명을 뒷받침하는 근간은 끊임없는 기계학습(machine learning)을 통해 성능을 향상해 가는 인공지능(AI)이다.
AI가 학습하는 재료는 도표나 영상·이미지 등으로 구성된 데이터.
세상 밖으로 나오기 전이나 갓난아이 단계인 AI가 제 몫을 하는 어른으로 성장하는 과정에서 매일 먹어야 하는 밥 같은 존재가 데이터라고 할 수 있다.
산업의 쌀이 반도체라는 말에 비춰 본다면 AI의 쌀은 데이터인 셈이다.
그러나 개인정보 보호 등의 이슈로 사용 가능한 실제 데이터양이 한정돼 있고, 데이터가 있더라도 인간의 손으로 AI 학습에 적합하게 가공하는 작업(라벨링)을 하는 데는 많은 시간과 비용이 든다.
특정 분야에서 한 종류의 데이터가 다른 데이터와 비교해 너무 많거나 적을 때 생기는 데이터 불균형 문제도 있다. 데이터 불균형은 불완전한 AI 학습으로 이어질 공산이 크다고 한다.
이 때문에 데이터가 넘쳐나는 정보화 사회에서 데이터가 부족한 역설적인 상황이 빚어지고 있다.
AI 기술 발달과 보급 확산으로 수요가 폭증하는 데이터의 부족 문제를 해결할 수단으로 등장한 것이 합성데이터다.
실제 데이터가 아닌 합성데이터를 만드는 데는 '생성적 적대신경망'(Generative Adversarial Network)으로 불리는 갠(GAN) 기술이 주로 활용된다.
갠은 입력값인 실제 데이터와 비슷한 특징을 갖는 가짜 데이터를 생성하는 딥러닝 신경망의 한 종류다.
합성데이터 생성을 이미지 편집 도구인 포토샵과 비교해 볼 수 있다.
이 대표는 수작업으로 프레임 하나하나의 작업을 하는 것이 포토샵이라고 한다면 갠에 의한 합성데이터 생성은 AI가 각 상황을 판단해 쉬지 않고 빠르게 작업하는 것이 두드러진 차별점이라고 설명했다.
AI가 먹는 사료로 볼 수 있는 데이터를 AI가 자동으로 만드는 이런 특성 때문에 합성데이터를 사용하면 수집 비용을 종래의 10분의 1 수준으로 줄일 수 있다고 한다.
합성데이터 사용 비율, 실제 데이터 추월할 듯
이 대표는 컴퓨터 시뮬레이션을 통해 만들어내는 합성데이터를 이해하기 쉬운 하나의 사례로 급속도로 진화하는 자율주행 기술을 들었다.
완벽한 자율주행을 위해서는 해당 기능을 관장하는 AI가 온갖 도로 환경에서 적절히 대응하도록 학습하는 과정이 필요하다.
하지만 실제 데이터만으로는 시나리오가 제한돼 복잡한 양태의 도로 환경을 완벽하게 학습시키기 어렵다.
고라니가 차량 앞으로 갑자기 뛰어들거나 사람이 공중에서 떨어지거나 하는 것처럼 실제 데이터로는 확보할 수 없는 장면을 인위적으로 만들 필요가 생기는 것이다.
이 대표는 AI를 새로 설계하거나 고도화하려면 기본적으로 양질의 많은 데이터가 필요하지만 실제 데이터의 질이 떨어지거나 개인정보 보호 문제에 걸려 필요한 데이터를 충분히 구하기 어려운 경우가 많다고 했다.
이처럼 아예 구할 수 없거나 구하기 힘든 데이터를 합성데이터가 대체해 줄 수 있다.
합성데이터가 상상으로 꾸며낸 가공(架空)의 데이터라고 볼 수 있는지를 놓고는 '가짜지만 실물처럼 보이는 가상(假象)의 데이터'라고 표현하는 게 맞는다는 견해를 밝혔다.
그는 합성데이터의 특별한 가치로 데이터 확보에 필요한 시간과 비용을 줄여주고 특정 시나리오에 맞추어 데이터를 생성할 수 있는 점을 꼽았다.
합성데이터가 활용되는 영역은 제조, 금융, 의료 등으로 매우 다양하고 범위도 넓다.
이 대표는 합성데이터를 요청하는 파트너사가 계속 늘고 있다며 지난해 9건이던 프로젝트 계약이 올해 들어서만 34건으로 4배 정도 급증했다고 말했다.
글로벌 시장조사업체인 가트너가 분석한 바에 따르면 합성데이터 시장은 연평균 23%씩 성장해 2026년을 기점으로 AI 학습 분야에서 사용되는 합성데이터 비율이 실제 데이터를 압도하게 된다.
가까운 미래인 2024년의 글로벌 시장 규모는 약 261억 달러에 달할 전망이다.
국내 합성데이터 시장도 2018년 1천600억원에서 2024년 5천800억원 규모로 연평균 9.4%씩 불어나는 비약적 성장세를 이어갈 것으로 중소벤처기업부는 예상한다.
데이터 부족 '페인 포인트' 해결하겠단 생각에 창업
씨앤에이아이는 합성데이터만을 전문으로 하는 국내 최초의 AI 스타트업이라고 자부한다.
이 회사를 세운 이 대표는 미국 인디애나대학에서 경제학을 공부한 뒤 카이스트 기술경영 석사를 마쳤다.
이 대표가 합성데이터 시장의 엄청난 잠재력에 눈을 뜬 것은 소프트웨어(SW) 엔지니어 등으로 6년여간 몸담았던 삼성전자 근무 시절이다.
그에게 직접 창업 동기를 들어본다.
"대기업에 있을 때부터 비전(이미지) 관련 AI 과제를 많이 했어요. 이후로도 대기업, 중소기업, 스타트업을 두루 상대했는데, 데이터가 충분한 경우를 보지 못했습니다. AI 학습에 필요한 이미지 데이터가 20만 장이라고 하면 실제로 받은 것은 많아야 5천 장 정도로 턱없이 부족했던 것이죠. 합성데이터 기술을 접하면서 데이터 부족이라는 '페인 포인트'(고충점)를 해결할 대안으로 보고 창업했습니다."
사명(社名)에 AI 분야의 '새로운 장'(Code New)을 연다는 뜻을 내포한 씨앤에이아이가 설립될 당시 국내에 합성데이터 생성을 전문적으로 다루는 곳은 없었다고 이 대표는 말했다.
자사가 국내 최초의, 그리고 가장 많은 특허를 보유한 합성데이터 전문 스타트업이라는 것이다.
그러면서 합성데이터 분야의 선두업체로서 차별화 포인트를 갖고 있다고 자부했다.
그는 "합성데이터 프로젝트를 하면 할수록 제너럴한(보편적인) 이미지 처리 기술력이 중요하다고 느낀다"며 데이터 압축이나 화질을 높이는 슈퍼 레졸루션 같은 주변부 기술을 쌓은 것이 자사의 강점이라고 말했다.
씨앤에이아이는 출원 절차를 밟고 있는 것을 포함해 이미지 합성데이터 분야에서 가장 많은 약 30건의 기술 특허권을 확보해 놓았다고 한다.
탄탄한 기술력이 뒷받침되지 않으면 맡기 어려운 34건의 공공·민간 프로젝트도 진행하고 있다.
"대기업 출신 직원도 여럿…성장하는 모습 보고 왔죠"
이 대표 표현을 빌리자면 씨앤에이아이는 "홀로 시작해 한 명 한 명 채용하면서 커진 회사"다.
창업 3년 만에 전체 팀원 50여 명 중 70% 이상이 엔지니어로 이뤄진 '작지만 강한' 테크 스타트업으로 발돋움했다.
직원 중에는 대기업을 그만두고 들어온 사람도 꽤 있다고 한다.
이 대표는 "여러 이유가 있겠지만 성장하는 모습을 보고 왔다고 생각한다"고 언급했다.
스타트업으로는 이례적으로 서울 강남 지역에 지하 2층, 지상 2층 규모의 사옥을 마련한 씨앤에이아이는 국내 중심으로 펼쳐온 사업 영역을 해외로 넓히는 계획을 다듬고 있다.
그 일환으로 국내 ICT(정보통신기술) 스타트업의 해외 진출을 지원하는 KIC 프로그램을 적극적으로 활용하면서 미국 실리콘밸리에 지사를 두는 방안을 추진 중이다.
내년 1월 미국 라스베이거스에서 열리는 세계 최대 가전·IT 전시회 'CES 2023'에도 참가한다.
이 대표는 글로벌 수준의 합성데이터 기술로 AI 혁신을 이끈다는 비전을 갖고 있다며 AI 상용화에 기여하는 플랫폼 기업으로 성장해 나가겠다고 포부를 밝혔다.
parksj@yna.co.kr
▶제보는 카톡 okjebo
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- 필라테스 강사 출신 배우 양정원, 사기 혐의 고소당해 | 연합뉴스
- 결혼 앞둔 특수교사 사망에 근조화환 160개 추모 행렬 | 연합뉴스
- "전우 시신밑 숨어 살았다"…우크라전 '생존 北병사' 주장 영상 확산 | 연합뉴스
- '흑백요리사' 트리플스타 레스토랑 공금횡령 의혹…경찰 내사 | 연합뉴스
- "잘못을 고백합니다"…'비빔대왕' 유비빔씨, 돌연 가게 접기로 | 연합뉴스
- 경찰서 유치장서 40대 피의자 식사용 플라스틱 젓가락 삼켜 | 연합뉴스
- '머스크가 반한' 사격 김예지, 테슬라 앰배서더 선정…국내 최초(종합) | 연합뉴스
- 9살·10살 자녀 둔 30대 엄마 뇌사 장기기증으로 6명 살려 | 연합뉴스
- "생후 1천일까지 단 거 덜 먹으면 중년에 당뇨·고혈압 위험 뚝" | 연합뉴스
- 지하 벙커 물 채워 감금…"13시간 남았어" 지인 가혹행위한 40대 | 연합뉴스