[Interview] AI 학습용 데이터 수집·가공 업체 셀렉트스타 김세엽 대표 | “삼성전자 등 230개 고객사 확보, 美 AI 캐릭터 시장 진출 계획”

김민국 조선비즈 기자 2024. 4. 22. 11:22
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

김세엽 셀렉트스타 대표 카이스트(KAIST) 전기·전자공학부, 전 국방과학연구소(ADD) 연구원, 셀렉트스타 창업, 포브스 ‘2021년 아시아 30세 이하 리더’

지난 2019년 2월 스페인 바르셀로나에서 열린 세계 최대 모바일 전시회 ‘모바일월드콩그레스(MWC)’. 국내 인공지능(AI) 순위를 보여주는 플랫폼 개발을 검토 중이었던 LG그룹의 IT 서비스 계열사 LG CNS 관계자는 한 부스 앞에 멈췄다.

이 부스를 이끄는 주인공은 창업 2년 차김세엽(28) 셀렉트스타 대표로 “AI 데이터 구축 사업을 하고 있는데, (LG CNS의 플랫폼 개발에) 도움이 될 것”이라고 소개했다. 양측의 만남은 같은 해 AI 언어 모델 테스트 플랫폼 ‘코쿼드 2.0’ 개발로 이어졌고, 현재도 LG CNS가 널리 사용하는 플랫폼이 됐다.

2019년 LG CNS 고객사로 유치…현재 삼성전자, 네이버 등 230개 고객사 확보

김 대표는 최근 서울 강남구 셀렉트스타 사무실에서 진행한 인터뷰에서 “AI 학습용 데이터를 수집하는 우리 사업과 국내 AI 성능 관련 데이터를 수집해 플랫폼을 만들고자 하는 LG CNS의 방향성이 일치했다”며 “LG CNS와 협업을 계기로 현재는 삼성전자, 네이버, SK텔레콤, KT, LG유플러스 등 230개의 고객사를 확보했다”고 말했다.

셀렉트스타는 AI 학습용 데이터를 수집하고 가공, AI의 성능을 끌어올리고자 하는 기업을 돕는 회사다. 학습 데이터가 AI의 성능을 좌우하기에 데이터가 부족하면 이용자의 명령을 제대로 이해하지 못하고, 결과물도 만족스럽지 않다. 김 대표는 “AI 개발에 드는 전체 시간에서 학습용 데이터를 준비하는 데만 80%를 써야 한다는 말이 있다”며 “양질의 학습 데이터가 그만큼 중요하다는 뜻이다” 고 말했다.

셀렉트스타의 사명에도 ‘세상에 있는 모든 데이터를 다루겠다’는 의지가 담겼다. 김 대표는 “컴퓨터의 데이터베이스(DB)에서 정보를 얻기 위해서 사용하는 ‘에스큐엘’이라는 프로그래밍 언어가 있다”며 “에스큐엘을 사용해 원하는 정보를 찾기 위해서는 명령어 ‘셀렉트(select)’를 입력하고 스타(*) 버튼을 눌러야 한다”고 설명했다. 이어 “세상에 있는 모든 데이터를 다루며 고객사에 필요한 정보를 제공해주겠다는 목표가 사명에 반영됐다”고 했다.

김 대표는 2017년 카이스트(KAIST) 전기·전자공학부를 수석 졸업하고 국방과학연구소(ADD)에서 국방 관련 AI 학습용 데이터를 수집하는 업무를 맡았다. 당시 막내 연구원이었던 김 대표는 학습용 데이터를 수집하고 라벨링(AI가 식별할 수 있는 형태로 데이터를 가공하는 것)하는 데 많은 시간을 써야 했다. 그는 “학습용 데이터를 모으는 데 써야 하는 시간이 AI 개발자의 발목을 잡는다는 사실을 깨달았다”며 “이를 대신해 주는 기업을 만들면 승산이 있을 것이라고 생각했다” 고 말했다.

셀렉트스타는 AI 학습용 데이터를 수집하고 가공, AI의 성능을 끌어올리고자 하는 기업을 지원하고 있다. 셀렉트스타

김 대표는 2018년 KAIST 동문인 신호욱 공동 대표를 포함한 6명과 함께 셀렉트스타를 설립하고 AI 학습 데이터 구축 사업에 뛰어들었다. 그는 “2016년 바둑 AI 알파고를 기점으로 AI 붐이 불면서 학습용 데이터 구축 시장도 커질 것이라고 확신했다”며 “미국에는 AI 학습 데이터 업체가 우후죽순 생겨나고 있었는데, 당시 국내에는 ‘크라우드웍스’라는 기업 한 곳뿐이었다”고 설명했다. 이어 “국내 AI 산업의 발전을 위해서라도 학습용 데이터 기업이 꼭 필요하다고 생각했다” 고 회상했다.

AI 학습용 데이터 수집·가공해 공급

셀렉트스타의 사업은 AI 학습용 데이터를 ‘기획-구축-판매’하는 세 가지 축으로 돌아간다. ‘기획’ 단계에서는 고객사가 의뢰한 AI 개발 방향에 맞춰 데이터를 수집한다. 예컨대 고객사가 금융 관련 AI 플랫폼을 개발하고 싶다고 의뢰하면 금융 관련 논문, 기사, 고객사 자체 서버에 있는 내부 문서 등 다양한 정보를 수집한다. AI가 데이터를 어떻게 해야 잘 활용할 수 있는지 분석하고 적합한 파일 형태로 변환해주는 과정도 거친다.

‘구축’ 단계에서는 수집한 데이터를 작업자들이 모여 하나하나 분류하며 가공한다. 특정 도로의 교통량을 분석하는 AI 플랫폼을 위한 학습 데이터를 만들기 위해, 작업자들이 도로 사진에 있는 자동차를 하나하나 체크하며 구분하는 작업을 하는 식이다. 셀렉트스타는 이 과정에서 ‘캐시미션’이라는 독자적인 플랫폼을 사용한다. 캐시미션은 여러 작업자를 모아놓고 간단한 데이터를 라벨링하는 프로그램이다. 현재 25만 명의 인원이 플랫폼에 가입돼 있어 대량의 데이터를신속하게 분류할 수 있다. 캐시미션에 가입한 작업자들은 특정 미션을 수행할 때마다 보수를 받는다.

김 대표는 “데이터 가공을 위해 인력을 일일이 채용하면 시간이 너무 많이 든다”며 “사람들이 자발적으로 참여할 수 있는 보상 지급형 플랫폼을 만들어 통상 6개월 걸리는 데이터 수집·가공 작업을 1개월 정도로 대폭 줄였다”고 말했다. 셀렉트스타가 즉시 작업을 의뢰할 수 있는 전문 인력은 약 2500명에 달한다. 이렇게 가공을 마친 데이터는 고객사에 판매된다.

창업 초기 계약 일방 파기 당하는 등 어려움 극복

셀렉트스타는 여느 스타트업처럼 창업 초기 어려움을 겪었다. 어렵게 따낸 프로젝트를 고객사가 ‘생각보다 AI 성능이 나오지 않는다’라는 이유로 계약을 파기한 것이다. 김 대표는 “데이터 수집과 가공을 해서 전달했는데, 고객사의 AI 개발 능력이 따라와 주지 못하면서 프로젝트 자체가 수포가 됐다”라며 “AI 업계는 특정 고객사와 관계가 오래 가야 꾸준히 프로젝트를 수주할 확률이 높아지는데, 고객사가 AI 프로젝트 자체를 포기하게 되면 원점으로 돌아가 다른 고객사를 유치해야 하는 과정을 거치게 된다”고 설명했다.

셀렉트스타는 2020년 카카오벤처스와 CJ인베스트먼트 등이 참여한 시리즈A 라운드 투자에서 40억원을 유치했다. 지난해 8월에는 산업은행으로부터 40억원을 추가 유치했다. 현재까지 누적 유치 투자금은 174억원이다. 김 대표는 “AI 수준이 상향 평준화되면서 더 많은 기업이 학습 데이터의 중요성을 깨닫고 있다”며 “학습용 데이터를 다루는 데 관심 있는 기업들의 투자가 이뤄지고 있다” 고 말했다.

AI 캐릭터가 유아와 대화하는 콘텐츠 개발…“美 시장 진출할 것”

셀렉트스타는 유아 교육용 AI 서비스를 가지고 미국 시장 진출을 준비 중이다. 유아들은 특정 캐릭터를 선호하는 경향이 있어 콘텐츠에 대한 충성도가 높은 편이다. 캐릭터에 AI를 입혀 고품질 교육 서비스를 제공하겠다는 계획이다. 김 대표는 “AI 캐릭터가 유아들과 직접 대화하고 놀아주면서 부모들의 육아 고충을 덜고, 아이들의 나쁜 습관도 개선할 수 있는 프로그램을 기획 중”이라며 “미국 시장 진출을 위해 영미권 키즈 콘텐츠 회사와 IP(지식재산) 계약을 맺고 캐릭터 개발 협업을 진행하고 있다”고 말했다.

Copyright © 이코노미조선. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?
타임톡beta

해당 기사의 타임톡 서비스는
언론사 정책에 따라 제공되지 않습니다.