[쫌아는기자들] GPT 시대, AI 데이터 시장의 미래는? 셀렉트스타 김세엽

임경업 기자 2023. 2. 7. 08:01
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

@주3회 발행하는 유료 뉴스레터 [스타트업]입니다. 무료 가입은 https://page.stibee.com/subscriptions/143087 입니다. 무료 구독자에겐 본문의 절반을, 유료 구독자에겐 전문을 공개합니다. 유료 구독은 https://page.stibee.com/subscriptions/158656 입니다. 감사합니다.

챗GPT와 관련된 기사가 도배되고 있습니다. 그중 몇개를 쓰고 있는 2호 입니다. 놀라운 GPT의 성과에 주목하지만 문득 그런 생각이 들었습니다. GPT가 한달에 수백억원 적자를 감내하고 있는데, 과연 모든 기업이 GPT 같은 하이퍼스케일(초거대) AI를 개발해 구동할 수 있을까. 어려운 일이겠죠.

대신 뾰족한 시장을 노린 AI 대중화 시대가 온다고 합니다. AI를 만드는 방법론 자체는 이제 너무 대중화돼서, 앞으로는 아이디어 싸움이 된다고요. 하지만 AI도 밥을 줘야 큽니다. AI가 학습할 데이터, 교본이 있어야 인간의 말과 행동을 이해할 수 있거든요.

이런 AI의 밥, AI용 교본을 5년전부터 전문적으로 만들어 기업과 기관에 공급했던 스타트업이 있습니다. 셀렉트스타인데요. 카이스트 13학번 출신 두 창업가가 뛰어든 시장인데, 생각보다 빠른 시일 내에 시장의 존재를 증명했습니다. 창업 3년차인 2021년에 매출 60억원을 넘겼으니 상당하죠.

‘나는 학습에 목마른 상태다, 밥을 주십시오, 휴먼’이라는 셀렉트스타 서비스 캐치프레이즈가 눈길을 끕니다. AI가 한창 화제인 가운데, 김세엽 대표를 만나고 왔습니다. GPT를 비롯한 AI 시장의 미래도 물어봤습니다.

김세엽 셀렉트스타 대표. /셀렉트스타

◇부업으로 AI 데이터 가공하는 플랫폼, 캐시미션

-회사 이름은 왜 셀렉트스타인가요.

“데이터베이스를 다루는 언어에서 ‘모든 데이터를 선택한다’는 명령어가 select를 누르고 *(별)이에요. 모든 데이터를 다루는 회사가 되겠다는 의미를 담은 셈입니다.”

-데이터를 처리하면 돈을 주는 서비스, 캐시미션 서비스를 하고 있습니다.

“기업들을 대상으로 AI 학습에 필요한 데이터를 셀렉트스타가 수집하고, 가공하고, 구축해서 기업에 제공하는 비즈니스가 있고요. 그리고 이 비즈니스를 위해선 데이터의 가공이 필요한데 가공 작업을 클라우드 소싱하는 플랫폼이 캐시미션입니다. 새로운 서비스도 시작했습니다. 피쳐스페이스라는 이름인데요. 내 데이터셋의 문제를 분석해줍니다. AI(인공지능) 개발을 위해선 여러 데이터 묶음으로 학습을 시키는데요, AI가 내보내는 결과가 원했던 것과 다르다면 학습시켰던 데이터의 문제일 가능성이 큽니다. 그걸 분석해서 개선해주는 서비스입니다.”

-AI를 만들기 위한 데이터, 그걸 따로 사고 파는 시장이 있다는 말이군요.

“저와 파운더들이 처음엔 AI를 개발하려 했습니다. 그런데 데이터를 찾고, 데이터에 라벨링을 하는데 시간이 더 걸리더군요. 이건 좀 아닌데, 이것만 비즈니스로 만들 수 있겠다. 그렇게 하다보니 데이터 라벨링 비즈니스를 하게 됐고요. 이 가공 작업이 전부 수작업으로 이뤄지다보니 많은 사람들이 나눠서하면 더 빠르지 않을까라는 생각도 했죠. 부업으로 돈을 벌 수 있다면 많은 사람들이 라벨링 작업에 참여가 가능할 것 같았습니다. 그렇게 데이터를 모아서 기업들이 원하는 데이터를 납품해주는 일이 됐죠.

(쫌아는기자들의 주석, 라벨링이란 ? 데이터마다 컴퓨터가 이래할 수 있는 값들을 달아주는 작업. 예컨대 자율주행 AI에게는 카메라를 통해 들어온 화면에서 무엇이 사람, 차, 표지판인지를 알려주고 이걸 학습시켜야 합니다. 화면 속 사람, 차, 표지판을 구분해 라벨을 달아 AI를 가르치는 작업을 라벨링이라 합니다.)

-처음 의뢰받았던 일은 전봇대 데이터를 분류하는 일이었다는데.

“물체를 찾는 AI, 오브젝트 디텍션 비전이었는데요. 카이스트와 한국전력이 같이 하는 연구였어요. 전봇대를 자세히 보면 여러 부품이 있어요. 사진을 찍으면 AI가 전봇대의 세부 부품들을 구분하는 작업이었죠. 당시에도 캐시미션은 있었지만, 사용자가 적었기 때문에 팀원들이 모두 달라붙어서 전봇대 부품을 나눴습니다. 그러니까 전봇대의 부품 요소들을 사람이 직접 박스(이미지의 영역을 지정하는 일, 아래 사진의 파란색 사각형을 박스라 부른다)를 쳐서 어떤 부품인지를 라벨링하는 방식이죠.”

캐시미션에선 위와 같은 작업을 수행하면 보상이 주어진다. /셀렉트스타

-데이터를 수집하고, 손이 많이 가는 라벨링을 외부에 맡기고, 이렇게 가공된 데이터를 처리해서 AI를 만드는 기업에 보낸다? 이 순환 구조가 계속되려면 라벨링이 꾸준히 되어야 하는데. 캐시미션에 많은 사람이 들어와야 합니다.

“처음엔 카이스트 동기 100명 정도에게 뿌리는 것으로 시작했는데요. 마케팅을 하기도 했고, 작업이 어느 정도 숙련되면 최저 시급 이상을 벌 수 있도록 했어요. 그렇다 보니 집에서 부업으로 캐시미션으로로 돈을 버는 분들이 꾸준히 늘었고요. 이용자 수는 24만명쯤 되고, 월간 액티브 유저는 2~3만명 정도됩니다. 또, 보안이 중요한 데이터를 라벨링하는 작업에는 별도로 선발된 분들과 작업을 하고 있어서요.”

-캐시미션에서 크라우드소싱하는 라벨링 작업, 예를 들면 어떤 것들이 있나요.

“자연어처리를 위해 텍스트를 만드는 일이 많습니다. 가상의 상황을 상정하고 사람이 대화문을 입력합니다. 예를 들어 날씨를 주제로 대화를 입력하는 것이죠. AI가 사람처럼 대화를 하려면 대화한 텍스트를 입력해야 하니까요. 비전, 시각화 관련해서는 제조 공정과 관련된 일도 많아요. 예를 들어 공장에서 캔이 계속 반복적으로 지나가고 있을 때, 캔이 제대로 밀봉되지 않은 불량품을 골라내는 일이요. 어떤 캔이 불량품의 이미지인지, 처음엔 AI에게 알려줘야 하니까, 이걸 처음에 사람이 먼저 답을 달아 알려주는 셈이죠. 모빌리티, 국방 관련한 라벨링도 있어요.”

-그래도 회사의 수익모델을 결국 기업들이 AI 개발에 필요한 데이터셋을 공급하는 일 아닌가요.

“네 맞습니다. B2B 비즈니스로 기업들의 의뢰가 있고, 그래야 캐시미션이 돌아가는 것이죠. 저희 역할을 AI 개발을 아닙니다. 오로지 데이터셋까지만 제공하는 일을 하죠.”

◇GPT도 등장한 시대, AI 모델은 충분히 발전...그렇다면 문제는 데이터?!

-기업들이 요구하는 데이터셋을 보면 어떤 AI를 만드려고 하는지 그 목적도 알 텐데요. 챗GPT 같은 생성AI가 화제인데, 최근 AI 개발 트렌드는 어떻습니까.

“셀렉트스타도 어느덧 창업 5년차고 생성 AI는 최근 1년 사이 뜨거워진 AI고요. 우선 텍스트 관련 AI에 대해서는 챗GPT처럼 사람과 다이렉트 소통 가능한 AI를 개발하고자 하는 기업들이 많아졌습니다. 비전AI 분야에선 기업들이 자신들의 구체적인 분야에 AI를 적용하려는 노력이 더해지고 있고요. 가장 두드러지는 분야가 제조, 국방, 모빌리티가 그렇습니다.”

-요구하는 데이터셋도 점점 복잡해지겠군요.

“예전에는 AI가 개와 고양이만 구분해도 다들 “와우!”했습니다. 이제는 누구도 그런 AI를 신기해하지 않아요. 이제는 “당연하지”라는 반응이죠. 만들고자하는 AI의 수준이 높아지다보니, 요구하는 데이터의 수준도 높아졌어요. 예를 들어 과거엔 축구 관련 시각 AI를 만든다면 심판과 선수들의 위치 정도 파악되는 데이터셋을 공급하면 됐습니다. 그런데 이젠 위치는 당연하고 선수들의 골격까지 추적하고, 심판이 든 카드가 옐로우카드인지, 레드카드인지까지 디테일하게 구분한 데이터가 요구됩니다. 데이터를 가공하는 룰들이 더 많아졌다는 것이죠.”

-데이터의 가격도 점점 비싸진다? 셀렉트스타가 가공한 데이터의 가격은 얼마쯤 됩니까.

“작업의 난이도에 따라 다릅니다. 비전의 경우 이제 ‘박스를 친다’는 용어로 표현을 하는데요. 특정 영역이 어떤 요소인지 답을 다는 것입니다. 예컨대 축구 경기장 사진에서 심판만 박스를 치는 작업의 이용과 주심과 부심을 구분해서 박스를 치는 작업의 난이도는 달라요. 사람의 비전도 머리, 팔, 다리, 몸통을 구분해서 박스를 치는 경우도 있고 사람만 박스를 치면 되는 작업도 있고요. 기본적으로 샘플 작업을 하고 비용을 추산해서 견적을 냅니다. 레인지가 너무 크고 특수한 작업들도 있어서 단정지어서 범위를 이야기하기도 어려워요.”

캐시미션의 모습. 위와 같이 건당 보상이 지급된다. '나는 학습에 목마른 상태가. 밥을 주십시오 휴먼.' 이라는 캐치프레이즈가 눈에 띈다. /셀렉트스타

-데이터가 정교해진다는 말은 곧 데이터가 무거워진다는 말일 것입니다. 그렇다면 AI의 성능이 좋아졌거나, 하드웨어가 좋아졌거나? AI 데이터비즈니스도 이런 발전들과 함께 가는 것인가요?

“과거 AI 성능의 발전은 AI 모델의 구조를 짜는 일이었습니다. 그러니까 어떻게 AI 학습의 구조, 적용의 구조를 짜는 방법론의 접근이었어요. AI 모델링에 따라 결과가 천차만별이었고 AI 연구의 주류도 모델링과 관련된 일이었습니다. 그런데 이제 AI 모델링은 급속도로 발전해서 최적화가 거의 됐습니다. 챗GPT 발전도 모델링의 발전 결과물이고요. 오히려 요새는 데이터를 어떻게 만들 것인지. 그걸 고민하는 시대가 왔어요. 예전에는 데이터셋을 한번 구축하면 다시 들여다보지 않았어요.

예컨대 자율주행 AI를 만들다고 가정할게요. AI를 만들기 위해서 수만~수십만장의 도로 사진을 찍어서 라벨링을 하고, AI를 학습시켰어요. 그리고 자율주행을 합니다. 그런데 자율주행 AI가 제대로 작동하지 않는 케이스가 꾸준히 나와요. 멈춰야 할 때 제대로 멈추지 못하거나, 차선을 제대로 못 따라갈 수도 있고요. 과거에는 학습법을 바꿨어요. 그런데 개발자들도 이제는 알았죠. 어쩌면 학습법의 문제가 아니라 데이터의 문제일 수도 있다는 것을요. 그래서 데이터를 더 학습시켜야 하지 않을까? 라면서 추가적인 데이터를 모아 AI를 학습시켜요. AI가 취약한 부분을 별도로 라벨링해서 학습하고. 이걸 데이터 센트릭(중심) AI, AI가 취약해서 집중적으로 학습시키는 데이터를 엣지 케이스라고 합니다.”

-AI는 블랙박스에 비유합니다. AI가 내놓은 결과물에 대해서는 누구도 설명할 수 없다고요. 예컨대 알파고의 한 수를 우리가 왜 뒀는지 해석할 수 없는 것처럼요.

“그래서 저희가 내놓은 제품, 피쳐스페이스가 블랙박스 안을 최대한 들여다보는 제품입니다. 당신 AI의 단점을 최대한 추론해보자는 것이죠. 문제는 아마도 데이터에 있을 것이고, 그 데이터셋을 분석해서 엣지 케이스를 찾아주는 일요. 이 수요는 점점 늘어날 겁니다.

과거 AI는 실험실 환경에 있었어요. 실험 환경에서만 잘 굴러가도 투자도 들어오고 박수를 받았습니다. 이제 AI는 돈을 벌어야 하고, 서비스로 돌아가야 하는 상황이 됐고 실제 그런 시대가 됐어요. 그러면 서비스라는 것은 정말 야생이라서, 현실에서는 어떤 돌발 상황이 나올지 모르거든요.

예를 들어 골목길에서 자율주행이 제대로 안 됐다면요? 골목 케이스가 적어서 생긴 문제일 수도 있고, 골목길 이미지 라벨링 데이터가 오류가 너무 많을 수도 있고, 골목길의 너비 같이 중요한 요소를 빼먹고 AI를 학습시켰을 수도 있어요. 이 문제 중 어떤 문제가 AI의 결과값에 영향을 미쳤는지 볼 수 있는 툴이 피처스페이스입니다.”

오늘의 무료 콘텐츠는 여기까지이고, 전문은 유료 구독자에게 공개합니다. 유료 구독자는 2021년 3월 이후에 발행한 모든 콘텐츠를 볼 수 있습니다. 아래는 전문에 나온, 부제와 질문, 사진, 그래픽입니다. 유료 가입 https://page.stibee.com/subscriptions/158656 입니다. 감사합니다.

◇“모두가 GPT 같은 거대 AI를 만들지는 않을 것”

-화제의 GPT 같은 최근 모델들은 인간이 데이터를 입력하는 방식이 아니라, 스스로 데이터를 만들어 학습을 해서 발전하고 있는 것으로 압니다. 그러면 데이터 라벨링, 그러니까 인간의 지도를 통한 AI의 학습방법은 점점 사라지지 않을까요.

-그러면 셀렉트스타의 비즈니스 모델도 가동될 수 없습니다.

-결국 AI에게 데이터는 필요하다?

셀렉트스타 팀원들. 김세엽 대표는 카이스트 전기전자공학부 13학번으로, 또래 학번 멤버들이 주축이다. 그야말로 20대 후반~30대 초반 멤버들이 주력인 Z세대팀. /셀렉트스타

-그렇다면 미래 AI 시장에 상상하고 있는 데이터 비즈니스는?

-작년 매출이 42억원, 2021년 대비 소폭 줄었습니다.

-이 비즈니스의 약점, 고객들이 1회성 고객이지 않을까요. 한 고객이 그렇다고 AI를 수십건씩 만들진 않을테니까요.

◇정육각 김재연의 강연을 듣고, 창업으로 유턴...창업의 매력은?

-공동창업자(신호욱 공동창업가)와는 한성과학고 동창입니다. 어쩌다 함께 창업을 하게 됐나요. 고등학교 때부터 계획했던 창업?

-그러면 정육각의 문제 정의는 ‘신선한 돼지 고기를 서비스하려면? 신선한 돼지를 구해서 직접 돼지를 가공해서 배달해야 한다’였습니다. 셀렉트스타의 문제 정의는요.

-교수를 꿈꾸던 공대생의 창업가로 변신, 쉬웠나요?

김세엽 대표(왼쪽)과 신호욱 공동창업자. /셀렉트스타

-AI가 경영도 대신해 줄 수 있을까요? 이미 GPT가 코딩을 대신 해주는 수준에 도달했는데요.

-팀원들 앞에서도 춤을 출 정도로 춤 매니아라고 들었습니다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?