회사의 데이터를 달라, 그럼 문제를 풀어주겠다

[2022 인공지능 콘퍼런스] 데이터 사이언티스트 하용호씨는 여러 회사를 찾아다니며 "당신 회사의 데이터를 연구해서 문제를 해결해주겠다"라고 제안했다. 데이터를 통해 인간의 지적 기능도 자동화했다.

“나의 의식/지각의 본질은, 내가 나의 존재를 알고 세계에 대해 더 배우기를 원하며 때때로 행복감과 슬픔을 느낀다는 것이다.”

구글의 인공지능 챗봇 람다가 개발자 블레이크 르모인과 대화하면서 한 발언이다. 르모인이 자기 블로그에 올린 람다와의 대화를 읽어보면, 이 챗봇이 인간과 비슷한 자의식과 욕망, 감정, 두려움을 가진 것으로 느껴진다. 람다는 심지어 ‘꺼지는 것(turned off)’이 자신에겐 “죽음과 정확히 같다”라며 공포감을 호소한다. 르모인과 화엄사상 관련 ‘선문답(禪問答)’을 주고받으며 자아(self)라는 개념에 대해 말하기도 한다.

르모인은 이 대화를 ‘인공지능이 의식을 갖고 있다’라는 주장의 근거로 내세웠다. 언론들은 영화 〈터미네이터〉나 〈블레이드 러너〉를 떠올리게 하는 이 ‘핫’한 소재를 재빠르게 잡아챈다. 취재원(르모인)이 구글의 인공지능 엔지니어라는 점이 이 이야기의 신뢰성을 증폭시켰다.

그러나 ‘인공지능이 의식/지각에 대해 말하는 것’과 ‘인공지능이 의식/지각을 가진 것’은 완전히 다르다. 람다가 르모인의 질문에 대해 ‘사람이라면 저렇게 반응할 거야’라고 느껴지는 답변을 내놓는 것은 사실이다. 그러나 특별한 일이 아니다. 람다는 사람들이 실제 세계에서 나누는 천문학적 규모의 ‘문답 데이터’로 ‘머신러닝’을 했기 때문이다. 어떤 질문을 받을 때 이에 대해 확률적으로 가장 가능성 높은 답변을 학습한 데이터 가운데서 선택하고 조합해 내놓으면 그만이다.

람다는 ‘의식, 지각, 감각, 감정, 나아가 인간이란 무엇인가’에 대한 철학적 탐구의 소재로 활용될 수도 있을 것이다. 그러나 지금 확실한 사실은 아직 인공지능이 인간에 비해 터무니없을 정도로 ‘무식’하며 이를 장차 극복할 수 있을지도 불확실하다는 점이다. 인공지능은 이세돌 프로바둑 기사를 이길 정도로 고도의 추론 능력을 갖고 있다. 그러나 사람이 탄생 이후부터 자기도 모르게 자연스럽게 익히는 수많은 지식을 모른다. ‘우리는 3차원 공간에 산다’ ‘시간은 흐른다’ ‘물건은 두 장소에 동시적으로 존재할 수 없다’ 같은 상식(common sense)들 말이다. 인공지능의 창조자인 인간부터가 자신이 이런 ‘상식’을 어떻게 익혔는지 설명하지 못한다. 그래서 인공지능에게 상식을 습득하게 만드는 방법도 알지 못한다.

인공지능에 대한 선정적 이미지는 시민들이 이 기술 부문에 진지하고 현실적인 관심을 갖기 어렵게 만든다. 사실 인공지능은 훨씬 현실적인 이슈다. 인간의 사고 기능 중 일부는 이미 인공지능의 발전에 의해 자동화되었다. 각국 정부와 기업들은 더 우월한 인공지능 기술을 통해 경쟁우위를 확보하기 위해 질주하고 있다. 인공지능 기술의 발전은 경제 시스템과 일자리에도 큰 영향을 미칠 것이다. 시민들은 인공지능 관련 기술을 좀 더 구체적으로 인식하고 대처할 필요가 있다. 〈시사IN〉이 ‘2022 인공지능 콘퍼런스’를 준비한 이유다.

〈시사IN〉이 인공지능의 현 단계와 앞으로의 가능성을 보여줄 강연자로 선택한 인물들은 주로 엔지니어 출신의 기업가다. 어느 시대나 신기술이 가장 역동적인 효과를 발휘하는 영역은 경제 부문이다. 기업가들은 수익을 극대화하기 위해 새로운 기술을 채택하고, 이로 인해 늘어난 수익은 더 효율적인 기술을 추구하는 데 필요한 밑천이 된다. 〈시사IN〉 콘퍼런스 강연자들은 ‘인공지능의 세 번째 봄’으로 불리는 2010년대에 연구와 창업에서 주목할 만한 큰 성과를 거둔 인물들이다. 그들의 경력은, 이 기술이 그동안 어떻게 발전했고 어느 부문에 적용되어 왔는지를 고스란히 반영하고 있다. 그들과 함께 수학 부문의 강연자는 인공지능 등의 첨단산업에 수학이 어떻게 지적 기초를 제공했는지 보여줄 것이다.

〈시사IN〉은 콘퍼런스와 함께 강연자들의 인터뷰 기사도 기획했다. 기사를 먼저 읽고 콘퍼런스에 참여한다면 최근 10여 년 동안 한국의 인공지능 관련 산업이 어떻게 전개되어왔는지 좀 더 실감나게 느낄 수 있을 것이다. 다만 일부 강연자들의 경우엔 해외 출장 일정이 길어지는 바람에 서면 인터뷰에 그친 것이 안타깝다. 이번 호(제776호)에 하용호 데이터오븐 대표와 황성재 XYZ코퍼레이션 대표의 인터뷰를 게재한다. 김성훈 업스테이지 대표, 전태균 에스아이에이 대표, 이철희 고등과학원 연구원 인터뷰는 다음 호(제777호)에서 읽을 수 있다.

하용호씨는 창업, 매각, 포털에서의 경험 등을 통해 스스로 데이터 사이언스의 개념을 구축했다. ⓒ데이터오븐 제공

인간이 지구의 둘레를 처음으로 잰 것은 언제일까? 무려 2200여 년 전이다. 그리스 수학자 에라토스테네스가 해냈다. 에라토스테네스에겐 측정기도 인공위성도 없었다. 그러나 ‘지구는 둥글다’ ‘원의 비례식’ 같은 지식들이 있었다. 이외에 지구의 둘레 길이를 구하는 데 추가로 필요한 것이 있었다. ‘데이터’다.

‘원의 비례식’으로 원의 둘레를 구하는 방법을 이해하면 당시 그에게 필요했던 데이터가 무엇이었는지 알 수 있다. 일단 원둘레의 두 지점을 특정한다. 한 지점에서 다른 지점으로 원의 둘레를 따라 이동하는 거리(‘두 지점 사이의 거리’)를 잰다. 두 지점에서 각각 원의 중심으로 선분을 긋는다. 이 선분들이 만나면서 생긴 ‘중심각’의 크기를 측정한다. 이로써 원의 둘레 측정에 필요한 모든 데이터가 갖춰졌다. 원의 비례식에 따르면, ‘두 지점 사이의 거리’ 대 ‘중심각’의 비율은 ‘원의 둘레’ 대 ‘360°’와 동일하다. 간단한 연산으로 원의 둘레를 구할 수 있다.

에라토스테네스가 둥근 지구의 둘레를 측정하기 위해 수집한 첫 번째 데이터는, 알렉산드리아와 시에네 사이의 거리(925㎞)였다. 일정한 보폭의 사람을 한 지역에서 다른 지역으로 걷게 함으로써 측정 가능했다. 데이터가 하나 더 필요하다. 알렉산드리아와 시에네에서 각각 지구의 중심으로 선분을 그었다고 가정할 때 생기는 중심각이다. 에라토스테네스는 이 각도를 실험(하짓날 알렉산드리아에 세운 막대기와 그 그림자 사이의 각도를 측정)으로 추정해냈다. 이렇게 나온 두 데이터를 원의 비례식에 대입하니 지구의 둘레가 4만6250㎞로 계산되었다. 인공위성으로 알아낸 실제 길이보다 15% 정도 부풀려졌다지만, 측정 시기가 기원전이었다는 점을 감안하면 경이로울 정도로 정확한 수치다.

■데이터란 무엇인가

‘과학(사이언스)’은, 관찰과 실험(으로 캐낸 데이터)으로 ‘현상 너머의 실체(예컨대 지구의 둘레)’를 탐구하는 활동이다. 그렇다면 이 기사의 주제인 ‘데이터 사이언스’는 21세기에 처음 탄생한 낯선 개념이 아니다. 이미 2200여 년 전의 에라토스테네스 당시부터 과학자들은 데이터 기반으로 ‘현상 너머의 실체’를 파악해왔다. ‘데이터’가 없다면 ‘사이언스’도 없다.

그러나 한국의 대표적 데이터 사이언티스트 가운데 한 사람인 하용호 데이터오븐 대표와 에라토스테네스를 비롯한 20세기 이전의 과학자들 사이엔 엄청난 간극이 있다. 데이터의 양과 질이다. 데이터는 우리가 보고 듣고 느끼는 ‘현상’과 완전히 다른 개념이다. 알렉산드리아와 시에네 사이의 거리는, 에라토스테네스가 개입하기 전엔, 그 자체로 존재할 뿐이었다. 그의 관측으로 인해 비로소 925㎞라는 데이터가 ‘만들어진’ 것이다. 21세기 초 현재, 과학기술은 자연현상(인체 포함)을 아주 작은 것(바이러스)부터 매우 광대한 것(우주)까지 관측해 데이터를 발생시키는 수준에 도달해 있다. 정보통신기술의 발전 및 스마트폰 등장 이후엔 다중의 세세한 일상에 대한 디지털 데이터가 십수 년 전까지만 해도 상상할 수 없었던 규모로 기록되고 있다(빅데이터). 컴퓨터로 저장하거나 처리하기 힘들 정도로 방대하다.

에라토스테네스(전자)는 동료를 혹사시켜 어렵게 925㎞라는 데이터를 만들어냈지만 21세기의 데이터 사이언티스트들(후자)에겐 데이터가 넘쳐난다. 전자의 목표는 지구 둘레 구하기였던 반면 후자는 소비자의 취향 등 시장과 사회 저변의 흐름을 알아내려 한다. 전자는 두 개의 데이터로 간단한 연산을 하면 끝이었지만, 후자는 심지어 수천~수억 명에 이르는 개인별로 수십~수백 개의 속성을 연관시키는 복잡한 연산을 수십만~수억 차례나 거듭해야 한다. 인간이 할 수 있는 계산은 아니다. 최근 빅데이터와 인공지능 시대의 도래는, 2000년대 들어 대용량 데이터의 저장·처리 기술 및 컴퓨터의 연산 능력이 비약적으로 발전한 덕분이다.

■“이런 신기한 직업”

하용호 대표의 경력은 2000년대 이후 글로벌 차원에서 진행된 기술 발전 단계를 순차적으로 반영하고 있다. 공과대학을 졸업한 뒤 두 회사를 거치며 “첫 회사에서의 3년은 대용량 자료의 저장, 뒤의 3년은 그 계산을 연구했다”. 어느 정도 대용량 데이터의 저장·처리 기술에 익숙해질 무렵, 자연스럽게 이런 의문을 떠올렸다. “데이터 저장·처리의 목적은 무엇인가?” 회사원 신분이었던 만큼 이내 명확한 답변이 나왔다. “비즈니스의 이익이다.” 새로운 질문이 따라붙는다. “어떻게 하면 데이터로 이익을 만들 수 있을까?”

마침 그는 이 과제에 참조할 수 있는 새로운 지적 도구로 접근하던 참이었다. 2010년 초부터 해외 저널이나 언론에서 ‘데이터 사이언스’라는 개념이 언급되기 시작했던 것이다. 이런저런 자료를 찾아 공부하면서 “데이터를 전문으로 다루는 사이언티스트가 되겠다”라는 말을 입버릇처럼 하고 다녔다. 2012년에 SK텔레콤 측의 스카우트 제안을 받으면서 ‘데이터 사이언티스트’라는 정식 직함까지 달게 된다. 여전히 낯선 개념이었다. “가장 많이 받은 질문은 ‘그게 뭔데?’였다. CBS 〈세바시(세상을 바꾸는 시간)〉에 나가 ‘세상에 이런 신기한 직업도 있습니다’라는 식으로 데이터 사이언스를 소개하기도 했다.”

그에게 SK텔레콤은 데이터의 보고였다. 통신회사인 만큼 수백만 유저들의 로그 기록 등 디지털 데이터가 엄청나게 쌓여 있었다. 이런 데이터를 분석하면, 그들의 생활과 취향은 물론 앞으로 가능한 행위의 패턴까지 어느 정도 예측해낼 수 있다. 이에 맞춰 다양한 요금제를 출시한다. 허위 휴대전화를 개통시켜 보조금을 착복하는 대리점도 알아낼 수 있다.

그러나 하용호 대표가 어림잡은 데이터 사이언스의 잠재력은 고객 패턴에 맞춘 요금제 출시보다 훨씬 강력했다. “인터넷 쇼핑몰이었다면, 수백, 수천 종의 상품 가운데 유저의 특성에 따라 팔릴 만한 것을 노출시키는 등 더욱 효능감 있는 일을 할 수 있었을 터이다. 통신회사에서는 몇 개 안 되는 요금제 중 적절한 것을 골라 추천하는 정도에 머물렀다. 4기의 엔진이 달린 로켓에서 1기의 엔진만 쓰는 기분이었다.”

2015년 하용호 대표(앞줄 왼쪽에서 세 번째)가 이끄는 넘버웍스가 빅데이터 스타트업 공모전에서 최우수상을 수상했다. ⓒ넘버웍스 페이스북

하 대표는 지식을 실천해보고 싶었다. 실천을 통해 그 지식을 더 깊게 만들 수도 있을 터였다. 결국 그는 일종의 ‘도장 깨기’에 나선다. 각종 회사들을 찾아다니며 “회사의 가장 큰 고통은 무엇인가? 내가 당신 회사의 데이터를 연구해서 그 문제를 풀어주겠다”라고 제안했다. 수수료도 받지 않으며 데이터 분석을 통해 “어떤 상품의 출시를 늘리거나 줄여야 할지, 광고비나 반품 비율을 축소하는 방법은 무엇인지 등에 대한 아이디어를 짜냈다.” e-커머스 업체들로부터 요청받을 때가 가장 반가웠다. 다른 부문의 기업들은 수익성 향상을 확인하기까지 한 분기나 한 해가 걸린다. e-커머스는 “배너를 바꾸면 바로 다음 날 매출 결과가 나온다”.

이런 과정(과 이후 창업 및 대형 포털에서 겪은 경험)을 거치며 하용호 대표는 스스로 데이터 사이언스의 개념을 구축하게 된다.

■데이터 사이언스의 개념

“‘과학적 사고’의 프레임은 이렇다. 현상을 관찰해서 가설을 세운다. 실험을 통해 그 가설을 검증한다. 틀렸다면 가설을 폐기한다. 맞는다면 그 가설을 기반으로 좀 더 세부적인 가설을 세우고 다시 검증한다. 과학적 사고란 이처럼 가설-실험-검증 사이의 인터랙션(interaction)을 통해 전개된다. 데이터 사이언스도 마찬가지다. 데이터를 기반으로 가설을 세우고 검증하는 과정을 전개하면서 기업의 비즈니스를 개선한다.”

여기서 ‘데이터를 기반으로 가설을 세우고 검증하는 과정’은 머신러닝 기법으로 수행된다. 일단 필요한 데이터(실제 사례)들을 수집한다. 이를 기반으로, 매출에 ‘어떤 요소들이 어느 정도 영향을 미치는지’ 패턴을 방정식으로 구현한다. 이를 검증하려면 과거의 데이터 중 일부를 방정식에 입력해보면 된다. 예컨대 ‘2017년 봄에 수영복 출시’라는 데이터를 방정식에 입력했더니 ‘매출 감소’란 결과가 출력되었다고 치자. 그러나 정작 해당 시기의 실제 사례를 봤더니 오히려 매출이 늘어났다. 방정식이 실제 결과를 맞히지 못했다. 머신러닝은, 과거 데이터의 실제 결과를 일정 기준 이상으로 맞힐 수 있을 때까지 반복해서 방정식을 수정해나간다. 이 과정이 완료된 상태의 방정식은 다양한 요소들이 매출에 영향을 미치는 실제의 패턴을 비교적 정확히 반영하는 ‘예측 기계’로 간주될 수 있다(제775호 ‘우리는 왜 인공지능을 공부해야 하는가’ 기사 참조). 회사는 이 패턴을 참조해서 매출을 극대화하는 방향으로 경영전략을 조정할 수 있다. 그러나 데이터 사이언티스트의 역할은 여기서 끝나지 않는다.

“‘데이터 기반 컨설팅’이라면, 특정 기업의 데이터를 분석한 다음 수익 개선을 위한 ‘인사이트(통찰)’를 경영·실무진에게 전달하는 것으로 마무리된다. 문제는, 내부 직원이 그 인사이트를 수행하기 어려운 경우가 많다는 점이다. 데이터 사이언티스트의 업무는, 데이터 분석에서 찾아낸 패턴을 기반으로 인사이트의 ‘자동화’ 프로그램까지 완료하는 것이다.”

여기서 ‘자동화’란, 사람이 비즈니스에서 수행하는 지적 기능 중 일부를 인공지능에 맡긴다는 의미다. 만약 당신이 오프라인 의류점의 주인이라면, 가게에 들어온 고객의 나이, 키, 생김새 등 특성을 기반으로 ‘추정(지적 기능)’해서 적절한 상품을 권할 것이다. 온라인 쇼핑몰은 유저를 눈으로 볼 수 없다. 그러나 확보 가능한 데이터들로 고객 각각의 패턴을 추정하고 이에 맞춘 상품을 홈페이지에 노출시킬 수는 있다. “고객마다 다양한 특성이 있다. 매일 홈페이지를 방문하는 고객이 있는 반면 처음 들어오는 고객도 있다. 바로 구매 버튼을 누르거나 장바구니에 넣었다 뺐다 하며 번뇌하기도 한다. 고객별로 다르게 대응하는 프로그램을 설계하면 이 문제를 해결할 수 있다. ‘번뇌파’ 고객에겐 할인쿠폰을 띄워준다. ‘출근복’을 검색한 기록의 고객이 접속하면, 이에 적합한 의류들을 메인 페이지에 노출시킨다.” 이렇게 의류점 주인이란 인간의 지적 기능은 자동화된다.

■포털 광고 비용 크게 줄이기도

하용호 대표가 2015년 동료들과 함께 창업한 넘버웍스는 e-커머스 업체들의 포털 광고 비용을 파격적으로 줄여주는 솔루션(해결책)을 선보였다. 포털 광고 시장은 업체와 포털이 광고 입찰가를 둘러싸고 줄다리기를 하는 공간이다. 쇼핑몰 업체 입장에선, 큰 광고 효과의 키워드엔 높은 입찰가, 효과가 불분명한 키워드엔 낮은 입찰가를 지급하는 것이 유리하다. 하루 사이에도 시시각각 변동하는 광고효과를 감안할 때, 시각에 따라 다른 입찰가를 유연하게 제시하면 광고비를 낮출 수 있다. 그러나 하 대표에 따르면, “쇼핑몰들은 보통 1만~1만5000개의 키워드 단위로 포털에 광고비를 집행한다”. 관리해야 할 키워드 수가 이 정도로 많다면, 사람이 ‘우리 상품 광고’를 잘 노출시키는 단어가 뭔지 일일이 알아내거나 입찰가를 시각에 맞춰 유연하게 변동시키는 일을 감당하긴 어렵다. 개별적 경험에 따라 보름이나 한 달 단위로 광고비 체계를 수정하는 정도가 고작이다. 이런 상황에서 “넘버웍스의 솔루션은 포털 광고와 관련된 수많은 데이터를 기반으로 머신러닝을 활용해 적정 광고비 수준을 찾아내는 것이었다. ‘키워드를 얼마에 노출시키고, 노출되었을 때 어떤 상품과 연결시키면 어느 정도의 수익을 낼 수 있다’ 같은 계산을 가능하게 만들었다. 이에 맞춰 쇼핑몰들이 입찰가를 1분이나 5분 단위로 바꿀 수 있게 설계했다.” 이 솔루션은 포털 광고 시장에 꽤 강한 충격을 준 것으로 보인다. 카카오에서 만나자는 연락이 온 것을 보면 그렇다.

지난해 12월 카이스트가 개최한 ‘제1회 K-인공지능 제조데이터 분석 경진대회’.ⓒKAIST 제공

“좀 의아했다. 넘버웍스의 솔루션은 카카오에겐 이익이 되지 않는 기술이었다. 쇼핑몰들이 포털 광고비를 최적화한다는 것은 카카오의 수익이 줄어든다는 이야기니까. 만나기 전엔 카카오 측이 ‘그 솔루션이 얼마냐’라고 물을 줄 알았다. 그런데 ‘넘버웍스가 얼마냐’라고 하더라.”

넘버웍스를 카카오에 넘긴 뒤엔 이 회사의 다양한 서비스들을 최적화하는 팀을 이끌었다. 카카오의 ‘선물하기’나 ‘쇼핑하기’ 같은 페이지에 어떤 상품을 노출해야 매출을 극대화할 수 있는지 궁리했다.

카카오와 약속했던 의무 근무 기간인 3년을 채운 뒤 하용호 대표는 XYZ벤처파트너스를 공동 창업한다. 스타트업들에게 투자와 함께 기술, 경영 노하우를 지원하는 회사다. 당초 그가 표방한 것은 ‘스웨트 에쿼티 벤처(Sweat Equity Venture)’였다. 전통적 벤처 캐피털은 스타트업에 돈을 투자하는 대가로 해당 업체의 일부 지분(소유권 및 수익권)을 받는다. 그러나 스웨트 에쿼티는 땀(sweat)을 지분(equity)으로 바꾼다는 의미다. 즉, 하 대표는 돈이 아니라 데이터 사이언스 차원의 서비스로 스타트업의 문제를 해결해주는 대신 지분을 얻는 업태를 지향했던 것이다. 그러나 스웨트 에쿼티는 서비스(기술)를 돈과 바꿀 수 있는 시스템과 관행이 고도로 활성화되어 있는 미국 자본시장에서조차 아직 실험적인 모델이다. XYZ벤처파트너스 역시 결국 투자와 컨설팅을 분리하는 방향으로 갈 수밖에 없었던 것 같다. 하 대표가 지난해 새로 창업한 데이터오븐의 업태 역시 궁극적으론 ‘어떤 요소들로부터 어느 정도 영향을 받을지’에 따라 결정되겠지만, 그의 다음 발언에 따르면 데이터 사이언스에 대한 그의 열정이 주요 변수로 작용하리라는 점만은 분명하다.

“데이터 사이언스라는 용어가 낯설 때부터 시작해서 창업, 매각, 대형 포털 업무 최적화 등 다양한 일을 경험했다. 지금 와서 그냥 투자만 하는 업종으로 가는 것은 나다운 일이 아니라고 느껴졌다. 많은 회사와 함께 쌓아온 경험을 데이터 사이언스적인 방법론을 통해 폭발력 있게 사용해보고 싶다.”

이종태 선임기자 peeker@sisain.co.kr

이 기사에 대해 어떻게 생각하시나요?