잡스가 뿌린 AI 혁명의 씨앗 [AI오답노트]

⑦ 예측을 위해 필요한 핵심자원 ‘데이터’
모바일 기기 보편화로 데이터 생성 폭증
2008년 금융위기, AI였다면 달랐을 수도

편집자주
실패를 살펴보는 것은 성공으로 가는 지름길입니다.
'AI오답노트'는 AI와 관련한 제품과 서비스, 기업, 인물의 실패 사례를 탐구합니다.

인공지능(AI)은 예측기계이고, AI를 도입한다는 건 예측을 통해 이익을 극대화하겠다는 겁니다. 이 목적을 위해 가장 중요한 건 ‘데이터’입니다.

데이터가 있어야 AI를 학습시키고, 그 학습을 바탕으로 예측을 할 수 있게 됩니다. AI가 더 나은 예측을 하려면 더 많이, 더 다양하게 학습해야 합니다.

아이폰 혁명, AI의 기반을 닦다

AI가 많은 데이터를 필요로 한다는 건 알겠습니다. 그런데 그 많은 데이터는 어디서 왔을까요. 현대적 의미의 AI라는 개념이 생겨난 건 1950년대라고 하는데, 그때는 데이터가 없었던 걸까요? 당연히 아니죠.

AI가 예측기계로 진화할 수 있게 된 건, 데이터의 폭발적 증가와 하드웨어 성능의 급속한 발전이 맞물려 있습니다. 인터넷 혁명과 함께 데이터의 생산과 저장이 용이해졌습니다. 인터넷으로 인해 ‘데이터’라는 자원의 대지가 펼쳐진 거죠.

그러다 모바일 기기의 보편화가 이뤄지면서, 데이터의 역사는 또 다른 전환점을 맞이하게 됩니다. 2007년 ‘아이폰 혁명’이 바로 그것입니다. 2007년은 스마트폰이라는 새로운 유형의 디바이스의 출시, 그 이상의 의미가 있었습니다.

1984년 전세계 인터넷의 총 트래픽은 월 15기가바이트(GB)였다. 2014년에 이 수치는 42.4엑사바이트로 늘었다. 1984년에 발생한 월간 트래픽이 2014년에는 100분의 1초마다 발생한 셈이다.

손에 들고 다니는 PC, 움직이는 PC였던 아이폰은 데이터의 홍수시대를 열었습니다. 개개인이 언제 어디서 무엇을 사는지, 어디로 이동하는지 등 개인의 선호와 취향이 수집되는 계기가 마련됐습니다. 아이폰에 내장된 GPS와 가속도계, 자이로스코프 등의 센서로 인해 움직임과 관련한 데이터 수집도 가능해졌습니다. 카메라 기능의 강화는 이미지와 동영상 데이터의 기하급수적 증가를 불러왔죠.

또한 앱스토어에서 어떤 사람들은 앱을 만들고, 어떤 사람들은 앱을 사용하며 데이터라는 흔적을 남겼습니다. 아이폰은 데이터 생성과 수집을 패러다임을 완전히 바꿔놨습니다. 이는 AI가 예측기계로 발전하는데 상당한 토대가 됐습니다.

이와 함께 2000년대 이후 급격히 발전한 컴퓨터의 성능은, 폭발적으로 늘어난 데이터를 처리하는데 중요한 역할을 했습니다. 컴퓨터의 정보처리 속도와 용량이 뒷받침되지 않았더라면, 데이터를 적당히 처리할 수 없었을 겁니다.

예측을 하려면 데이터가 있어야 한다. 각종 센서는 건강에 관한 데이터를 확보할 수 있게 해준다. 심장 박동에 관한 풍부한 데이터는 심장 이상에 관한 예측을 가능하게 한다. 사진은 심장 박동 센서가 달린 갤럭시링. 삼성전자 제공

삼성전자는 지난 7월 ‘갤럭시 링’이라는 디바이스를 공개했습니다. 손가락에 착용할 수 있는 반지이자, 몸에 지닐 수 있는(웨어러블) 디바이스죠. 반지 안쪽에 3개의 센서가 있습니다. 가속도 센서는 착용자의 움직임과 활동량을 측정합니다. 광학 센서는 심박수를 모니터링하고, 온도 센서는 체온 변화를 감지하고 관찰합니다.

갤럭시링이 센서를 통해 수집한 정보가 바로 데이터입니다. 갤럭시링을 손가락에 낀 사람들의 체온, 심박, 움직임 데이터를 분석하면 건강관리를 위한 판단이 가능해집니다. 갤럭시링을 낀 사람의 평소 심박 데이터, 평균선을 벗어나는 이상 심박, 정상적인 사람들의 심박 데이터가 아우러지면 비교를 통한 예측이 가능해집니다. 심장 리듬이 언제 불규칙해지는지, 뇌졸중의 전조증상이 언제 나타나는지 등을 예측하는 거죠.

갤럭시링의 예측 능력은 갤럭시링을 사용하는 사람의 수가 늘어날수록 더 정확해집니다. 이용자들의 정상적인 건강 데이터와 이상치 데이터를 쌓아가며 개별 증상의 발생률에 대한 데이터를 모으는 거죠. 정보를 수집하고, 예측하고, 그 예측 결과에 대한 결과를 받는 구조를 반복하면서 예측력은 더 높아집니다.

2008년 금융위기, AI 예측이 있었다면 달랐을까

머신러닝은 사기 감지, 보안 위협 식별, 맞춤설정 및 추천, 챗봇을 통한 동화된 고객 서비스, 스크립트 작성 및 번역, 데이터 분석 등과 같은 중요한 기능을 통해 비즈니스에 도움을 줍니다. 또한 자율주행, 드론, 비행기, 증강현실과 가상현실, 로봇공학에서도 활발히 쓰이고 있습니다. 게티이미지뱅크

데이터가 없으면 예측이 불가능합니다. 센서와 각종 디바이스가 보편화된 요즘 세상에 데이터는 사실 넘쳐난다고도 볼 수 있죠.

이 지점에서 우리는 ‘머신러닝(Machine Learning)’이라는 개념과 만나게 됩니다. 머신러닝은 데이터에 대한 알고리즘을 학습시켜서 패턴 식별이나 객체 인식과 같은 예측을 달성하는 방법이라고 할 수 있습니다. 머신러닝을 통해 AI는 더 많은 학습과 경험을 하고, 스스로 조정하고 예측력을 더 향상합니다.

데이터 생성속도는 날이 갈수록 더 빨라지고 있는데, 머신러닝이 없었다면 실시간으로 늘어나는 데이터를 분석하고 활용하는게 거의 불가능했을 겁니다.

세계 경제를 비탄에 빠뜨린 2008년 금융위기는, 머신러닝이 있었다면 아마 달랐을지도 모릅니다. 당시에도 전문가들은 데이터에 기반해 예측을 했는데, 그 방법은 선형적이고 변수 처리에도 제한이 많았습니다.

당시에는 주가 변동을 예측하는 방법론은 주로 회귀(regression)라는 통계기법에 기반해 있었습니다. 과거에 일어난 일에 대한 평균을 근거로 예측을 하는 방법이죠. 가령 ‘지난달 한국 증시가 15번 상승 마감하고, 5번 하락 마감했다면, 다음 달에도 3:1 비율로 상승할 것이다’고 예측하는 것이죠. 무척 단순한 방법이죠.

그래서 ‘조건부 평균(conditional average)’이란 방법을 덧붙입니다. 한달 중 15번 상승했다면, ‘어떤 조건에서 상승했는가’를 따져보는 것이죠. 실적 발표 기간인지, 전날 2% 이상 하락한 날이 몇 퍼센트인지 등을 보는 겁니다. 이를 통해 더 정확한 예측이 가능해지죠.

2008년 금융위기 당시 전문가들은 여러 개의 조건부 평균을 활용한 다중회귀 같은 모델로 예측을 내놨습니다.

문제는 그들이 실제 주택 시장 가격과 아무런 관련이 없는 데이터를 활용했다는 것이었죠. 자신들이 중요하다고 믿는 데이터로 가설을 만들고 검증했습니다. 과거에 대한 자료가 풍부했음에도 결국 예측은 크게 빗나갔습니다.

AI 연구자들은 머신러닝이라면 달랐을 거라고 얘기합니다. 아무리 다중회귀 방식이라고 해도, 변수의 갯수 무한정 늘리지는 못합니다. 너무 복잡해지거든요. 그러나 머신러닝은 수십, 수백, 수천개의 변수 간 관계를 파악할 수 있습니다. 무수히 많은 데이터에서 패턴과 유용한 정보를 걸러내는데 탁월합니다. 현재 수준의 머신러닝이 월스트리트에 도입됐었더라면, 위기의 징후는 더 일찍, 더 정확히 포착될 수 있었을지도 모릅니다.

데이터, 그냥 모아서 쓰기만 하면 될까

데이터는 넘쳐나지만, 필요한 데이터를 얻기란 쉽지 않습니다. 데이터는 과거의 관찰과 경험에 대한 정보입니다. 단순히 데이터를 많이 모았다는 것만으로는 아무것도 할 수 없죠.

일단 풀려고 하는 문제에 대한 질문이 선행돼야 합니다. ‘나는 무엇을 예측하고자 하는가’, ‘우리 조직엔, 우리 회사엔 어떤 예측이 필요한가’ 처럼 말이죠. 그러면 예측하고자 하는 문제, 현상과 관련한 데이터의 범위를 줄일 수 있습니다. 즉 관련성이 있는 데이터를 추릴 수 있게 되죠. 그리고 패턴을 발견하고 일반화하기에 충분한 양의 데이터가 필요합니다.

그러나 데이터에도 여러 함정이 숨어있습니다. 그 함정이 너무 깊어서, 어떤 AI 서비스나 제품이 망하는 사례도 적지 않습니다. 데이터에 관한 리스크를 살펴볼 필요가 있습니다.

다음 연재 예고 ⑧코로나 전쟁 최전방 의료진만 백신을 주지 않은 AI (12월 15일)

⑨스티커 한장에 달린 인간의 목숨 (12월 21일)

⑩엄마도 몰라본 내얼굴, 아이폰은 알아보네 (12월 22일)

김동표 기자 letmein@asiae.co.kr

이 기사에 대해 어떻게 생각하시나요?

아시아경제에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

잡스가 뿌린 AI 혁명의 씨앗 [AI오답노트]