30년차 엔지니어가 들려준 ‘AI 혁신의 여정’

박찬진 서울 AI 허브 센터장(사진)의 이력은 디지털 기술의 변천사를 관통한다. 알파고, 챗지피티 이후 AI 기술은 어디로 향할까?

가까운 친구 사이일까, ‘썸 타는’ 상대일까? 5월14일 오픈AI가 공개한 영상에는 스마트폰 영상통화로 친밀한 대화를 나누는 듯한 남성 그리고 여성의 목소리가 등장한다. 영상 속 남성이 “지금 보여주는 것에 근거해서 내가 뭘 할지 추측할 수 있어요?”라며 스마트폰 카메라로 방안을 비추자 여성의 목소리는 답한다. “흠. 조명, 삼각대, 마이크가 있는 걸 보니 비디오 촬영을 하거나 라이브 스트리밍 준비를 하는 것 같아요.”

남성: 사실 저희가 새 발표를 할 예정이에요.

여성(목소리): 오 흥미롭네요. 발표는 항상 큰일이죠. 이번 발표가 오픈AI와 관련이 있나요?

남성: 예. 사실, 이 발표가 당신과 관련돼 있다고, 또는 당신에 대한 발표라고 하면 어떤가요?

여성(목소리): 저요? 발표가 저와 관련 있다고요? 정말 궁금해 죽겠네요. 무슨 소식이죠?

남성: 저희가 오디오, 영상 그리고 텍스트를 통해 세상과 소통할 수 있는 새로운 모델을 발표하게 되었어요.

이 영상의 제목은 ‘Say hello to GPT-4o’. 우리말로 하면 ‘GPT-4옴니에게 인사해’이다. 인공지능이라고 알아챌 수 없을 만큼 자연스럽게 대화하고, 언어뿐만 아니라 카메라로 전해지는 영상까지 바로바로 인식하는 GPT 시리즈의 새 버전 GPT-4o의 출현에 전 세계는 또 한번 술렁였다. ‘영화 〈허(Her)〉가 이제 현실이 되었다’ ‘그녀(GPT-4o)는 당신이 누군지 모르는 척하지만 사실은 당신의 개인적 삶에 대한 모든 세부 정보를 알고 있는 미친 집착 스토커처럼 말한다’ 등등 댓글 2300여 개가 이 영상 아래에 달렸다.

‘생성형 AI’가 무서운 속도로 발전하면서 기대와 열망, 불안과 실망 사이를 오가는 주기도 짧아지고 있다. 박찬진 서울 AI 허브 센터장은 “GPT-4o가 놀라운 모델이긴 하지만, AI 기술 발전의 흐름 속에서 이미 예견되었던 일”이라고 다소 담담하게 말했다. ‘윈도 3.1’을 쓰던 1990년대부터 IT 분야에서 커리어를 쌓아온 그의 이력은 소프트웨어 엔지니어링, 빅데이터, 그리고 인공지능(AI)까지 디지털 기술의 변천사를 관통한다. SK하이닉스 데이터 사이언스 담당 상무, 마케팅 AI 솔루션 개발업체 오브젠의 매니징 디렉터를 거쳐 올해 3월 서울 AI 허브 센터장으로 부임했다. 서울대학교 AI연구원 산학협력 교수이기도 하다.

‘서울 AI 허브’는 서울시의 인공지능 전문 스타트업 지원 기관으로, 올해 5월 서울 서초구 양재동에 센터를 개관했다. AI 스타트업 100개 정도를 입주 지원할 수 있는 공간이 마련돼 벌써 85개 업체가 자리를 잡았다. 7월9일 서울 AI 허브 센터에서 박찬진 센터장을 만났다. 지나친 낙관과도, 비관과도 거리를 두는 담담한 태도가 답변마다 배어 있었다. 박 센터장은 8월6일 열리는 ‘2024 〈시사IN〉 인공지능 콘퍼런스’에서 ‘AI 혁신의 여정: 알파고, GPT, 그리고 그 너머’를 주제로 강연할 예정이다.

오픈AI는 5월14일 ‘GPT-4옴니에게 인사해’라는 유튜브 영상을 통해 마치 인간처럼 말하고 반응하는 GPT-4o를 공개했다.ⓒ오픈AI 유튜브 갈무리

앞서 인공지능에 불어온 거대한 파도로 ‘알파고(2016년)’와 ‘챗지피티(2022년)’를 꼽으셨네요.

저는 AI 기술의 발전 방향을 크게 두 가지 흐름으로 보고 있어요. 챗지피티가 나오기 전에는 개별 문제를 푸는 데에 AI 기술을 적용하는 방법을 연구했죠. 예를 들어, SK 하이닉스 같은 경우 반도체 생산에 AI를 도입한다고 하면 ‘센서 데이터 처리’ ‘이미지 불량 분석’ 등 각 공정에서 각각의 기능을 수행하는 AI를 개발하고, 이걸 AI 시스템이라고 불렀어요. 이처럼 특정 분야에 특화된 AI의 대표 격이 ‘알파고’라고 할 수 있을 겁니다. 알파고를 계기로 ‘딥러닝’이라는 개념이 유명해지게 되었잖아요(딥러닝은 AI를 학습시키기 위해 인간의 두뇌를 모방한 신경망 모양의 알고리즘이다). 알파고는 바둑판을 모델링하고 대국 시뮬레이션을 하면서 바둑을 ‘강화학습’시킨 거죠.

두 번째 흐름은 GPT로 대변되는 ‘파운데이션 모델(foundation model)’입니다. 책, 뉴스, 논문, 소셜미디어, 위키피디아 등 방대한 데이터를 학습한 뒤 광범위하게 제너럴한(일반적인) 역할을 수행하는 AI가 출현한 거죠. 파운데이션 모델은 모두 트랜스포머(transformer)라는 머신러닝 기술을 기반으로 하고 있어요. 단순화해서 얘기하면, ‘구멍 뚫기’와 ‘덧붙이기’라고 할 수 있어요. 한 문장을 주고 중간 단어를 뺀 뒤에 그 단어를 알아맞히도록 학습시키거나, 한 단어씩 알려주면서 다음 단어를 알아맞히게 하는 거예요. 이런 문제를 주면 방대한 데이터를 학습한 AI가, 확률적으로 그 문장에서 그 자리에 들어갈 가장 자연스러운 단어를 출력해주는 거지요. GPU를 수천 개 연결해 컴퓨팅 파워를 늘려서 이처럼 방대한 데이터를 연산할 수 있게 되었습니다.

오픈AI의 GPT, 구글의 제미나이(Gemini), 메타의 라마(Llama), 앤스로픽의 클로드(Claude), 네이버의 하이퍼클로바 등 거대언어모델(LLM) 기반 생성형 AI들이 말씀하신 두 번째 흐름 위에 있는 거지요? 어떤 차이가 있나요?

그렇습니다. 각각이 파운데이션 모델인 거죠. 기본적으로 개념 자체는 동일해요. 다량의 GPU를 연결해 방대한 데이터를 넣어서 ‘트랜스포머’로 인공지능을 학습시키는 것이죠. 트랜스포머라는 구조는 같은데 모델별로 학습시키는 과정의 방법론, 학습시킨 데이터의 양과 종류 등에서 차이가 발생하게 됩니다.

올해 5월 오픈AI가 GPT-4o(지피티 포오, omni·옴니)를 발표하면서 전 세계가 다시 한번 술렁였어요. 인공지능과 사랑에 빠지는 영화 〈허〉가 현실이 되었다는 반응도 여기저기서 나왔습니다.

놀랍긴 하지만 AI의 발전 추세상 어느 정도는 예견되었던 일이라고 봅니다. 멀티모달(MutiModal:텍스트, 이미지, 오디오, 비디오 등 다양한 형태로 주어지는 데이터 정보를 동시에 이해해 사용자의 감정, 행동의 맥락, 주변 환경 등에 정확하게 반응하는 기술)은 계속 얘기가 나왔으니까요. 기술적으로 이전에는 텍스트 모델만 있었는데 비디오, 이미지 모델이 연계가 된 것이죠. 실시간으로 CCTV 영상을 분석해 누군가 금지된 장소에서 담배를 피우고 있다거나, 폭력사건이 발생하면 AI가 알람과 함께 어떤 행동인지를 알려주는 시스템이 지금도 있잖아요. AI가 이미지를 읽어서 텍스트로 바꾸는 겁니다. 폴리사운드(foley sound)라고 하는데, 비디오를 보면서 장면에 맞춰 발자국 소리, 빗소리 등을 생성해주는 AI 기술도 이미 나와 있었어요. GPT-4o는 이런 형태의 학습과 추론이 매우 높은 수준에 도달한 결과라고 생각합니다.

GPT-4o가 어투나 어조, 음성, 숨소리처럼 비언어적 정보 값까지 처리하는 것처럼 보인다는 점이 충격으로 다가오지 않았나 싶습니다.

충분히 충격으로 보일 만한 일이에요. 다만 하루아침에 뚝 떨어지듯, 없던 기술이 생긴 것은 아니라는 얘기입니다. 최근에는 프랑스 AI연구소 큐타이에서 모시(Moshi)라는 AI 모델을 공개했는데 실시간 감정 표현이 가능하다고 해서 관심을 모았지요.

AI가 세상을 어떻게 바꾸고 있나요? 관심과 기대가 뜨겁지만 실생활이나 산업 현장에서 AI로 인한 구체적 변화는 눈에 띄지 않는다는 평도 나옵니다. 얼마 전 미국 실리콘밸리의 세콰이어캐피털(벤처캐피털)은 ‘AI 거품이 티핑 포인트에 도달했다’라고 분석했습니다. 천문학적 투자에 비해 수익성은 모호하다는 것이 골자였어요.

SK하이닉스에 있을 때도 그랬는데, AI를 개발해서 실제 라인에 적용하는 데에는 시간이 좀 걸리거든요. AI 모델 개발이 반이라면, 운영체계 구축이 반입니다. 그다음 스텝은 여러 군데로 ‘스케일 아웃(확장)’하는 거고요. AI에게 핸들을 넘겨주려면 비교하는 기간이 필요해요. AI가 잘하는 부분, 사람에 비해서 못하는 부분을 분석해 문제를 파악하고, 빨리 재학습시키고, 다시 배포하는 과정을 거치게 됩니다.

지난해 겨울 어느 대기업에서는 GPT로 무엇을 할 수 있는지 부서별로 제안을 올리라는 지시가 있었다고 들었어요. ‘AI로 뭘 할 수 있는지 다 찾아봐’ 하는 탐색의 시기였다고 할 수 있는데 그 단계는 이제 지났어요. 여러 회사들이 올해 말이나 내년 초 정도가 되면 제품을 수면 위로 내놓을 거라고 기대합니다.

특히 어떤 분야에서 변화가 두드러질까요?

법률 상담을 하는 챗봇이 기술적으로 상당한 수준에 올라와 있습니다. AI 스타트업들이 법무법인이랑 협업하면서 AI에게 판례를 학습시키고, 추가적으로 법대 학생들을 고용해서 주어진 문제에 답을 쓰게 하는 식으로 법률 상담 특화 AI 챗봇을 개발하고 있어요. 특히 법조문은 일상생활에서 우리가 수다 떠는 것과 달리, 포멀한 랭귀지(언어)잖아요. 의미도 중의적이지 않고요. AI가 학습하기 좋은 형태의 언어인 거죠. 금융 분야에서 신용 상담을 하는 AI 챗봇도 활발하게 개발되고 있는데, AI에게 맡길 경우 리스크가 커서 아직까지는 오픈을 안 하고 있어요.

지난 6월, 오픈AI가 미국의 AI 스타트업 ‘롯셋’과 ‘멀티’를 연이어 인수해 화제를 모았습니다. GPT 같은 파운데이션 모델이 도메인(특화 분야) 영역까지 흡수해가는 걸까요? 개발자 커뮤니티에서는 일종의 골목상권 침해처럼 AI 스타트업 생태계가 잠식당하는 것 아니냐는 불안감이 감돌더라고요.

인수된 스타트업 입장에는 성공이라고 할 수도 있지 않을까요? 기술력을 인정받아 큰 기업에 회사를 판 것이잖아요. 아무래도 섈로(Shallow·얕은)한 기술은 플랫폼(파운데이션 모델)에 흡수되기 쉽겠지요. 오픈AI나 xAI(엑스AI)처럼 ‘우리가 다 하겠다’라는 곳도 있겠지만 AI 스타트업들이 개발하는 영역을 다 장악하긴 어려울 거라고 생각해요. 재빨리 기술을 만들어보고, 피봇(개선)하고, 이런 시도는 몸집이 가벼운 스타트업 쪽이 유리할 테니까요. AI 스타트업이 독보적 기술을 가지고 있다면 독립적 비즈니스를 하든 ‘롯셋’이나 ‘멀티’처럼 인수합병이 되어서 더 크게 가든 길은 열려 있다고 생각합니다.

AI 기술개발이 ‘쩐의 전쟁’ 양상을 띠면서 극소수의 선두 주자, 특히 미국의 빅테크들이 절대 강자로 등극해 그들만이 살아남을 거라는 전망에 힘이 실리기도 합니다.

AI 서비스의 단계를 나누어서 봐야 할 것 같아요(〈그림〉 참조). 우선 앞단에는 GPT나 라마, 제미나이, 하이퍼클로바 같은 파운데이션 모델이 있을 거예요. 그다음 단계에는 이 파운데이션 모델을 가져다 특정 분야의 데이터로 ‘파인 튜닝(fine-tuning·미세조정)’을 시켜 의료, 반도체, 법률, 금융 등 특화된 기능을 하는 도메인 적응 모델이 있을 거고요.

파운데이션 모델은 ‘쩐의 전쟁’ 성격이 강하죠. 기본 개념상, 데이터를 대량 확보하고, GPU를 엄청나게 쏟아 넣으면 결과가 나올 수 있는 부분이니까요. 여기는 ‘승자독식(winner takes all)’ 시장이 될 가능성이 크다고 봅니다. 누구든 하나가 이겨서 사람들이 많이 쓰게 되면 그 모델이 기본 플랫폼이 될 거예요. 나눠먹는 시장은 아니지 싶습니다.

반면에 이걸 가져다가 파인튜닝하고 도메인별로 특화하는 뒷단계에서는 신경 써야 할 일이 많아요. 대기업이나 빅테크의 엔지니어들은 이 뒷단에는 잘 관심을 갖지 않는 것 같더라고요. 다 요 앞단을 하고 싶어 하지(웃음). 그런데 사실 밸류(가치)는 금융이라든지, 제조라든지, 도메인 적응 모델이 쓰이는 곳에서 실질적으로 발생하거든요.

예전에 사업하시는 분이랑 그런 문제를 얘기한 적 있어요. 직원들이 회사 DB를 활용할 수 있는 챗봇을 오픈하면 엑세스 권한 관리를 어떻게 할 것이냐. 임원이 쓰는 거랑, 일반 사원이 쓰는 거랑 달라야 하는 거 아니냐. 극비 문서인데 전사적으로 볼 수 있고 이러면 안 되잖아요. 그걸 사람한테 물어보면 즉각적으로 판단을 하겠죠. 예를 들어 언론사라면, 대화를 할 때 국장한테만 보고할 수 있는 정보, 데스크급까지 공유할 수 있는 정보, 편집국 전체가 알아도 될 정보 이런 식으로요. 하지만 AI는 그런 구별을 못 합니다. 심플하게 말하면 각각의 정보에 레이블(꼬리표)을 달아줘야 해요. 제너럴한 파운데이션 모델로 그걸 다 할 수는 없을 거예요.

인공 일반지능(Artificial General Intelligence·AGI)에 대한 환상 혹은 기대가 너무 커서 그런 걸까요? 아직 AGI까지 도달하진 못했지만 인공지능 성능이 무서운 속도로 향상되고 있는 건 사실입니다.

글쎄요. 저는 기본적으로 AI를 데이터로 만들어진 소프트웨어 툴이라는 관점에서 보고 있습니다. 따지고 보면 확률 머신이죠. 데이터를 다량으로 학습하고 뭔가를 생성해내지만, 논리적인 근거를 가지고 그 말을 하는 게 아니라 자신이 본 것 중에 확률적으로 높은 값을 출력하는 거잖아요. 완전히 새로운 문제에 대해서는 답을 하기 어려워요. 코로나19 유행 때 경제 쪽 모델들이 전혀 힘을 못 썼거든요. 팬데믹으로 전 세계에 경기침체가 생겼던 앞선 데이터나 인류의 경험, 레퍼런스가 없으니까. 신종 감염병처럼 데이터가 없는 경우에는 AI가 어떤 일을 할 수 있을까, 저는 좀 의문스럽습니다.

제프리 힌턴 같은 석학들이 나서서 인간이 제어할 수 없는 AI 기술의 위험성을 경고하고 개발 속도를 늦춰야 한다고 주장하기도 했는데요.

위험성이 있지요. 한 예로 AI가 무기에 적용되고 있잖아요. 몇 년 전만 해도 AI를 연구하는 대학교가 방산기업이랑 초기 단계의 계약을 맺으려고 한다, 하면 일종의 감시나 제재가 들어가는 게 있었거든요. 지금은 누구도 따져 묻지 않잖아요. 예전에는 국방 분야에 어떤 신기술, 신무기가 출현했을 때 ‘미국에서 검증이 되면 우리나라에도 들여오자’가 기본이었죠. AI는 그게 통하지 않아요. 발전 속도가 너무 빨라서 우리 군에서도 내부적으로 개발을 해야 뒤처지지 않는다는 위기의식이 있는 거죠. 실제 그렇게 접근하고 있고요.

AI 기술이 적용되는 곳이 대부분 무인기 같은 무인전투 기술인데, 그 무기가 어떤 타깃을 공격했을 때, 그런데 그 타깃이 잘못된 대상이었을 때, 왜 그렇게 했는지 정확히 알 수가 없습니다. 과거에는 개발자가 코딩으로 프로그래밍을 해서 목표를 설정했지만, AI는 왜 이런 결과물을 생성해냈는지 그 과정이 블랙박스에 남아 있는 거죠.

로봇에 인공지능이 탑재된 ‘임바디드 AI’가 출현하고 있다. 사진은 휴머노이드 로봇 스타트업 피규어 AI. ⓒAP Photo

8월6일 강연 주제가 ‘AI 혁신의 여정: 알파고, GPT 그리고 그 너머’입니다. 앞으로 인공지능 기술은 어느 쪽으로 진화할까요?

지금 추세는 온디바이스 AI(On-Device AI) 쪽으로 흘러가고 있어요. 노트북이나 스마트폰, 자동차 같은 디바이스 자체에 경량화된 AI가 탑재돼 있는 형태입니다. 외부 서버나 파운데이션 모델에 연결되지 않아도 자체적으로 기기 내에서 AI를 이용할 수 있는 거죠. 온디바이스 AI에 필요한 내장 칩(반도체)이 있어요. 그건 데이터센터에 들어가는 서버용 GPU와는 또 다른 GPU여서 그 시장도 커지게 되겠지요.

그다음 스텝은 임바디드 AI(Embodied AI·체화된 AI)가 되지 않을까 싶습니다. 로봇에 AI가 탑재되는 거죠. 몇 달 전 오픈AI가 휴머노이드 로봇 스타트업 ‘피규어 AI(Figure AI)’와 협업한 ‘피규어01’ 시연 영상을 공개했어요. 사람과 대화를 하면서, 명령대로 물체를 집어주고, 왜 그런 행동을 했는지까지 설명을 하지요. 현재의 GPT 같은 파운데이션 모델은 랭귀지(언어) 모델이라 사람 말귀를 잘 알아듣고 시키는 대로 할 수는 있는데 스스로 정보를 습득하지는 못하잖아요. 임바디드 AI는 로봇이라는 몸체가 생겨서 직접 실험을 하고, 만져보고 하는 과정을 통해서 스스로 정보를 습득하고 학습을 합니다. ‘실험과 관찰을 통해 지식을 얻는다.’ 과학의 원리잖아요. 그 흐름이 본격화된다면 새로운 차원이 펼쳐질 수도 있다고 봅니다.

※ 8월6일 서울 페럼타워에서 열리는 2024 〈시사IN〉 인공지능 콘퍼런스에서 박찬진 센터장의 강연이 진행됩니다(참가 신청: saic.sisain.co.kr).

김연희 기자 uni@sisain.co.kr

사회

30년차 엔지니어가 들려준 ‘AI 혁신의 여정’