‘정보 지배자’ 상상하던 소년 “데이터 강자 LG 성과 기대하라”

[AI 파워피플][인공지능 파워피플]⑤ 배경훈 LG AI연구원장

지난해 7월 배경훈 엘지 에이아이연구원장이 인공지능 아티스트 ‘틸다'를 소개하는 모습. 엘지 제공

가장 주목할만한 인공지능 전문가들을 만나고 그들이 다음 인물을 지목하는 방식으로 인터뷰를 연재한다. ① 하정우 네이버클라우드 AI 이노베이션센터장 ② 오순영 KB금융지주 금융AI센터장 ③ 최재식 카이스트 김재철AI대학원 교수 ④ 배순민 KT AI2XL연구소장 ⑤ 배경훈 LG AI연구원장

[인공지능 파워피플]⑤ 이름: 배경훈 소속: 엘지(LG) AI연구원장(전무), 초거대AI추진협의회 회장, 개인정보보호위원회 AI 프라이버시 민관 정책협의회 공동의장 나이: 1976년생(47살) 학력: 광운대학교 전자공학(컴퓨터비전) 박사, 콜롬비아서던대학교 대학원 경영학 석사(MBA)

“모든 문제를 다 ‘딥러닝’으로 해결한다.”

2020년 12월 엘지(LG)그룹이 에이아이(AI)연구원(이하 연구원)을 만들고 초대 원장으로 44살 배경훈 상무를 선임했을 때, 그는 이 고집스러운 말을 첫 마디로 내놨다. 인간이 기계를 학습시키는 수준을 뛰어넘어 기계 스스로 학습하는 길을 찾는 것, ‘알파고’ 바둑 실력의 비결이 ‘딥러닝’이다. 엘지그룹 안에서 ‘구광모 회장이 미래사업으로 점찍었다’는 인공지능 분야의 키를 잡게 된 배 원장이 ‘현실과 타협하는’ 길이 아닌 ‘정면 승부’를 하겠다고 선포한 것이다.

어렸을 때 그는 아버지가 숙제처럼 건넨 애플 컴퓨터를 익히며, 혼자 있을 땐 소설을 쓰고 그림을 그리는 아이였다. 인터넷이 없던 중학교 시절 그가 썼던 소설 속에는 컴퓨터끼리 연결돼 정보가 오가고 그 길목을 통제하는 사람이 지배자가 되는 세상이 있었다. 글을 쓸 때 ‘끝(엔딩)’부터 그려놓고 쓰는 습관 덕에 논문 쓰기가 수월했다는 그는 31살이던 2007년에 이미 세계 3대 인명사전에 모두 이름을 올렸다.

연구원이 문을 열고 네 번째 겨울이 오고 있다. 지난해 겨울부터 ‘인공지능 열풍’이 불어닥쳐 세계의 풍경이 바뀌었다. 2020년, 인공지능에 3년간 2천억원을 쏟아붓겠다고 했던 엘지그룹은 지난해 다시 “향후 5년 동안 인공지능·데이터 분야에 3조6천억원을 투입하겠다”고 밝혔다. 2021년 12월 일찌감치 초거대 인공지능 ‘엑사원(EXAONE)’을 내놨던 연구원은 지난 7월에는 더 진화한 ‘엑사원 2.0’을 공개했다. 연구원의 목표는 ‘그룹의 핵심 난제 해결을 주도한다’는 것이다.

배 원장은 그 변화의 한복판에 서 있다. 오순영 케이비(KB)금융지주 금융에이아이(AI)센터장은 배 원장을 ‘인공지능 파워피플’로 추천하며 “초거대 인공지능 대표주자”라고 했다. 지난달 17일 서울 강서구 마곡의 엘지사이언스파크 사무실에서 만난 그는 1시간30분 동안 ‘딥러닝’이라는 단어를 36번 사용했다. 그에게 지금 그리고 있는 ‘끝(엔딩)’에 대해 물었다.

배경훈 엘지(LG) 인공지능(AI)연구원장이 10월17일 오후 서울 강서구 마곡동 엘지 인공지능연구원 사무실에서 <한겨레>와 인터뷰를 하고 있다. 김혜윤 기자 unique@hani.co.kr

―처음 연구원장이 됐던 때 목표는 무엇이었나?

“구성원들에게 ‘모든 문제를 다 딥러닝으로 해결한다’는 슬로건을 제시했다. 딥러닝으로 해결할 수 없는 문제, 딥러닝이 적용되기 어려운 과제는 진행하지 않는다고 선언했다. 딥러닝 수준의 적용이 필요없는 프로젝트도 있지만, 그보다는 굉장히 큰 난제 중심으로 성과를 창출하기 위해 고민하자는 뜻이다.”

―‘딥러닝’이 무엇이기에 그토록 중요한가?

“인공지능 스피커를 생각해보자. 사람이 정한 규칙대로 인공지능을 학습시키면 일반인들이 원하는 질문에 대한 답을 다 얻을 수 없다. 딱 정해진 것만 대답할 수 있기 때문이다. 인간이 기계가 답할 수 있는 방식에 딱 맞게 질문해야 한다면, 인공지능이 완전한 상용 수준으로 가기 힘들다. 때문에 기계 스스로가 인간의 뇌처럼 심층적으로 학습할 수 있는 ‘딥러닝’ 수준으로 처음부터 끝까지 다 바꿔야 한다고 주장한 것이다. 그래야 지속적으로 발전해나갈 수 있다.”

―쉽지 않은 길일 듯 한데 다들 동의했나?

“실제 현장에 복잡한 딥러닝이 적용되기 위해서는 아직 한계점들이 있었기 때문에 반대도 있었다. 하지만 나는 혁신을 위해서라면 딥러닝 수준이 필요하고, 비록 초기 단계에서는 성능이 70% 밖에 안나오더라도 계속해서 학습시키면 100%에 가까운 성능까지 끌어올릴 수 있을 것이라 확신했다. 글로벌 시장에서 차별점을 만들어나가기 위해서는 자체적인 연구가 필요하다는 점, 딥러닝으로 문제를 풀어가야 한다는 점, 두가지를 화두로 계속 끌고갔다.”

―확신은 어디에서 왔나?

“대학에서 컴퓨터비전(시각적 세계를 해석하고 이해하도록 컴퓨터를 학습시키는 인공지능 분야)을 연구했다. 2014년 세계 최초로 음성 인식으로 구동하는, 알렉사라는 이름의 두뇌를 탑재한 ‘에코’라는 인공지능 스피커를 아마존에서 출시했다. 당시 한국에 없던 에코를 중고로 구했던 기억이 난다. 그 때부터 컴퓨터비전 뿐 아니라 음성 인식, 자연어 처리 등에 딥러닝 기술이 적용된 서비스를 볼 수 있었다. 2019년에는 오픈에이아이(OpenAI)가 지피티3(GPT3)를 내놓으면서 단비가 내렸다. 딥러닝 모델의 가능성이 열린 거다.”

―돈이 많이 드는 소리 같다.

”초거대 인공지능 모델을 통한 혁신이 일어나는 시대가 올 것이라 경영진에게 보고는 했지만, 매우 큰 투자가 필요한 일이었기에 하기 어려울 거라 생각했다. 엘지그룹에서 ‘구광모 회장이 미래 사업으로 점 찍은 인공지능’이라는 말을 하곤 하는데, 사실이다. 그룹에서 잘 지지해줘 용감하게 시작할 수 있었다. 실패에 대한 두려움보다는 딥러닝의 한계점을 극복하고픈 목마름이 컸다. 때문에 바로 목표를 설정했고, 2021년 12월 엑사원 첫 모델을 발표할 수 있었다.”

―엑사원 첫 모델은 어땠나?

“1차 목표는 우리가 할 수 있는 지능의 크기를 최대한 일단 키워보자는 것이었다. 당시 오픈에이아이가 내놓은 지피티3가 1750억개 매개변수(파라미터)였는데, 우리는 3천억개 파라미터의 모델을 만들었다. 우리는 이같은 초거대 모델이 한국어 기반으로도 작동한다는 것, 실제 산업 영역에서 사용될 수 있다는 것을 보여주고 싶었다. 만들어놓고 나면 세상이 바뀔 줄 알았고, 우리가 이제 세상을 바꾸는구나 생각했는데, 사실 한계점이 있었다.”

―문제가 뭐였나?

“일반적인(제너럴) 데이터만 학습시키다 보니 전문적인 업무 영역까지 확대하기가 어려웠다. 각 분야별로 데이터가 충분히 쌓여야 인공지능의 성능을 향상시키고 상용화 단계까지 나아갈 수 있다. 하지만 계열사들의 난제를 딥러닝으로 해결해가는 과정에서 실제 학습할만 한 데이터가 많지 않은 문제에 부딪쳤다. 데이터는 그 분야 전문가의 지도가 있어야만 잘 쌓을 수 있다. 그 과정에서 갈등도 있었고 시행착오도 많았다. 또 너무 큰 모델을 만들어 놓으니 학습 비용도, 서버 구축 비용도 어마어마하게 발생했다. 데이터 학습과 모델 크기에 대한 목표를 수정하며 다시 연구에 돌입했다.”

―어떻게 해결했나?

“어쨌든 간에 모델이 크면 추론 역량이 더 좋다. 하지만 모델이 작아도 양질의 데이터가 충분히 있으면 어느 정도 좋은 성능을 만들 수 있다. 그걸 좀 늦게 알았다. 그때부터 2년 가까이 데이터를 정비하고, 나라 안팎으로 우리가 필요한 데이터를 구하러 다녔다. 그런데 한국어 데이터가 너무 부족하더라. 저작권이나 개인정보 이슈에 걸릴 수 있는 것들도 있으니 차근차근 신뢰성 있는 데이터만 확보하자 다짐하고, 초기에 확보했던 데이터의 90% 이상을 걷어내고 다시 시작했다. 오픈에이아이나 미국에 있는 기업들은 거대언어모델을 만들 수 있는데 우리는 왜 이렇게 힘들지? 고민하다가 영어 데이터도 사용해 엑사원의 모국어를 2개로 만들기로 했다. 놀라운 것은 양질의 영어 데이터를 학습한 인공지능에서 한국어 성능도 계속 좋아지더라.”

―지난 7월 내놓은 ‘엑사원 2.0’이 그 결과물인가?

“전문가 인공지능을 지향하는 엑사원 2.0은 3개 플랫폼을 기반으로 한다. 분야별 최신 데이터를 근거로 추론한 답변을 제시해 전문가들도 믿고 이용할 수 있는 ‘엑사원 유니버스’, 세계 최고 수준의 심층 문헌 이해 기술을 통해 신소재·신물질·신약 등 새로운 지식을 발견하게 해주는 ‘엑사원 디스커버리’, 저작권이 확보된 이미지-텍스트가 짝을 이룬 페어(Pair) 데이터 3.5억장을 학습한 ‘엑사원 아틀리에’다.”

지난 7월 배경훈 원장이 서울 강서구 마곡 LG사이언스파크에서 ‘LG AI 토크 콘서트 2023’을 열어 초거대 인공지능 ‘엑사원(EXAONE) 2.0’을 공개하고 있다. 엘지 제공

―이제 세상을 좀 바꿀 수 있을 것 같은가?

“올해 말이나 내년 상반기 정도에 글로벌 파트너사들과 거둔 의미있는 성과를 발표할 예정이다. 이런 것까지 가능하다는 것을 증명하게 될 것이다. 예를 들면, 엘스비어라는 글로벌 논문 출판사와 제휴해 몇 조원의 가치가 있는 데이터를 학습해 거대언어모델을 만드는 등 각 분야에서 최고 수준인 글로벌 회사들과 손잡고 작업을 하고 있다. 제약, 특허, 바이오 등 전문 분야도 다양하고, 협력하자고 먼저 찾아오는 기업도 있다. 각 산업 분야별로 데이터가 갖춰지고, 이어 인공지능 스스로 필요한 데이터를 식별(라벨링)하는 수준까지 가게 된다면, 엘지가 외부에 데이터를 팔기도 하는 ‘데이터 주체 기업’으로 성장할 수 있다는 생각이 든다.”

―계열사의 어떤 난제를 해결해가고 있나?

“12개 엘지 계열사와의 협력을 통해 그룹 전체의 생산성을 1~2%정도 높일 수 있지 않을까 했는데, 이제는 생산성을 20%까지 끌어올리는 어마어마한 혁신이 일어날 수도 있다고 생각한다. 사실 그룹의 생산성을 1~2%만 높인다고 해도 가치가 1~2조원에 달한다. 최근 제조공정 상에서 사람이 일일이 설계하고 작업해야 했던 인쇄회로기판(PCB) 문제를 2년만에 풀어, 인공지능이 설계한 기판으로 모니터가 생산되게 됐다. 또 제품의 결함을 눈으로 검사하던 ‘비전 인스펙션’ 공정도 카메라가 인식해서 결함을 걸러낼 수 있도록 하는데 성공했다. 1~2년 안에 공장 완전 무인화까지도 갈 수 있겠다 싶을 정도로 기술 수준이 굉장히 높아진 상태다.”

―중학교 때 쓴 소설 속 미래시대 ‘정보 지배자’는 누가 될까?

“데이터를 쥐고 그 데이터를 기반으로 다양한 서비스를 창출할 수 있는 기업이 지배자가 될 것이다. 그렇게 되려면 디지털 디엔에이(DNA)가 달라야 한다고 생각한다. 구글이 훨씬 더 좋은 인공지능 기술력을 갖고 있으면서도 오픈에이아이가 성공한 것은 모험가적인 발상 덕분이다. 이런 게 된다면 이걸 만들고 싶어, 이렇게 꿈꾸고 상상을 하는 거다. 좀 건방진 얘기지만, 그래서 우리 연구원도 가능하지 않을까 싶다. 엘지라는 브랜드가 있으니 신중할 부분들이 있지만, 연구원이기에 일반 기업에 비해 더 공격적으로 여러가지 시도를 하고있는 것이다.”

―연구원 인원은 어느 정도인가?

“2020년 연구원 출범 당시에는 70명 정도였는데, 지금은 280명이 넘는다. 올해도 80명 정도 늘었다. 세계 10대 인공지능 석학으로 꼽히는 이홍락 미국 미시건대 교수를 최고인공지능과학자(CSAI)로 영입하는 등 국내는 물론 글로벌 인재까지 모으는 데 집중했다.”

엘지(LG) 인공지능(AI)연구원장이 10월17일 오후 서울 강서구 마곡동 엘지인공지능연구원 사무실에서 <한겨레>와 인터뷰를 하고 있다. 김혜윤 기자 unique@hani.co.kr

―원래 학구적인가? 31살에 세계 3대 인명사전에 동시에 등재됐을 정도로 의미있는 논문을 많이 써왔다.

“일할 때만 학구적이다. 끝을 잘 예측하고 그에 맞춰서 글을 쓰는 일을 잘하다 보니 논문 쓰는 게 그리 어렵지 않았다. 실험 먼저 해보고 그 결과를 쓰려다 보니 정리가 잘 안되는 경우가 많은데, 내 경우 실험의 목적과 내가 기대하는 바를 명확하게 규정한 뒤 여기에 실험 결과를 정렬한다. 병역특례로 삼성탈레스(현 한화시스템)에 근무할 때 세계과학기술논문인용색인(SCI)급 논문만 10편 이상 냈다. 당시 방위산업 분야에서 선행적인 연구 시도를 많이 했다. 물체 인식, 자율주행, 미사일 트레킹 기술 등을 연구하며 본격적으로 인공지능에 관심을 갖게 됐다. 이후 이동통신사(SKT·LGU+)로 옮겨 다양한 연구 시도를 해봤다. 그러면서 점점 더 ‘기술의 끝, 완성을 좀 보고싶다’는 생각을 많이 하게 됐다.”

―컴퓨터는 언제부터 만졌나?

“어렸을 때 아버지가 컴퓨터랑 피아노는 당연히 할 줄 알아야 한다고 해서 둘을 오랫동안 했다. 초등학교 때 당시 동네 어귀마다 있던 컴퓨터 학원에 다니면서 경진대회도 나갔고 아버지께 숙제처럼 애플 컴퓨터를 받았다.”

―피아노도 계속 치나?

“체르니 50번까지 쳤는데 지금은 안한다. 내가 워낙 과거보다는 현재의 나를 중시 여기는 사람이라서 현재 내가 집중하고 있는 것 아니면 과거에 연연하지 않는 스타일이다.”

―그럼 숙제처럼 받은 컴퓨터에 푹 빠져 지낸 아이였나?

“사실 중고등학교 시절 가장 빠졌던 것은 미술과 글쓰기였다. 산업 디자인 전공을 꿈꿨던 적도 있다. 내가 원하는 길을 찾는데 시간이 좀 많이 걸렸다. 내가 어떤 길을 갔을 때 즐겁게 몰입해서 할 수 있는가에 대해 고민을 많이 했다.”

이 기사에 대해 어떻게 생각하시나요?

한겨레에서 직접 확인하세요. 해당 언론사로 이동합니다.

경제

‘정보 지배자’ 상상하던 소년 “데이터 강자 LG 성과 기대하라”