류현정의 더다이브 | [Interview] LG AI연구원 최정규 랩장·이진식 랩장 | “산업 데이터와 AI를 연결하라”… LG 인재, 사이언스파크 집결 이유
인공지능(AI) 뉴스의 홍수 시대다. 하루가 멀다고 굵직한 발표가 이어지고 있다. 지난 8월 한국발 소식 하나도 기술 커뮤니티의 이목을 집중시켰다. ‘LG AI연구원’이 자체 개발한 AI 모델 ‘엑사원 3.0(EXAONE 3.0)’ 중 하나를 오픈 소스로 공개한 것. 세계 무대에 엑사원을 데뷔시킨 LG AI연구원의 ‘출사표’였다. LG그룹은 2020년 LG AI연구원을 출범하고 5000억원에 가까운 돈을 연구개발(R&D)에 투자했다.
최근 기자가 LG AI연구원이 있는 서울 강서구 LG사이언스파크를 찾았을 때, 연구동은 서울 강남 코엑스 전시장에 들어선 것처럼 인파로 붐볐다. 임직원, 협력사, 스타트업, 지역 주민이 참여하는 3주간의 문화·혁신· 예술 축제인 ‘LG 스파크 2024’가 한창이었다. 올해 스파크 행사에선 처음으로 계열사 R&D 구성원이 한자리에 모여 연구 현황을 공유하고 난제 해결을 위해 머리를 맞대는 자리도 있었다.
세계 대전을 방불케 하는 AI 전쟁에서 LG 엑사원이 만든 ‘해자(垓子·성 주위에 파놓은 물길)’는 무엇일까. 기술 업계에선 해자가 경쟁자가 감히 넘볼 수 없는 방어벽을 뜻한다. LG AI연구원의 최정규 랭기지 랩장과 이진식 엑사원 랩장을 만나 이 부분을 집중적으로 물었다. 다음은 일문일답.
LG 스파크 2024 중 열린 ‘DX(디지털 트랜스포메이션) 페어’의 규모를 보고 놀랐다. LG 주요 계열사가 32개 부스를 차리고 환율 예측부터 특허 검색 등 AI 활용 사례를 공유하더라. LG AI연구원 원장이 콘퍼런스의 기조연설을 맡은 것도 눈길을 끈다.
최정규 “엑사원 3.0을 공개한 지금, LG AI연구원의 최우선 목표는 28만 명에 달하는 LG 임직원이 엑사원을 많이 쓰는 것이다. ‘챗GPT’와는 비교할 수 없는 수준으로 말이다. 지난 7월부터는 대화형 AI ‘챗엑사원(Cha-tEXAONE)’도 임직원을 대상으로 베타 서비스 중이다. 간단한 명령어로 산업 데이터를 분석·처리하고 각종 업무 노하우를 얻을 수 있어 반응이 좋다. 첫 질의를 하면 추가 질의를 추천해 주는 기능도 있다.”
임직원이 엑사원을 쓰는 게 왜 중요한가.
최정규 “현재 엑사원을 쓰는 임직원 비중이 1~2% 수준인데도 엄청난 일이 벌어지고 있다. LG전자는 엑사원에 다량의 보고서를 올려 시장 분석과 대응 전략의 초안을 도출한다. LG디스플레이는 엑사원에 사내 전문 문서를 학습시켰는데, 차세대 디스플레이를 개발하는 연구원들이 거의 매일 엑사원에 접속하고 있다. 카메라 모듈 등 각종 부품을 생산하는 LG이노텍은 엑사원에 비전 기술을 더해 불량품 선별을 일사천리로 해 낸다. 기존엔 숙련된 인력 수백 명이 하던 일이었다.”
이진식 “각 계열사에는 30~40년 동안 축적된 전문 지식과 개발 노하우 데이터가 있다. 세계 최고 수준의 산업 데이터와 엑사원을 연결하면, 신제품 개발과 사업 기회 포착 등이 가능해진다. 연구원은 산업 전문가 AI 개발을 목표로 초기부터 RAG(검색증강생성)에 많이 투자해 왔다. AI 모델이 답변을 생성할 때 특정 데이터베이스에서 관련 정보를 검색해 이를 반영하는 기술이다.”
2021년 내놓은 엑사원 1.0은 파라미터(변수)가 약 3000억 개였고 엑사원 3.0의 파라미터 수는 78억 개 수준이다. 3년 전과 비교하면 AI 모델 크기가 오히려 38분의 1로 크게 줄었다.
이진식 “AI 모델이라는 게 엄청나게 큰 계산식을 슈퍼컴퓨터로 처리하는 거다. 모델이 커지면 성능이 대체로 좋아진다. 하지만 운용 비용도 기하급수적으로 증가해 산업 현장에 적용하기는 어렵다. 엑사원 2.0 개발할 때부터 AI 모델 경량화에 역점을 뒀고 엑사원 3.0을 통해 성능과 경제성을 동시에 잡을 수 있다는 것을 보여줬다.”
LG AI연구원의 엑사원 3.0 기술 보고서에 따르면, 엑사원 3.0은 실제 사용성을 비롯해 코딩과 수학 영역 등 13개 벤치마크 점수 순위에서 1위를 차지했다. 엑사원 3.0은 이전 모델인 2.0보다 추론 처리 시간은 56%, 메모리 사용량은 35%, 구동 비용은 72% 절감했다.
경량화의 비결이 있나.
이진식 “우선, 잘 정제된 데이터로 사전 학습을 해야 한다. LG AI연구원은 2년 내내 양질의 데이터를 모으는 데 전념했다고 해도 과언이 아니다. 올해 말까지 법률, 바이오, 의료, 교육, 외국어 등 분야를 확장해 학습 데이터양을 1억 건 이상으로 늘릴 계획이다.
사전 학습도 여러 단계로 나눠 진행했다. 일반 지식을 먼저 학습시킨 다음, 전문 지식을 단계적으로 가르친다. 멀티 스테이지 프리 트레이닝(multi-stage pretraining) 기법으로 학습하면, 비용 효율적으로 학습할 수 있다. 메타가 공개한 라마(LLaMA) 3.1 모델의 파라미터는 약 80억 개로 엑사원 3.0과 유사하지만, 사전 학습량은 엑사원의 약 두 배인 15조 토큰이 넘었다.”
국가 핵심 기술로 취급되는 LG화학, LG디스플레이 등의 데이터를 다루는 일은 매우 민감한 작업이다.
최정규 “국가 전략 산업 분야의 경우 개별 기업들이 자체 AI를 구축해야 하는 이유다. 이는 곧 국가 경쟁력과도 연결되는 문제다. LG그룹에서도 AI 모델의 추가 학습과 운영 등 데이터를 다루는 일은 계열사에서 자체적으로 한다. 연구원은 AI 학습 노하우를 공유하고 운용을 돕는다.”
엑사원 3.0의 사업화에도 시동을 걸었는데.
이진식 “엑사원 3.0의 첫 승부처는 온디바이스 AI(On-Device AI·인터넷 연결 없이 기기 자체에서 실행되는 AI)가 될 것이다. 온디바이스 AI는 비용 절감, 개인화, 데이터 보안이라는 장점이 있다.”
최정규 “LG전자가 만드는 노트북, TV 등에 AI를 탑재할 수 있고, 산업별로 특화한 온디바이스 AI를 제공할 수도 있다. 올 연말부터 적용 사례가 나온다. 엑사원 3.0의 소스 코드를 공개한 후 중소기업과 외국계 기업에서 먼저 사업 제휴를 제안하기도 한다. 공개한 소스 코드를 상업적으로 활용하려면 별도의 라이선스 비용을 지불해야 한다.”
LG AI연구원에서 근무하는 연구원의 배경이 다양하더라.
이진식 “컴퓨터 공학뿐만 아니라 언어학, 뇌공학, 초끈 이론, 북한학, 법학, ASMR(소리로 심리적 안정을 유도하는 영상) 전공자도 있다. 직급이나 직책에 관계없이 모두가 ‘님’ 으로 소통한다. 연봉도 성과와 역량에 따라 받는다. 국내 대기업 중 AI 전담 연구 조직을 꾸린 곳은 LG가 거의 유일하다. 대형 AI 모델을 다뤄보며 연구할 기회와 젊고 역동적인 문화 덕분에 AI 인재가 선호하는 근무처라고 자부한다.”
AI 개발 거품론도 일고 있다. 막대한 투자에 비해 수익이 저조한 탓이다.
최정규 “2019년 AI 연구원 추진단 규모는 30명 수준이었다. 2020년 연구원 출범 당시엔 70여 명이었는데, 이제 연구원 인력이 300명이 넘는다. 우리 연구원이 계속 규모를 늘릴수 있는 이유는 비용 절감, 생산성 향상 등을 ‘숫자’로 보여주기 때문이다.”
최근 삼성, SK, 네이버, 카카오, KT 등 주요 IT 기업의 인력들이 LG AI연구원에 모여들고 있다. LG가 ‘AI 진지(陣地)’ 구축에는 일단 성공한 것이다. LG라는 거함이 AI라는 새 목표로 정렬할 수 있었던 데는 2018년 ‘구광모 호’ 출범이라는 조직 쇄신 기회가 있었기 때문이다. LG AI연구원 출범식은 2020년 코로나19 팬데믹 와중에 온라인으로 열렸다.
LG가 구축한 AI 진지가 최후의 방어선이 아닌, 새로운 공격 거점이 될까. LG는 고삐를 더 세게 당겼다. AI를 차세대 먹거리로 점찍고 2027년까지 AI·데이터 분야 R&D에 총 3조6000억원을 투입하기로 했다.
Copyright © 이코노미조선. 무단전재 및 재배포 금지.