AI 국가대표 선발전, 5팀 5색 Q&A

김다은 기자 2025. 9. 3. 07:38
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

글로벌 경쟁력을 갖춘 K-AI 모델을 개발하기 위해 다섯 개 팀이 선발됐다. 국내 AI 생태계를 선도할 책임감으로 ‘모두의 AI’ 개발 경쟁에 나선 다섯 팀 담당자들에게 다섯 가지 질문을 던졌다.

과학기술정보통신부는 글로벌 경쟁력을 갖춘 이른바 ‘K-AI’ 모델을 개발하기 위해 ‘독자 AI 파운데이션 모델’ 사업을 추진하고 있다. 8월4일 △네이버클라우드 △업스테이지 △SK텔레콤(SKT) △NC AI △LG AI연구원 등 총 다섯 팀이 구성한 컨소시엄이 ‘국가대표 정예팀’으로 선발되었다. 이들은 업체별로 올 한 해 최대 약 1000장 규모의 H100(엔비디아의 고성능 AI 반도체 칩)과 240억원 규모의 데이터 등을 지원받는다. 연내 한 팀이 탈락한 이후 6개월마다 경쟁형 단계 평가를 거쳐 2027년 연말, 사업이 끝나는 시기에는 최종 두 팀이 남아 K-AI 모델을 내놓는다. 유례없는 지원 규모를 발판 삼아 업체 간 AI 기술의 자존심을 건 치열한 경쟁이 시작됐다. 〈시사IN〉은 국내 AI 생태계를 선도할 책임감으로 ‘모두의 AI’를 개발하는 다섯 팀 담당자들에게 다섯 가지 질문을 던졌다.

컨소시엄 구성 전략과 기대효과는 무엇인가.

SKT(김태윤 SKT 파운데이션 모델 담당, 조동연 SKT 이노베이티브 모델 담당): AI를 구성하려면 AI 데이터센터·반도체 등 AI 인프라가 있어야 한다. 우리는 ‘SK브로드밴드’와 AI 데이터센터도 운영하고 있고, 컨소시엄에 참여한 ‘리벨리온’은 AI 반도체 인프라로 국내에서 두각을 나타내는 기업이다. 거대언어모델(LLM)을 만들기 위한 선행 연구는 서울대나 카이스트 연구진과 함께하고 ‘셀렉트스타’가 AI 개발에 필요한 양질의 데이터를 전문적으로 구축하고 공급한다. 반도체부터 데이터, 서비스까지 풀스택을 갖춘, AI 개발 및 서비스 제공에 필요한 모든 단계를 포괄하는 컨소시엄이다.

업스테이지(김민성 업스테이지 사업개발 리드): 우리는이번에 선정된 팀 중 유일한 스타트업으로 산·학·연 컨소시엄을 구성했다. 모델 개발과 GPU 인프라 운영에는 ‘래블업(GPU 분할 가상화)’ ‘노타 AI(모델 학습)’ ‘플리토(데이터 전처리)’ 등의 기업이, 기술 확산에는 ‘뷰노(의료)’ ‘마키나락스(제조/국방)’ ‘로앤컴퍼니(법률)’ ‘오케스트로(공공)’ 등이 함께해 강력한 협업 체계를 꾸렸다.

NC AI(김건수 NC AI 에이전틱AI랩 실장): ‘그랜드 컨소시엄’ 전략을 선택했다. 고려대·연세대·서울대 같은 연구기관들이 파운데이션 모델 개발 파트에, SI(시스템통합) 업체인 ‘포스트DX’와 ‘롯데이노베이트’가 산업 AI 전환을 위한 도메인옵스 플랫폼(산업별 특화 AI를 빠르게 구현할 수 있는 플랫폼) 개발 등을 맡는다. 모델의 성능과 실제 활용성은 다르다는 것을 현업에서 많이 느끼는데, 성능이 조금 낮더라도 다양한 산업 데이터를 학습했다면 이후 산업 특화 모델을 만들 때 유용하다. 컨소시엄에 참여한 기관들의 전문지식을 바탕으로 더 유용한 파운데이션 모델을 만드는 것에 집중하려고 한다.

업체마다 LLM 독자 모델을 가지고 있지만 빅테크 기업들과 기술력 격차가 크다.

LG AI(김유철 LG AI연구원 전략부문장): 7월에 발표한 ‘엑사원 4.0(EXAONE 4.0)’은 글로벌 AI 성능 분석 전문기관 ‘아티피셜 어낼리시스(Artificial Analysis)’의 인텔리전스 지수(Intelligence Index) 평가에서 최근 한국 모델 기준 1위, 글로벌 기준 10위권을 기록하며 글로벌 시장에서 통용될 수 있는 기술력을 증명했다. 내부 선행 조직과 대학과의 협력을 통해 선별적 모델 학습을 적용해 기술 발전도 이끌 예정이다.

업스테이지: 이번 과제에서는 기존 ‘솔라(Solar)’ 모델과 별개로 완전히 새로운 아키텍처와 학습 알고리즘을 설계·구현할 예정이다. 향후 단계별 로드맵에 따라 모델 사이즈는 1000억~3000억 파라미터(매개변수) 수준까지 확장하고(2022년 출시된 GPT 3.5의 매개변수는 1750억 개), 언어는 한국어·영어·일본어, 동남아시아 주요 언어까지 포함해 다국어 대응력을 강화할 계획이다.

SKT: SKT의 LLM인 ‘A.X’를 만들어온 경험은 살리겠지만, 그 모델과는 다른 새로운 모델을 만들 예정이다. 다만 A.X 모델을 개발하면서 LLM 개발과 사용에 대한 노하우를 상당히 쌓았다. 생성형 AI 기술이 전 세계적으로 주목받기 시작한 2018년부터 한국어 중심의 AI 기술 연구를 지속해온 경험도 살리고자 한다. SKT는 자연어 이해 및 생성 기술의 기반을 마련하고 주요 모델을 오픈소스로 공개해 국내 생태계와의 상생에도 기여해왔다. 2019년에는 국내 최초의 한국어 딥러닝 언어 모델인 ‘코버트(KoBERT)’를 자체 개발해 공개하고, 이를 고객센터 챗봇 등에 적용한 바 있다.

네이버(성낙호 네이버클라우드 AI 총괄): 옴니 파운데이션 모델을 목표로 한다. 이는 멀티모달(텍스트·이미지·영상 등 다양한 유형의 데이터를 처리하고 이해하는 기술)보다 한층 진화한 개념이다. 현재의 AI는 사용자가 ‘좋은 질문’을 해야만 ‘좋은 답’을 얻을 수 있지만 옴니모달 AI는 텍스트뿐 아니라 표정, 말투, 주변 상황 등 다양한 형태로 사용자를 입체적으로 이해함으로써, 사용자의 의도를 먼저 파악하는 ‘나보다 나를 더 잘 아는 AI’를 지향한다.

텍스트·이미지·오디오·비디오를 모두 통합 처리하는 방식에서 네이버가 갖는 차별성은 ‘애니 투 애니(Any-to-Any)’ 모델과 ‘실시간 양방향 처리’ 기술이다. ‘애니 투 애니’는 어떤 형태의 입력(Any input)이든 이해하고, 또 어떤 형태의 출력(Any output)으로도 생성할 수 있는 옴니 모달리티를 의미한다. 여기에 ‘실시간 처리’ 기술을 더해, 사용자의 말을 들으면서 동시에 생각하고 답하는 AI를 구현할 것이다.

NC AI: 바르코 LLM 출시 당시 한국어 벤치마크에서 최고 성능을 달성했으며 그중 글쓰기(Writing)에서 높은 성적을 받았다. NC AI가 개발한 실시간 번역 기술은 NC소프트에서 서비스하는 글로벌 게임들에 사용되고 있기도 하다. MMORPG(다중접속역할수행게임) 특성상 유저(이용자)들 간의 대화가 필수적인데 다양한 국가의 유저 간 대화를 실시간으로 번역해 많은 호응을 받았다.

K-AI 모델이 만들어지면 시민들은 어떤 변화를 체감할 수 있을까.

네이버 : ‘AI 에이전트(사용자의 목표 달성을 위해 외부 도구를 활용해 문제를 해결하는 시스템)들의 마켓플레이스이자 허브’를 지향한다. 스마트폰에 수많은 앱 개발사들이 등장해 혁신을 이끌었듯 AI 시대에는 수많은 전문 에이전트 개발사들이 등장할 것이다. 특정 병원의 내부 데이터 접근 권한을 가진 ‘의료 AI 에이전트’나, 특정 공장의 시스템과 연동되는 ‘제조 AI 에이전트’는 각자의 전문성과 보안 정책 때문에 독립적으로 존재해야 한다. 이처럼 독립적인 전문 에이전트들이 사용자와 안전하게 상호작용할 수 있는 기술적·사업적 기반을 제공하는 것이 목표다.

NC AI: 각 산업 도메인에 더 잘 활용될 수 있는 버티컬 AI인 특화 모델 개발도 목표로 삼고 있다. 해당 분야를 잘 이해하는 파운데이션 모델이라면 적은 데이터나 비용으로 기술 특화 모델을만들 수 있다. 도메인옵스 플랫폼은 파운데이션 모델을 기업 목적에 맞는 모델로 조정하는 프로세스를 지원한다. 오픈AI는 클라우드 컴퓨팅 서비스인 AWS(아마존 웹서비스)를 제공하지만, 해당 기업이 제공하는 환경에서만 모델을 사용할 수 있는 폐쇄적 성격이다.

우리는 개방적인 기업 특화 모델을 개발하는 프로세스를 지원하되 그 결과물을 API(응용 프로그램 인터페이스) 형태뿐 아니라, 다운로드 받을 수 있도록 해서 각 기업이 원하는 환경에서 자유롭게 사용할 수 있도록 지원하려고 한다. 여기서 발생하는 수익을 파운데이션 모델의 유지보수에 활용해 지속적으로 파운데이션 모델을 개선해나갈 수 있는 생태계를 구축하고자 한다.

AI 모델 구축에서 데이터 확보는 큰 장벽이다. 충분한 규모의 고품질 데이터를 어떻게 확보할 예정인가. SKT는 유심 해킹 사건 등으로 보안 리스크가 크게 부각되기도 했는데 어떻게 대비하고 있나?

SKT: A.X를 만들면서 데이터를 확보하는 기술들을 익혔고 셀렉트스타와의 협업을 통해 LLM에 필요한 고품질 데이터를 확보하는 노력을 해왔다. 정부가 저작권이 일부 해결된 데이터들을 제공할 예정이라 기대를 가지고 있다. 도서류나 방송, 멀티미디어 데이터를 적극 활용할 예정이다.

데이터 보안과 관련해서는,개발 초기 설계 단계부터 ‘데이터 주권’과 ‘개인정보 보호’를 핵심 원칙으로 모든 데이터는 국내 인프라에서만 수집·저장·처리하고, 해외 서버를 거치지 않도록 했다. 특정 산업이나 고객 요구에 맞춰 모델 구조와 파라미터를 유연하게 바꾸는 동시에, 데이터 보안을 글로벌 수준 이상으로 강화했다.

소버린 AI이 폐쇄적 모델이라 기술 고립을 자처한다는 우려도 있다.

LG AI: AI 파운데이션 모델 프로젝트는 궁극적으로 글로벌 AI 시장에서 한국의 기술경쟁력을 확보하는 것을 목표로 한다. 성능 좋은 AI 모델과 자체적인 생태계가 없다면, 한국은 AI 기술 분야에서 외부 종속성이 심화되어 도태될 가능성이 크다. 대한민국의 AI 기술 독립과 성장을 위해 독자적인 파운데이션 모델을 확보하는 것이 무엇보다 중요하다.

네이버 : 미·중 AI 기술 패권 경쟁으로 규제 이슈가 뒤로 밀린 지금이 소버린 AI를 만들 수 있는 골든타임이다. 미국 행정부가 풀스택 AI를 수출하겠다고 하는 시점에서 결국 AI는 ‘핵 개발’ 경쟁과 비슷한 상황이며, 이러한 측면에서 정부 주도의 ‘독자 AI 파운데이션 모델 프로젝트’의 중요한 의의가 있다. 앞으로 GDP에서 AI 비중이 20%까지 확대될 것이란 전망이 나온다. 내수 시장에서 충분히 활용할 수 있는 정도의 독자 AI 모델을 만들면 그게 곧 협상력이 되고, 그 협상력 덕분에 우리나라가 다른 나라에 AI 주권을 내주지 않아도 된다. AI 업계가 뭉쳐 서로를 보완하며 시너지를 낸다면 세계적 성과도 이끌어낼 수 있을 것이다.

김다은 기자 midnightblue@sisain.co.kr

▶읽기근육을 키우는 가장 좋은 습관 [시사IN 구독]
▶좋은 뉴스는 독자가 만듭니다 [시사IN 후원]
©시사IN, 무단전재 및 재배포 금지

Copyright © 시사IN. 무단전재 및 재배포 금지.