너도 나도 LLM 개발···얼마나 살아남을까 [AI토피아]

강도림 기자 2023. 8. 19. 09:00
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

대기업·스타트업까지 나서며 버블 우려도
네이버, 블로그·지식인 한국어 데이터 방대
카카오톡 민감정보 포함돼 활용 제약 관측
클럽 발족해 한국어 데이터 확보 노력도
소형 LLM 등 각자 방식으로 차별화 전략
[서울경제]

어느새 인공지능(AI) 거대언어모델(LLM) 개발에 뛰어든 국내 기업만 열 곳이 넘는다. 막대한 자금과 인력 동원이 가능한 빅테크 기업뿐 아니라 스타트업까지 나서고 있다. AI 생태계가 확장되는 건 긍정적이지만 버블이 꺼진 메타버스와 대체불가토큰(NFT)같은 길을 걷는 것 아니냐는 우려까지 생기고 있다. 네이버가 독식한 포털 분야처럼 시장의 선택을 받은 일부 LLM만 살아남을 거라는 관측도 나온다. 기업들은 자신만의 특화된 방식으로 LLM 경쟁력 확보에 총력을 기울이고 있다.

19일 정보기술(IT) 업계에서는 다양한 국내 기업과 스타트업들이 LLM 개발을 진행하고 있다. 전세계적으로 총성 없는 AI 기술 주권 전쟁이 이뤄지고 있는 만큼 다수의 전문가들은 이러한 현상을 긍정적으로 보고 있다.

하정우 네이버클라우드 AI 이노베이션 센터장은 지난 5월 대한상공회의소와 테크앤트레이드포럼이 공동주최한 생성형 AI 세미나에서 “글로벌 사업자에 맞서 국내 기업이 AI 주권을 가져야 한다”고 강조했다. 그는 “GPT-4가 공개됐지만 기술 공개는 안 됐고, 한국어 같은 경우 챗GPT에서 동일한 서비스를 이용하고도 영어 버전보다 4.5배 비용을 더 내야 한다"며 "생태계, 데이터 주권, 서비스 품질 관점에서 한국어 중심 AI를 만드는 작업이 필요하다"고 했다.

하정우 네이버클라우드 AI 이노베이션 센터장. 사진 제공=네이버

LLM 개발에 나선 모든 기업이 성공하기에는 현실적 한계가 있다는 지적도 있다. 고성능 LLM에는 풍부한 데이터셋(데이터 집합체)이 필수적인데 이를 얻기 위한 인프라나 자금력이 부족한 경우가 많기 때문이다. 한 전문가는 “AI가 많은 데이터를 학습해야 뛰어난 성능을 지닌 LLM을 만들 수 있다”며 “중소기업이나 스타트업들이 충분한 데이터를 확보할 수 있을지 의문”이라고 말했다.

또다른 업계 관계자는 “네이버는 20년 넘게 포털 시장을 장악했을 뿐 아니라 지식인, 블로그 등 각종 서비스를 운영하며 쌓아온 막대한 데이터를 가지고 있다”며 “카카오(035720)의 경우는 카카오톡이라는 무기가 있지만 개인정보가 포함된 대화가 오가는 메신저 특성상 이용하는 데 한계가 있을 수 있다”고 했다. 국내에서 초거대 AI 모델을 학습시키기에 네이버만큼 유리한 곳이 없다는 것이다.

업스테이지는 한국어 데이터 확보와 고품질 LLM 개발을 위한 ‘1T 클럽’을 발족했다

AI 스타트업 업스테이지는 데이터 부족 문제를 해결하기 위해 지난 14일 ‘1T 클럽'을 발족했다. ‘1T’는 ‘1 트릴리언(Trillion) 토큰’을 의미한다. 업스테이지는 텍스트·책·기사 등 다양한 형태의 한국어 데이터 제공에 기여하는 파트너사들로 1T클럽을 구성할 계획이다. 업스테이지는 이를 통해 한국어 데이터를 확보하고 고품질 LLM 개발에 나설 방침이다. 파트너사에게는 데이터 제공량에 비례해 API(응용프로그램 인터페이스) 사용료를 할인해주고 LLM의 API 사업으로 창출되는 수익을 공유하는 혜택을 제공할 예정이다.

올 하반기 들어 지난달 초거대 AI ‘엑사원 2.0’을 공개한 LG(003550)를 비롯해 국내 기업들의 LLM 대전이 본격화하고 있다. 엑사원 2.0은 4500만건에 달하는 논문·특허 등 전문 자료를 학습시킨 전문가용 모델로 파라미터 수가 3000억개에 달한다. 오는 24일에는 네이버가 차세대 LLM ‘하이퍼클로바X’를 공개한다. 네이버가 이전에 공개한 하이퍼클로바의 파라미터 수는 2040억개다. 다음 달에는 생성 AI 기반 검색 서비스 ‘큐:’를 시범 서비스한다. 카카오도 연내 LLM ‘Ko(코) GPT 2.0’을 공개한다. 파라미터를 낮춘 중소형 LLM 모델로 쪼개 카카오톡 등 기존 서비스에 녹일 계획이다. KT(030200)도 하반기에 초거대 AI '믿음' 상용화에 박차를 가한다.

스캐터랩의 AI 챗봇 ‘이루다’. 사진 제공=스캐터랩

스타트업들의 소형언어모델(sLLM) 개발도 이어지고 있다. LLM은 학습에 사용되는 파라미터 수가 많아 컴퓨팅 리소스 등 하드웨어(HW)적 한계와 비용 문제가 있다. 반면 이들은 sLLM이 이러한 부분을 보완하고, 특정 영역에서 대규모 데이터를 학습시켜 일상 대화, 전문 용어 등 특정 도메인과 언어에 대한 성능을 기대할 수 있다는 점을 내세운다. 전창배 IAAE 국제인공지능&윤리협회 이사장은 “LLM이 모든 분야를 아울러 서비스하는 모델이라면 sLLM은 법률용, 게임용 등 특정 분야 전용 버티컬로 더 수월하게 쓰일 수 있다”고 말했다.

스캐터랩은 챗GPT 돌풍이 불기 전인 지난해 10월 일찌감치 자체 개발한 sLLM ‘루다 젠1’을 기반으로 AI 챗봇 ‘이루다 2.0’을 출시했다. 이루다 2.0 개발 당시에는 이용자와의 자연스러운 대화에 초점을 뒀었는데 현재는 여기에 지식 데이터를 학습해 논리적 상호작용까지 가능한 sLLM ‘핑퐁-1'을 개발하고 있다. 김종윤 스캐터랩 대표는 “AI 기술 경쟁은 모델 싸움에서 결국 독점적 데이터 경쟁으로 전환될 것”이라며 “장기적 관점에서 감성 대화에 특화된 데이터셋을 무기로한 sLLM 개발에 투자하고 있다”고 말했다.

엔씨소프트의 LLM ‘바르코’

엔씨소프트(036570)도 지난 16일 게임 시나리오와 이미지, 가상 인간 등 게임 개발에 특화된 중소형 LLM ‘바르코’를 공개했다. AI 스타트업 뤼튼테크놀로지스는 구글의 LLM 팜2(PaLM 2) 비영어권 언어모델과 오픈AI의 GPT4, GPT3.5을 자사 서비스에 탑재하는 등 이용자들이 다양한 모델을 활용하도록 지원하는 전략을 구사하고 있다.

최병호 고려대 인공지능연구소 교수는 “AI분야는 데이터가 없으면 안 되는 게임"이라며 “고사양 컴퓨터, 그래픽처리장치(GPU), 고급 인력 등이 필요해 대규모 투자도 뒷받침돼야 한다”고 말했다. 이어 “기업과 스타트업들이 버티컬 등 각자만의 LLM 개발·운용 방식으로 경쟁력을 확보해야 할 것”이라고 말했다.

챗GPT로 촉발된 생성형 인공지능(AI) 기술 개발 경쟁이 격화하면서 기대와 우려가 공존합니다. AI와 함께 하는 현재와 같이 살아갈 미래는 인류에게 유토피아일 수도 있고, 디스토피아가 될 수도 있습니다. ‘AItopia’를 통해 AI로 인한 사회·산업의 변화를 분석하고 인류 삶의 미래를 조망합니다.

강도림 기자 dorimi@sedaily.com

Copyright © 서울경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?