"독도는 분쟁지역?"…토종 AI, 주권도 비밀도 지킨다

윤지혜 기자 2023. 9. 5. 13:50
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[MT리포트-국산AI '골든타임']② 데이터 외부유출 및 비용문제 해결
[편집자주] 오픈AI의 '챗GPT'를 시작으로 구글·메타 등의 초거대AI 플랫폼이 한국시장을 공략하고 있다. 이에 맞서 국산 초거대AI 기업들도 세계시장을 홀릴 독창적 기술력을 승부수로 내세우고 있다. 이를 뒷받침하는 우리 정부와 민간의 지원도 단단하다. 미래 사회의 중추 기술인 AI 주도권을 글로벌 빅테크에 내주면 자칫 '디지털 기술 주권' 전체를 잃을 수 있다는 우려가 나오면서 국산 초거대AI의 '골든타임'을 지키려는 각계의 노력을 조명한다.

글로벌 생성형 AI(인공지능) 대전이 B2B(기업간거래) 시장으로 확전했다. 오픈AI와 구글은 보안과 학습 문제를 해결한 기업용 생성형 AI 서비스를 출시하며 본격적인 수익화에 나섰다. 이에 국내 ICT(정보통신기술) 기업 긴장감도 커진다.

5일 업계에 따르면 네이버클라우드는 국내 기업 대상으로 오는 10월 출시되는 '뉴로클라우드' 영업에 나선다. 외산 생성형 AI의 공세 속에 한국 기업의 사정을 가장 잘 아는 서비스로 차별화한다. 뉴로클라우드란 클라우드와 온프레미스(On-premise·자체구축형)를 결합한 서비스로, 고객사 데이터센터에 서버 인프라를 직접 설치해 차세대 LLM(초거대언어모델) 하이퍼클로바X를 편하게 이용하되 민감정보의 외부 유출을 원천 차단한 게 특징이다.

앞서 오픈AI는 GPT-4로 기업용 챗GPT를 만들 수 있는 '챗GPT 엔터프라이즈'를 출시했다. 소비자용 유료 챗GPT보다 최대 2배 빠르게 4배 긴 문서를 처리한다. 기업 데이터를 학습시켜 맞춤형 AI 챗봇을 만들되, 모든 데이터와 대화는 암호화해 오픈AI가 활용하지 않는다. 구글도 다양한 LLM으로 기업별 생성형 AI를 만들 수 있는 '버텍스AI'를 고도화하며 "기업 데이터는 비공개로 유지된다. 데이터 저장위치와 사용여부·방식도 투명하게 확인할 수 있다"고 못 박았다.

기업이 생성형 AI를 쓰는 데 걸림돌이었던 학습·보안 문제를 해결했다는 설명이다. 이에 따라 생성형 AI를 도입하려는 기업도 급증할 전망이다. 이미 미국 경제전문지 포천이 선정한 글로벌 500대 기업(매출액 기준)의 80% 이상이 챗GPT를 이용 중이다.

국내에서도 관심이 뜨겁다. 한 IT업계 관계자는 "대다수의 금융사가 생성형 AI 도입을 위한 내년 예산을 대거 편성해 이를 잡기 위한 경쟁이 치열하다"고 귀띔했다. 자칫 B2B 시장마저 외산 생성형 AI에 주도권을 뺏기는 것 아니냐는 우려도 나온다.

그러나 전문가들은 여전히 국산 생성형 AI의 강점이 크다고 입을 모은다. 하정우 네이버클라우드 AI이노베이션 센터장은 "금융사를 비롯해 대부분의 기업은 데이터를 해외 클라우드에 올리는 것 자체를 꺼린다"라며 "외산 기업용 생성형 AI에 대한 우려가 근본적으로 해결되지 않았다"라고 꼬집었다. 이주열 LG CNS 수석연구위원도 "기업 데이터가 한국 영토를 벗어나는 건 크리티컬한 이슈"라며 "LLM을 온프레미스로 구축하는 사업을 강화할 예정"이라고 말했다.
"독도는 분쟁지역"이라는 외산 AI, 국방·국력 문제 될라
고가의 비용도 난제다. LLM은 '토큰'(AI가 인식하는 문자 데이터 단위) 단위로 과금하는데, 영어보다 한국어 사용 시 더 많은 토큰이 필요하다. 예컨대 3만2000개 토큰을 지원하는 챗GPT 엔터프라이즈는 영어로 2만5000단어를 쓸 수 있는 반면, 한글은 1만2800자에 그친다. 이 때문에 같은 양의 문서 처리 시 국내기업이 영어권보다 2배 비싼 사용료를 내면서도 속도는 더 느리다.

한국어에 최적화된 LLM이 필요한 이유다. 오픈AI가 운영하는 토크나이저에 따르면 GPT-3는 'That's OK' 9글자를 토큰 3개로 인식하지만 한글 '괜찮아'는 3글자인데도 9개 토큰을 쓴다. 자음과 모음을 모두 토큰으로 분류했다. 반면 한국어에 익숙한 국산 LLM은 띄어쓰기나 음절·형태소를 기준으로 토큰화해 비용이 훨씬 줄어들 수 있다. 단, 기업이 이용한 만큼 과금하는 클라우드 방식과 달리 온프레미스로 구축했을 때 구축비가 더 들 수는 있다.

구글·애플이 모바일 운영체제(OS) 시장지배력을 활용해 모든 앱 사업자에 영향력을 행사하듯, 글로벌 빅테크에 종속되지 않으려면 AI 주권을 확보해야 한다는 목소리도 있다. 서구문화 중심의 생성형 AI가 한국의 문화적 정체성을 약화할 수 있다는 지적도 나온다. 챗GPT는 독도에 대해 "한국·일본이 소유권 분쟁을 벌이는 지역"이라고 답하지만, 네이버 클로바X는 "한국 영토"라고 확답하는 게 대표적이다.

이에 대해 이광형 카이스트 총장은 최근 포럼에서 "AI는 독도를 일본 땅이라 하고 선생님은 한국 땅이라 하면 어린이들이 헷갈릴 것"이라며 "AI는 주권이자 국방, 국력과 직결된다. AI를 만든 국가의 지배를 받지 않으려면 한국형 AI를 육성해야 한다"고 강조했다.

'독도는 어느나라 땅이야'라고 물었을때 네이버 클로바X의 답변(위)과 오픈AI 챗GPT 답변. /사진=각 서비스 캡처


윤지혜 기자 yoonjie@mt.co.kr

Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?