[한국의 AI]②더 똑똑해진 네이버 '하이퍼클로바X', 한국어에 영어도 공부했다

블로터 창간 18주년 특별기획

글로벌 생성형 인공지능(AI) 밸류체인에서 한국 기업들의 경쟁력을 분석합니다.

최수연 네이버 대표가 지난해 8월 서울 강남구 그랜드인터컨티넨탈서울 파르나스에서 열린 콘퍼런스 '단(DAN) 23'에 참석해 기조연설을 하고 있다. /사진 제공=네이버

하이퍼클로바X는 한국어, 영어, 코드 데이터를 균형있게 혼합 학습했다.

이 언어모델은 성능평가(벤치마크)에서 한국어와 영어를 기반으로 한 종합 추론, 코딩, 수학, 채팅 등을 수행하는 역량을 입증했다. 한국어를 기반으로 한 추론에서 두각을 나타냈고, 여러 언어 간 번역과 교차 언어 추론 작업을 수행했다.

하이퍼클로바X가 주체적인 인공지능(소버린 AI) 개발의 기준을 제공할 수 있다.

네이버는 올해 펴낸 기술보고서에서 자사의 대규모언어모델(LLM) '하이퍼클로바X'를 이렇게 설명했다. 영어 위주로 제작된 LLM 사이에서 한국 고유의 언어·문화 특성을 잘 반영했을 뿐 아니라 영어 데이터까지 충분히 학습했다는 점을 강조했다. 하이퍼클로바X는 지난해 8월 공개된 뒤 광고·커머스·협업도구 등 다양한 서비스에 적용되고 있다.

하이퍼클로바X는 오픈AI의 챗GPT, 구글의 오픈소스 기반 젬마 등과 비슷한 시기에 등장했다. 네이버는 지난 2021년 한국 최초, 전 세계에서 세 번째로 LLM 하이퍼클로바를 공개했다. 당시 모델은 학습 데이터의 80~90%가 한국어 기반이었다. 지난해 8월 모습을 드러낸 하이퍼클로바X'는 한국어와 영어를 복수 학습해 더욱 고도화됐다.

LLM은 무수히 많은 데이터를 학습해 추론능력을 키운다. 네이버가 하이퍼클로바X를 개발할 때도 포털 서비스에서 확보한 데이터가 기반이 됐다. 지난해 발표된 하이퍼클로바X가 학습한 데이터는 공개되지 않았지만, 이전 모델에 대해 네이버가 밝힌 정보로 유추할 수 있다.

네이버는 2021년 하이퍼클로바에 관해 발표한 논문에서 이 모델이 △블로그 △카페 △뉴스 △댓글 등 네이버 포털의 콘텐츠와 웹 기반 백과사전인 위키피디아를 학습했다고 밝혔다. 2000년대부터 국내 주요 포털로 자리잡으며 쌓아온 무수히 많은 데이터가 LLM 개발을 뒷받침한 것이다. 또 네이버는 데이터를 수집할 때 개인이 식별되지 않도록 익명화해 개인정보 침해 위험을 피했다고 설명했다.

하이퍼클로바X, 눈에 띄는 데이터 학습 효율성

지난해 더욱 고도화된 형태로 공개된 하이퍼클로바X는 인터넷에 있는 방대한 영어 데이터까지 학습했다. 이와 함께 프로그래밍, 이미지·음성 처리 역량을 높였다.

/그래픽= 박진화 디자이너

하이퍼클로바X 테크니컬리포트는 △오픈AI의 GPT4 △메타의 라마2 △구글의 젬마  △네이버의 하이퍼클로바X 등 주요 LLM의 학습 데이터 효율성을 비교했다. LLM은 입력된 텍스트를 토큰화해 처리한다. 동일한 과제를 처리할 때 토큰이 적게 들어갈수록 데이터 처리 효율이 좋아진다.

영어 기반 동일 과제를 수행할 경우 네이버 하이퍼클로바X의 토큰 사용량은 GPT4와 젬마보다 많고 라마2보다는 적었다. 한국어 기반 과제를 수행할 때는 하이퍼클로바X의 토큰 사용량이 GPT4의 절반 아래였다.

또 이 리포트는 하이퍼클로바X와 라마2 등 주요 LLM의 성능을 평가했다. 하이퍼클로바X는 △일반상식 △수학 △코딩 △한국어 등의 과제 수행에서 라마2보다 좋은 성능을 보였다. 라마2는 페이스북 모회사인 메타가 개발한 LLM으로, 누구나 사용할 수 있는 오픈소스 형태다.

한국, 소버린 AI 시장 주도

하이퍼클로바X의 또 다른 특징은 '소버린 AI'라는 점이다. 전 세계 AI 시장의 선두에 있는 LLM은 오픈AI, 구글 등 미국 빅테크가 영어를 중심으로 개발했다. 영어 중심 LLM은 각 지역의 언어·문화·역사를 제대로 반영하지 못한다는 지적이 나온다. 이의 영향으로 지역과 국가의 고유성을 반영한 데이터를 학습한 소버린 AI 수요가 높아지고 있다.

/그래픽= 박진화 디자이너

하이퍼클로바X는 한국어와 한국 문화·역사 데이터를 포괄적으로 학습했다. 하이퍼클로바X를 대상으로 초중고 검정고시 문제를 풀게 한 결과 정답률은 83.8%였다. 동일 조건으로 GPT4를 대상으로 시험한 결과 정답률은 77.8%였다.

네이버는 하이퍼클로바X를 바탕으로 중동, 동남아 지역과 소버린 AI 협력 기회를 모색하고 있다. 올 4월 사우디아라비아 '아람코디지털'과 아랍어 LLM 기반 소버린 AI 개발 협력 양해각서(MOU)를 체결했다. 5월에는 필리핀 기업 '컨버지ICT솔루션스'와 소버린 클라우드·AI를 활용한 필리핀 디지털 전환을 위한 MOU를 맺었다.

윤상은 기자