AI 모델서 ‘중국산’ 제거…네이버, ‘자체 비전 인코더’ 적용

김나연 매경이코노미 인턴기자(nayeun0701@naver.com) 2026. 4. 17. 15:39
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

‘프롬 스크래치’ 논란 정면 돌파
한국 문화 특화 멀티모달의 탄생
네이버 사옥. (뉴시스)
네이버가 ‘독자 AI 파운데이션 모델’(독파모) 개발 프로젝트 당시 논란이 됐던 중국 비전 인코더를 완전히 배제한다. 대신 자체 개발한 비전 인코더를 자사 AI 모델에 전면 도입하기로 했다. 이를 통해 그간 제기됐던 독자성 논란을 없애고 국내 문화 맥락에 특화된 멀티모달 경쟁력도 챙긴다.

17일 IT 업계에 따르면 네이버클라우드는 지난달 초 독자적인 비전 인코더 개발을 완료하고, 향후 개발하는 멀티모달 모델 전반에 이를 적용하기 위한 내재화 작업에 착수했다. 비전 인코더는 이미지·영상 정보를 AI가 이해할 수 있는 형태로 변환하는 모듈이다. 텍스트·이미지·음성·영상 정보를 종합적으로 다루는 멀티모달 모델에서 일종의 ‘시신경’ 역할을 한다.

앞서 네이버클라우드는 자사 멀티모달 모델 ‘하이퍼클로바X 시드 32B 싱크’에 알리바바가 개발한 큐웬 2.5 모델의 비전 인코더와 가중치를 일부 차용했다 논란이 됐다.

독파모는 해외 빅테크 AI 모델에 대한 의존을 줄이고 한국만의 AI 모델을 육성하기 위해 추진됐다. 학습 초기 단계부터 자체 기술로 구축하는 ‘프롬 스크래치’(From Scratch) 원칙을 내세웠기에 네이버의 중국 기술 차용에 비판이 거셌다. 당시 네이버클라우드는 “비전 인코더는 언제든 교체할 수 있고, 교체가 불가능한 핵심 영역도 아니”라고 주장했다.

네이버는 이번 개발로 독자성 논란을 씻어내고 기술 자립의 발판을 다질 계획이다. 새 인코더는 글로벌 최상위권 모델인 ‘큐웬’과 대등한 성능을 갖췄다고 평가된다. 눈에 띄는 강점은 한국어와 한국 문화의 맥락을 정확히 읽어내는 시각 지능지능이다. 이번에 개발된 비전 인코더는 별도 번역 과정 없이 이미지와 한국어를 직접 연결하는 구조다. 기존 글로벌 인코더들은 우리나라 ‘하르방’ 이미지를 단순히 ‘석상’(Statue)이라는 영어 단어로 인식했지만 네이버 모델은 즉시 ‘하르방’이라는 한글 단어를 떠올리는 식이다.

네이버클라우드 측은 “한국어와 이미지를 직접 연결하도록 설계돼 정보 왜곡 없이 우리나라 문화 특유의 맥락을 읽어낼 수 있는 점이 차별점”이라며 “한국의 지리나 문화, 고유 명사가 포함된 시각 데이터를 다룰 때 외산 모델과는 차원이 다른 독보적인 정확도를 보여줄 것”이라고 강조했다.

Copyright © 매경이코노미. 무단전재 및 재배포 금지.