네이버, 중국 AI 모델 걷어낸다…독자 비전 인코더 개발

이나연 기자 2026. 4. 17. 09:33
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

정부 주도의 소버린(주권) 인공지능(AI) 개발 프로젝트 참여 당시 기술 독자성 논란에 휩싸였던 네이버가 자체 개발한 비전 인코더를 멀티모달 AI 모델에 전면 적용한다.

앞서 네이버클라우드는 올해 초 과학기술정보통신부가 추진하는 '독자 AI 파운데이션 모델(독파모)' 개발 사업에서 자사 멀티모달 모델 '하이퍼클로바X 시드 32B 싱크'에 큐원 2.5 모델의 비전 인코더와 가중치를 일부 활용했다가 논란을 빚었다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

독파모 '큐원' 논란 해소 및 한국어·문화 경쟁력 강화…멀티모달 모델 전면 적용 예정

(지디넷코리아=이나연 기자)정부 주도의 소버린(주권) 인공지능(AI) 개발 프로젝트 참여 당시 기술 독자성 논란에 휩싸였던 네이버가 자체 개발한 비전 인코더를 멀티모달 AI 모델에 전면 적용한다. 중국산 모델을 차용해 제기됐던 논란을 해소하는 동시에 한국어·한국 문화 특화 멀티모달 경쟁력을 확보하기 위한 행보로 풀이된다.

17일 업계에 따르면 네이버클라우드는 지난달 초 독자 비전 인코더 개발을 마치고 자사 멀티모달 모델 전반에 이를 탑재하기 위한 내재화 작업에 착수했다. 비전 인코더는 이미지·영상 정보를 AI가 처리 가능한 형태로 변환하는 모듈로, 텍스트·이미지·음성을 종합 처리하는 멀티모달 모델에서 시신경 역할을 담당한다.

네이버클라우드가 이번에 완성한 비전 인코더는 기존 자체 기술인 'VUClip'을 대폭 개선한 버전으로, 오픈소스 생태계에서 검증된 큐원 등 최상위권 인코더와 대등한 성능을 확보한 것으로 전해졌다.

특히 AI를 학습 단계부터 한국어로 훈련시켜 별도 번역 과정 없이 이미지와 한국어를 직접 연결하는 구조를 갖췄다. 글로벌 인코더들이 제주 '하르방' 이미지를 단순히 '석상(Statue)'으로 인식하는 것과 달리, 네이버 모델은 이미지 입력 즉시 '하르방'이라는 한글 단어를 직접 떠올리는 식이다.

앞서 네이버클라우드는 올해 초 과학기술정보통신부가 추진하는 '독자 AI 파운데이션 모델(독파모)' 개발 사업에서 자사 멀티모달 모델 '하이퍼클로바X 시드 32B 싱크'에 큐원 2.5 모델의 비전 인코더와 가중치를 일부 활용했다가 논란을 빚었다. 학습 초기 단계부터 자체 기술로 구축하는 '프롬 스크래치' 원칙을 표방한 독파모 사업 취지와 맞지 않는다는 비판이 제기됐기 때문이다. 당시 네이버클라우드는 "비전 인코더는 언제든 교체 가능하며 교체 불가능한 핵심 영역도 아니다"라는 입장을 밝힌 바 있다. 

이미 오픈소스로 공개된 하이퍼클로바X 시드 32B 싱크의 인코더 교체 여부는 아직 결정되지 않은 것으로 알려졌다.

네이버클라우드 관계자는 "자체 개발한 비전 인코더를 멀티모달 모델에 적용할 계획"이라며 "해당 시점은 아직 확정되지 않았다"고 말했다.

이나연 기자(ny@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.