NC AI, 멀티모달 AI 4종 공개…"한국어는 챗GPT보다 낫다"

바르코 비전 2.0 벤치마크 점수. 출처=NC AI

국내 대표 인공지능 전문기업 NC AI가 차세대 멀티모달 인공지능(AI) 모델 4종을 선보였다. 이들 모델은 텍스트, 이미지, 영상까지 동시에 이해하는 능력을 갖춘 'VARCO-VISION 2.0(바르코 비전 2.0)' 시리즈로, 글로벌 최고 수준의 성능을 기록하며 기술력과 실용성을 동시에 입증했다.

NC AI는 16일 한국어 기반 멀티모달 AI 기술력을 집약한 바르코 비전 2.0 △14B △1.7B △1.7B OCR △비디오 임베딩 등 총 4종의 멀티모달 AI 모델을 선보였다고 발표했다. 이 중 14B 모델과 임베딩 모델은 이날부터 오픈소스로 배포되며, 나머지 두 모델도 차주 중 공개될 예정이다.

이번에 공개된 14B 모델은 이미지-텍스트를 함께 이해할 수 있는 비전언어모델(VLM)로, 글로벌 성능 상위권 모델인 InternVL3-14B, Ovis2-16B, Qwen2.5-VL 7B를 벤치마크 기준에서 모두 능가했다. 특히 한국어 이미지 이해 성능과 광학문자인식(OCR) 처리 능력에서 우위를 입증하며, 멀티이미지 동시 분석과 고도화된 추론이 필요한 업무용 환경에서의 활용 가능성을 보여줬다.

또 스마트폰이나 PC 등 개인 디바이스에서 구동 가능한 1.7B 경량 모델도 함께 공개됐다. 이 모델은 개인 사용자와 소규모 사업자들도 고성능 멀티모달 AI 기술을 쉽게 활용할 수 있도록 설계돼, AI 접근성과 기술 민주화 측면에서 의미가 크다는 평가다.

바르코 비전 2.0 로고. 출처=NC AI

영상 기반 검색 기능에 특화된 바르코 비전 2.0 임베딩 모델은 텍스트·이미지·비디오 간 의미 유사도를 고차원 임베딩 공간에서 정밀하게 계산할 수 있으며, 멀티벤트 2.0 제로샷 기준 세계 최고 성능을 기록했다. 검색 벡터 개념을 도입해 기존 이미지 검색 AI 모델의 능력을 복제·전이해 비디오 검색까지 확장한 점이 특징이다.

OCR 특화 모델인 바르코 비전 2.0 1.7B-OCR은 AnyRes 해상도 분할 입력 방식을 통해 다양한 해상도의 이미지를 손실 없이 정밀하게 처리할 수 있다. 흐릿한 이미지나 한국어-영어 혼합 환경에서도 높은 인식 정확도를 보였으며, 기존 오픈소스 OCR 대비 한국어 인식 능력이 우수한 것으로 평가됐다.

이번 공개 모델들은 금융, 교육, 제조, 쇼핑, 콘텐츠 등 다양한 산업 분야에서 문서 자동화, 비디오 검색, 이미지 설명 생성, 광고 문구 제작 등 실질적인 업무 효율성 향상에 기여할 것으로 기대된다. NC AI는 이들 모델을 모두 연구용 오픈소스로 공개하며, 개인·기업·공공기관 누구나 활용 가능하다고 밝혔다.

이연수 NC AI 대표는 "기술 고도화에 따라 글로벌 트렌드는 텍스트 중심 언어모델에서 비전언어모델로 이동하고 있다"며 "이번 모델 공개를 통해 멀티모달 AI에서도 한국의 기술 주권과 경쟁력을 확보할 수 있는 가능성을 확인했다"고 말했다.

류종은 기자 rje312@3protv.com