네이버클라우드, 옴니모달 하이퍼클로바X 공개…‘국가대표 AI’ 과제 첫 성과

옴니·추론모델 2종 공개…현실형 AI 에이전트
데이터 차별화, 스케일업, 특화 모델 생산 염두

텍스트와 이미지의 맥락을 함께 이해해 결과물을 만들어내는 ‘HyperCLOVA X SEED 8B Omni’ 모델 소개 이미지 [네이버클라우드 제공]

[헤럴드경제=차민주 기자] 네이버클라우드가 과학기술정보통신부 ‘독자 인공지능(AI) 파운데이션 모델’ 프로젝트의 주관 사업자로서 추진 중인 ‘옴니(Omni) 파운데이션 모델’ 개발 과제의 첫 성과를 공개했다.

29일 네이버클라우드는 국내에서 처음으로 네이티브 옴니모달 구조를 적용한 파운데이션 모델인 ‘네이티브 옴니모델(HyperCLOVA X SEED 8B Omni)’과 기존 추론형 AI에 시각·음성·도구 활용 역량을 더한 ‘고성능 추론모델(HyperCLOVA X SEED 32B Think)’을 각각 오픈소스로 선보였다.

HyperCLOVA X SEED 8B Omni는 텍스트·이미지·오디오 등 각종 형태의 데이터를 단일 모델에서 처음부터 학습하는 ‘네이티브 옴니모달’ 구조를 적용한 모델이다. 옴니모달 AI는 정보의 형태가 달라지더라도 하나의 공간에서 맥락을 통합적으로 이해할 수 있는 차세대 AI 기술이다.

네이버클라우드는 옴니모달 AI 기술을 극대화하고자 기존 인터넷 문서나 이미지뿐만 아니라, 현실의 맥락을 담은 데이터 확보에 집중한다는 전략이다. 성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “모델을 대규모로 키워도 데이터 다양성이 한정돼 있다면 AI의 문제 해결 능력도 특정 영역에만 집중될 수밖에 없다”며 “디지털화되지 않은 생활 맥락 데이터나 지리적 특성이 반영된 공간 데이터 등 현실 세계 데이터를 확보하고 정제하는 과정이 선행돼야 한다”고 설명했다.

네이버클라우드는 이 같은 데이터를 확보한 뒤, 산업과 일상 밀착 서비스에 필요한 여러 크기의 특화 옴니모달 모델을 구축하겠단 방침이다. 회사 측에 따르면 옴니모달 AI는 텍스트·이미지·음성 모델을 결합하는 방식의 멀티모달과 달리 단일 모델 구조를 갖춰, 규모 확장이 쉽다.

더불어 네이버클라우드는 옴니모달 AI 에이전트 활용 가능성을 검증하기 위해 ‘HyperCLOVA X SEED 32B Think’도 공개했다. 이는 자체 추론형 AI에 시각 이해, 음성 대화, 도구 활용 능력을 결합해 복합적인 입력을 이해하고 문제를 해결하는 옴니모달 에이전트 경험을 구현한 모델이다.

‘HyperCLOVA X SEED 32B Think’의 영역별 벤치마크 점수 [네이버클라우드 제공]

네이버클라우드에 따르면 해당 모델은 글로벌 AI 평가 기관인 ‘아티피셜 애널리시스(Artificial Analysis)’가 10개 주요 벤치마크를 종합해 산출한 지수 기준에서도 글로벌 주요 AI 모델들과 유사한 성능 범위에 있었다.

네이버클라우드가 해당 모델로 올해 대학수학능력시험 문제를 풀이한 결과, 국어·수학·영어·한국사 등에서 모두 1등급을 달성하는 성과를 거뒀다. 특히 영어와 한국사에서는 만점을 기록했다. 회사 측은 해당 모델에 대해 이미지 입력을 직접 이해하고 문제를 해결했다는 점에서 차별화된다고 설명했다.

성 총괄은 “텍스트·시각·음성 등 AI의 감각을 수평적으로 확장하는 동시에 사고·추론 능력을 강화했을 때 현실 문제 해결력이 크게 높아지는 점을 확인했다”며 “기본기를 갖춘 구조 위에서 점진적으로 규모를 확장해야 실제 쓰임새 있는 AI로 발전할 수 있다고 보고 스케일업을 이어갈 계획”이라고 말했다.

IT/과학

네이버클라우드, 옴니모달 하이퍼클로바X 공개…‘국가대표 AI’ 과제 첫 성과