네이버 "AI가 텍스트·소리·이미지 통합 이해"

옴니모달 하이퍼클로바X 공개
다양한 산업현장서 활용 가능

네이버클라우드가 텍스트와 이미지, 오디오 등을 단일 인공지능(AI) 모델에서 처음부터 학습시킨 옴니 파운데이션 모델을 29일 공개했다. 정부가 추진하는 독자 AI 프로젝트의 일환으로, 네이버는 다양한 산업 현장에서 활용할 수 있는 AI 에이전트로 발전시킬 계획이다.

이번에 공개된 ‘하이퍼클로바X 시드 8B 옴니’ 모델은 텍스트와 소리 등 데이터 형태가 달라지더라도 맥락을 통합적으로 이해할 수 있는 게 특징이다. 말과 글, 시각·음성 정보가 복합적으로 오가는 현실 환경에서 활용도가 높다. 텍스트 지시를 기반으로 이미지를 생성·편집하는 기능도 갖췄다. 네이버클라우드 관계자는 “글로벌 프런티어 AI 모델들이 제공하고 있는 기능으로 네이버가 글로벌 수준의 멀티모달 생성 역량을 확보했다는 뜻”이라고 했다.

기존 추론형 AI에 시각 이해와 음성 대화, 도구 활용 능력을 결합한 ‘하이퍼클로바X 시드 32B 씽크’ 모델도 함께 공개했다. 이 모델은 글로벌 AI 평가업체인 아티피셜애널리시스가 10개 주요 벤치마크를 종합해 산출한 지수에서 글로벌 주요 AI 모델과 비슷한 성능 범위를 기록했다.

이 모델이 올해 대학수학능력시험을 푼 결과 국어·수학·영어·한국사 등 주요 과목에서 1등급에 해당하는 점수를 냈다. 영어와 한국사는 만점을 기록했다. 네이버클라우드 관계자는 “많은 AI 모델이 문제를 텍스트로 변환해 입력하는 것과 달리 해당 모델은 이미지를 직접 이해해 문제를 해결했다는 점에서 차별화된다”고 강조했다.

네이버클라우드는 옴니모달 AI의 잠재력을 높이기 위해 기존 인터넷 문서, 이미지 중심 학습을 넘어 현실 세계 데이터 확보에 집중한다는 계획이다. 텍스트·이미지·음성 모델을 결합하는 방식의 기존 멀티모달 접근과 달리 단일 모델 구조의 옴니모달 AI는 규모 확장이 상대적으로 쉽다. 성낙호 네이버클라우드 하이퍼스케일 AI 기술총괄은 “기본기를 갖춘 구조 위에서 규모를 확장해야 실제로 쓰임새 있는 AI가 될 수 있다”며 “디지털화하지 않은 생활 맥락 데이터나 지역의 지리적 특성이 반영된 공간 데이터를 확보할 것”이라고 말했다.

고은이 기자 koko@hankyung.com

한국경제

IT/과학

네이버 "AI가 텍스트·소리·이미지 통합 이해"