네이버, 글·음성·영상 한 번에 생성 ‘옴니모달’ AI 개발 완료…이르면 이달 공개

GPT-4o·라마4까지…글로벌 빅테크도 ‘옴니 전쟁’
멀티모달 한계 넘는다…"산업AI로 진화 목표"

최수연 네이버 대표가 지난달 6일 DAN25 컨퍼런스에서 네이버의 통합 에이전트 방향성으로 '에이전트 N'을 소개하고 있다. 네이버 제공

네이버가 차세대 인공지능(AI) 기술로 꼽히는 '옴니모달' 모델 개발을 마치고 활용 단계에 돌입한다.

텍스트를 넘어 이미지와 음성, 영상, 행동까지 한 번에 이해하고 생성하는 옴니모달 AI를 통해 단순 챗봇을 넘어 산업 현장과 물리 세계까지 아우르는 '현장형 AI'로 진화하겠다는 구상이다. 이는 오픈AI와 구글, 메타 등 글로벌 빅테크가 옴니모달 경쟁에 나선 흐름과도 맞물린다.

21일 관련 업계에 따르면 네이버는 최근 자체 옴니모달 모델 개발을 완료하고 이르면 이달 말 신규 생성형 AI 모델인 옴니모달을 공개할 예정이다. 제조, 에너지, 금융 등 복잡한 산업 현장에서 가치를 만들어내는 '산업 AI' 전환이 목표다.

네이버가 옴니모달을 차세대 승부수로 내세운 배경에는 글로벌 AI 업계 전반에서 '옴니'로의 기술 진화가 가속화되고 있다는 판단이 깔려 있다.

실제 오픈AI는 지난해 'GPT-4'를 업그레이드하면서 텍스트와 이미지, 음성 입출력을 하나의 모델에서 처리하는 'GPT-4o'를 공개했다. GPT-4o에서 'o'는 '옴니'의 약자다.

데미스 하사비스 구글 딥마인드 최고경영자(CEO)도 지난 8월 "여러 모델들이 모든 것을 할 수 있는 하나의 '옴니 모델'로 수렴하고 있다"며 "이것이 일반인공지능(AGI) 시스템이 할 수 있어야 할 모습"이라고 언급했다.

중국 알리바바도 지난 9월 '큐웬3-옴니' 모델을 발표하며 사전 학습 단계부터 다양한 모달리티를 하나의 구조로 학습한 '네이티브 엔드투엔드 옴니모달'을 강조했다. 메타 또한 신규 플래그십 '라마(Llama) 4'를 두고 음성까지 출력할 수 있는 네이티브 옴니 모델이라고 설명했다.

업계에서는 세상을 입체적으로 이해하고 자유롭게 소통하는 AGI 구현을 위해 옴니모달이 필수 기술로 자리 잡고 있다는 분석이 나온다.

기존의 '멀티모달'은 텍스트 중심 거대언어모델(LLM)에 시각·음성 모듈을 사후적으로 결합해 만든다. 하지만 이런 구조는 모델이 복잡해지고, 모달리티 간 연결이 어색하고 성능을 키우는 데도 한계가 있다는 지적이 있었다.

이와 달리 처음부터 글, 이미지, 음성을 하나의 모델 안에서 한꺼번에 학습하는 옴니모달의 모델 구조는 스케일업 측면에서도 유리하다.

네이버가 그간 '프롬 스크래치'(제로 베이스에서 시작) 개발을 강조해 온 것도 핵심 구조를 직접 설계해야 새로운 방법론을 안정적으로 확보할 수 있다는 판단에서다.

네이버 관계자는 "기존 멀티모달은 사실상 여러 모델을 이어 붙인 구조라 일관성과 확장성에 제약이 있었다"며 "옴니모달은 학습 초기부터 텍스트·이미지·음성 등을 한꺼번에 넣어 단일 모델로 학습시키는 방식"이라고 설명했다. 같은 정보를 어떤 형태로 입력하든 일관된 정확도로 이해하고 결과를 내놓는 것이 강점이라는 것.

특히 옴니모달은 '산업 AI' 전환에 강점이 있는 것으로 평가된다. 제조 현장, 발전소, 조선소 등 산업 현장에서 오가는 정보는 문서만이 아니라 작업자의 음성, 설비 영상, 기계 소음, 동작과 행동 데이터까지 복합적으로 얽혀 있다. 업계에서는 옴니모달이 향후 '행동'까지 확장되며 로봇, 자율주행차 등 '피지컬 AI'를 잇는 중간 다리 역할을 할 것으로 보고 있다.

네이버는 우선 비교적 작은 옴니모달 모델로 자체 개발 방법론을 확보하고, 이를 검증한 뒤 점진적으로 스케일업해 글로벌 빅테크 수준의 성능을 목표로 한다는 방침이다. 국가대표 AI 모델을 개발하는 '독자 AI 파운데이션' 프로젝트에서도 옴니모달을 전면에 내세운 곳은 네이버가 사실상 유일하다는 게 회사 측 설명이다.

김나인 기자 silkni@dt.co.kr

디지털타임스

IT/과학

네이버, 글·음성·영상 한 번에 생성 ‘옴니모달’ AI 개발 완료…이르면 이달 공개