[팩플] 네이버 하이퍼클로바X, 보고 듣고 말하기도 이제 잘한다

어환희 2024. 8. 22. 17:31
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

네이버가 오는 27일 자체 AI 모델 '하이퍼클로바X'를 업데이트 한다. 사진은 네이버의 하이퍼클로바X 기반 AI 서비스 구조. 사진 네이버


네이버가 자체 AI(인공지능) 모델 ‘하이퍼클로바X’를 이미지·음성 처리가 가능하도록 업데이트한다. 지난해 8월 하이퍼클로바X를 출시한지 1년 만이다.


무슨 일이야


네이버는 오는 27일 대화형 AI 서비스 클로바X 업데이트를 통해 시각 정보 처리 능력을 새로 추가한다고 22일 밝혔다. 클로바X는 그동안 텍스트 기반 질의응답 기능을 제공해 왔는데, 여기에 이미지 이해와 개선된 음성 인식이 가능한 ‘하이퍼클로바X 비전’ 기능을 탑재하는 것. 기존엔 읽고 쓰기에만 능했다면 이젠 더 자연스럽게 보고 듣고 말할 수 있게 됐다.

뭐가 달라져


업데이트된 클로바X는 사진 속 현상을 묘사하거나 상황을 추론할 수 있다. 이미지나 그림 형식으로 되어 있는 표·그래프 등을 분석하고 수학 문제를 풀 수 있다. 이에 사용자들은 대화창에 올린 이미지에서 추출된 정보를 바탕으로 AI와 대화할 수 있다. 음성 인식 역시 기존보다 언어 구조 및 발음 정확도가 개선됐고, 감정 표현까지 더한 자연스러운 대화가 가능해졌다.

무슨 의미야


업데이트된 네이버 하이퍼클로바X의 '차트 이해' 부분. 사진 네이버

네이버는 이번 업데이트를 통해 하이퍼클로바X를 멀티모달 LLM(거대언어모델)으로 고도화하겠다는 구상이다. 멀티모달은 텍스트뿐 아니라 이미지·영상·음성 등 다양한 데이터 양식을 처리할 수 있는 AI의 능력을 말한다.

네이버는 그간 논리적 글쓰기, 코드 작성, 번역 등의 작업에 주로 쓰였던 클로바X가 이미지 이해 능력을 기반으로 활용 범위를 넓혀갈 수 있을 것으로 기대하고 있다. 네이버 측은 “실제 대한민국 초·중·고 검정고시 총 1480개 문항을 AI 모델에 이미지 형태로 입력하고 문제를 풀게 한 결과, 클로바X가 약 84%의 정답률을 기록해 오픈AI의 GPT-4o의 78%보다 높은 정답률을 보였다”고 설명했다.


경쟁력 있을까


앞서 글로벌 빅테크들은 이미 멀티모달 AI를 선보인 바 있다. 오픈AI는 지난 5월 음성으로 질문하고, 텍스트 답변을 음성으로 읽어주는 음성 기능을 탑재한 GPT-4o를 선보였다. 지난 7월부터는 텍스트 없이 음성으로만 데이터를 인식하는 고급 음성모드를 일부 유료 대상자를 대상으로 제공하고 있다. 구글은 멀티모달 LLM인 ‘제미나이’ 기반AI 음성비서 ‘제미나이 라이브’를 지난 13일 출시했다. 후발주자인 네이버가 이들과 어느정도나 경쟁할 수 있을지는 미지수다.

AI 투자로 돈을 벌 수 있을지, 이른바 ‘AI 거품론’이 확산하는 상황에서 수익화도 관건이다. 오픈AI는 GPT-4o 등 최신 모델을 제약 없이 사용하는 ‘챗GPT 플러스’ 멤버십(월 20달러)을 운영하고 있다. 구글의 제미나이 라이브는 ‘제미나이 어드밴스드’(월 19.99달러)를 구독한 이용자들만 사용할 수 있다.

하지만 네이버의 AI 비즈니스 모델은 아직 B2B(기업 간 거래)에 한정돼 있다. 최수연 네이버 대표는 지난 9일 2분기 실적 발표회에서 “(AI 서비스의) 별도의 구독료 등 수익화는 현재로서는 검토하고 있지 않다”면서 “투자 여력이 충분하다고 판단하고 있어 비용이 수반되더라도 AI 기반의 B2C 서비스를 확대하거나 실험하는 노력 역시 계속할 것”이라고 말했다.

어환희 기자 eo.hwanhee@joongang.co.kr

Copyright © 중앙일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?