네이버, 이미지·음성 AI 기술 고도화…"구글 쫓는다"

손엄지 기자 2024. 8. 23. 06:21
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

네이버(035420)가 이미지를 분석하고, 음성을 생성하는 인공지능(AI) 기술을 공개하면서 '멀티모달(Multimodal) AI 서비스'로 나아간다.

또 초거대언어모델(LLM) 하이퍼클로바X 기반 음성 AI 기술인 'speech X'(가칭)도 공개했다.

향후 네이버는 스피치X를 기반으로 구글의 음성 AI 어시스턴트(assistant)인 '제미나이 라이브'와 같은 서비스 제공을 계획하고 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

클로바X 기술 업데이트, 27일부터 이미지로 대화 가능
"클로바X의 목표는 'AI 어시스턴트' 서비스…업데이트 지속"
(네이버 제공)

(서울=뉴스1) 손엄지 기자 = 네이버(035420)가 이미지를 분석하고, 음성을 생성하는 인공지능(AI) 기술을 공개하면서 '멀티모달(Multimodal) AI 서비스'로 나아간다. 네이버는 오픈AI, 구글보다 늦지만 신중하게 AI 기술에 접근하고 있다.

네이버는 오는 27일 서비스 업데이트를 통해 대화형 AI 에이전트 '클로바X'에 시각 정보 처리 능력을 새롭게 추가한다고 23일 밝혔다.

클로바X 이미지 인식 화면 예시

◇ 이미지·음성 AI 기술 공개

이제 클로바X 대화창에 이미지를 올리면 이미지에서 추출된 정보와 질문을 바탕으로 AI와 대화할 수 있다.

클로바X는 사진 속 현상을 묘사할 수 있고, 사진을 보고 시도 창작한다. 도형이 포함된 수학 문제 이미지를 넣으면 문제를 풀고, 풀이도 제공한다.

네이버는 영상을 보고 AI와 소통할 수 있는 기술도 연구 중이다. 향후 한 시간 이상 분량의 영화를 통째로 이해하는 것도 가능해질 전망이다.

또 초거대언어모델(LLM) 하이퍼클로바X 기반 음성 AI 기술인 'speech X'(가칭)도 공개했다. 기존의 음성 인식, 음성 합성 기술보다 한층 발전한 모델이다.

'스피치X'는 1~2초의 목소리 데이터로도 음성을 생성해 말을 이어서 할 수 있다. '1~2초'는 글로벌에서 가장 짧은 수준으로 알려진다.

향후 네이버는 스피치X를 기반으로 구글의 음성 AI 어시스턴트(assistant)인 '제미나이 라이브'와 같은 서비스 제공을 계획하고 있다.

'제미나이 라이브'는 비서처럼 언제 어디서나 음성으로 묻고 답할 수 있고, 스케쥴을 관리해주는 기술이다.

◇"AI 기술, 속도보다 안정성"

아직 네이버는 이미지를 생성하고, 동영상을 만드는 서비스는 공개하지 않았다. 기술 개발은 진행 중이지만 딥페이크 등 악용 사례를 우려해서다.

실제 구글은 이미지 생성 기능을 공개했지만 역사적 인물의 이미지를 잘못 생성하는 등 오류가 발견돼 20일 만에 서비스를 중단한 바 있다.

아울러 음성 합성 기술도 여러 안정성 검토를 거치고 있다. 연예인, 정치인 목소리를 조작하는 음성 모방 범죄 우려 때문이다.

글로벌 수준의 음성 합성 기술을 개발했지만, 아직 어떤 서비스에 어떻게 적용할 지는 정해지지 않았다.

네이버 관계자는 "기술이 악용될 우려가 있어 기술적인 완성도를 높인 다음에 서비스를 공개하는 게 맞다고 생각한다"면서 "적용 검토는 하고 있지만 기술 업데이트는 바로 하지 않고 있다"고 말했다.

이어 "클로바X 서비스는 'AI 에이전트 서비스'라는 것에 정체성을 두고 업데이트를 진행해 나갈 것"이라고 덧붙였다.

eom@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.

이 기사에 대해 어떻게 생각하시나요?