네이버, 이미지·음성 AI 기술 고도화…"구글 쫓는다"

클로바X 기술 업데이트, 27일부터 이미지로 대화 가능
"클로바X의 목표는 'AI 어시스턴트' 서비스…업데이트 지속"

(서울=뉴스1) 손엄지 기자 = 네이버(035420)가 이미지를 분석하고, 음성을 생성하는 인공지능(AI) 기술을 공개하면서 '멀티모달(Multimodal) AI 서비스'로 나아간다. 네이버는 오픈AI, 구글보다 늦지만 신중하게 AI 기술에 접근하고 있다.

네이버는 오는 27일 서비스 업데이트를 통해 대화형 AI 에이전트 '클로바X'에 시각 정보 처리 능력을 새롭게 추가한다고 23일 밝혔다.

◇ 이미지·음성 AI 기술 공개

이제 클로바X 대화창에 이미지를 올리면 이미지에서 추출된 정보와 질문을 바탕으로 AI와 대화할 수 있다.

클로바X는 사진 속 현상을 묘사할 수 있고, 사진을 보고 시도 창작한다. 도형이 포함된 수학 문제 이미지를 넣으면 문제를 풀고, 풀이도 제공한다.

네이버는 영상을 보고 AI와 소통할 수 있는 기술도 연구 중이다. 향후 한 시간 이상 분량의 영화를 통째로 이해하는 것도 가능해질 전망이다.

또 초거대언어모델(LLM) 하이퍼클로바X 기반 음성 AI 기술인 'speech X'(가칭)도 공개했다. 기존의 음성 인식, 음성 합성 기술보다 한층 발전한 모델이다.

'스피치X'는 1~2초의 목소리 데이터로도 음성을 생성해 말을 이어서 할 수 있다. '1~2초'는 글로벌에서 가장 짧은 수준으로 알려진다.

향후 네이버는 스피치X를 기반으로 구글의 음성 AI 어시스턴트(assistant)인 '제미나이 라이브'와 같은 서비스 제공을 계획하고 있다.

'제미나이 라이브'는 비서처럼 언제 어디서나 음성으로 묻고 답할 수 있고, 스케쥴을 관리해주는 기술이다.

◇"AI 기술, 속도보다 안정성"

아직 네이버는 이미지를 생성하고, 동영상을 만드는 서비스는 공개하지 않았다. 기술 개발은 진행 중이지만 딥페이크 등 악용 사례를 우려해서다.

실제 구글은 이미지 생성 기능을 공개했지만 역사적 인물의 이미지를 잘못 생성하는 등 오류가 발견돼 20일 만에 서비스를 중단한 바 있다.

아울러 음성 합성 기술도 여러 안정성 검토를 거치고 있다. 연예인, 정치인 목소리를 조작하는 음성 모방 범죄 우려 때문이다.

글로벌 수준의 음성 합성 기술을 개발했지만, 아직 어떤 서비스에 어떻게 적용할 지는 정해지지 않았다.

네이버 관계자는 "기술이 악용될 우려가 있어 기술적인 완성도를 높인 다음에 서비스를 공개하는 게 맞다고 생각한다"면서 "적용 검토는 하고 있지만 기술 업데이트는 바로 하지 않고 있다"고 말했다.

이어 "클로바X 서비스는 'AI 에이전트 서비스'라는 것에 정체성을 두고 업데이트를 진행해 나갈 것"이라고 덧붙였다.

eom@news1.kr

IT/과학