"사진 보고 시 짓기 완전 가능"…네이버 AI 눈 떴다

CBS노컷뉴스 홍영선 기자 2024. 8. 22. 15:57
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

네이버가 출시 1년을 맞은 자체 거대언어모델(LLM) 하이퍼클로바X에 이미지 분석·추론 기능을 추가했다.

구글, 오픈 AI 등 글로벌 빅테크처럼 네이버 LLM도 이미지, 음성도 동시에 처리할 수 있는 '멀티모달 AI'로 진화했다.

네이버가 국내 초·중·고등학교 검정고시 총 1480개 문항을 AI 모델에 이미지 형태로 입력하고 문제를 풀게 한 결과 클로바X가 약 84%의 정답률을 기록했다고 전했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

27일 하이퍼클로바X 출시 1주년 업데이트
이미지·음성 인식하는 '멀티모달 AI'로 진화
오는 27일 업데이트 되는 네이버 클로바X가 지은 시. 네이버 클로바 기술 블로그 캡처


네이버가 출시 1년을 맞은 자체 거대언어모델(LLM) 하이퍼클로바X에 이미지 분석·추론 기능을 추가했다. 구글, 오픈 AI 등 글로벌 빅테크처럼 네이버 LLM도 이미지, 음성도 동시에 처리할 수 있는 '멀티모달 AI'로 진화했다.

네이버는 오는 27일 대화형 AI 비서 클로바X 업데이트를 통해 시각 정보 처리 능력을 새로 추가한다고 22일 밝혔다. 클로바X는 그동안 글자 기반의 질의 응답 기능만 제공해왔다. 구글의 제미나이, 오픈AI의 GPT-4o 등이 이미지, 오디오 등 다양한 데이터를 동시 처리하는 것과 비교했을 때 국내 AI의 대표격인 네이버의 AI가 성능이 떨어진다는 지적이 나온 바 있다.

이번 업데이트를 통해 클로바X는 사진 속 상황을 추론하고 표, 그래프 등을 분석할 수 있게 됐다. 예를 들어 아이가 양에게 먹이를 주고 있는 모습이 담긴 사진을 올리면, 클로바X가 "아이가 양에게 먹이를 주고 있습니다. 아이는 파란색 바탕에 동물 그림이 그려진 옷을 입고 있으며 줄무늬 모자를 쓰고 있습니다. 배경에는 다른 양들도 보이며 이 장소가 양 목장임을 짐작할 수 있습니다"라고 설명한다.

키위새 인형 등이 나뭇잎, 열매를 든 사진을 보여주고 "이 듀오를 위한 밴드 이름을 지어 줘"라고 말하면, 클로바X가 '키위 팝스', '리프 앤 베리 밴드', '숲속 친구들' 등의 이름을 제시한다. 이미지를 통한 생성형 AI 기능을 갖추게 됐다. 네이버 관계자는 "기존의 클로바X가 논리적 글쓰기, 코드 작성, 번역 등의 작업에 활발히 사용된 것에서 더 나아가 이미지 이해 능력을 기반으로 개인의 생산성 향상 도구로 활용 범위가 한층 넓어질 것"으로 기대했다.

네이버는 '클로바X' 업데이트를 통해 시각 정보 처리 능력을 추가한다고 22일 밝혔다. 사진은 클로바X가 사진을 보고 지은 밴드 이름. 네이버 클로바 기술 블로그 캡처


네이버는 이와 함께 하이퍼클로바X 기반의 음성 AI 기술도 공개했다. 기존의 음성 인식, 음성 합성 기술보다 한층 발전한 모델이다. LLM의 특징인 뛰어난 문맥 이해 및 지시문 해석 능력을 활용해 언어 구조 및 발음 정확도 개선은 물론 감정 표현까지 더한 자연스러운 대화가 가능하다. 실시간 음성 번역, 언어 학습, 상담 등 음성 멀티모달 LLM의 다양한 서비스에 접목될 것으로 보인다.

네이버는 빅테크들보다 뒤늦게 멀티모달 LLM을 공개했지만 성능은 뒤처지지 않는다고 강조했다. 네이버가 국내 초·중·고등학교 검정고시 총 1480개 문항을 AI 모델에 이미지 형태로 입력하고 문제를 풀게 한 결과 클로바X가 약 84%의 정답률을 기록했다고 전했다. 오픈AI GPT-4o의 78%보다 높은 정답률을 보였다는 게 네이버 측 설명이다.

앞서 구글은 LLM 제미나이에 고급 음성 기능을 더한 '제미나이 라이브'를 유료로 출시했다. 풍부한 표현력으로 사용자와 대화가 가능하다. 오픈 AI도 실시간 음성 대화가 가능한  'GPT-4o'를 공개했다. 앤트로픽도 이미지 인식 능력을 갖춘 LLM '클로드 3.5 소네트'를 보유하고 있다.

※CBS노컷뉴스는 여러분의 제보로 함께 세상을 바꿉니다. 각종 비리와 부당대우, 사건사고와 미담 등 모든 얘깃거리를 알려주세요.
  • 이메일 :jebo@cbs.co.kr
  • 카카오톡 :@노컷뉴스
  • 사이트 :https://url.kr/b71afn

CBS노컷뉴스 홍영선 기자 hong@cbs.co.kr

▶ 기자와 카톡 채팅하기▶ 노컷뉴스 영상 구독하기

Copyright © 노컷뉴스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?