"풍경 사진 올렸더니 챗봇이 시 짓네…네이버 AI, GPT-4o 못지 않네"

윤정민 기자 2024. 8. 22. 13:37
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

네이버가 출시 1년을 맞은 거대언어모델(LLM) 하이퍼클로바X에 이미지 분석·추론 기능을 탑재했다.

구글, 오픈AI, 앤트로픽 등 글로벌 빅테크처럼 네이버 LLM도 멀티모달 AI(텍스트, 이미지, 오디오 등 다양한 유형의 데이터를 동시에 처리·이해·생성하는 AI)로 진화했다.

이미 구글, 오픈AI, 앤트로픽 등은 이미지 분석, 음성 대화 등의 기능을 갖춘 LLM을 자사 챗봇에 탑재한 바 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

네이버, 27일 클로바X에 이미지 처리 기능 추가
사진 속 상황 추론, 표·그래프 분석 등 가능
[서울=뉴시스] 네이버는 오는 27일 대화형 AI 서비스 '클로바X' 업데이트를 통해 시각 정보 처리 능력을 새로 추가한다고 22일 밝혔다. 사진은 클로바X가 지은 시 (사진=네이버 클로바 기술 블로그 캡처)


[서울=뉴시스]윤정민 기자 = 네이버가 출시 1년을 맞은 거대언어모델(LLM) 하이퍼클로바X에 이미지 분석·추론 기능을 탑재했다. 구글, 오픈AI, 앤트로픽 등 글로벌 빅테크처럼 네이버 LLM도 멀티모달 AI(텍스트, 이미지, 오디오 등 다양한 유형의 데이터를 동시에 처리·이해·생성하는 AI)로 진화했다. 네이버는 한층 고도화된 하이퍼클로바X 일부 성능이 오픈AI LLM 'GPT-4o'에 뒤처지지 않는다고 강조했다.

네이버는 오는 27일 대화형 AI 서비스 '클로바X' 업데이트를 통해 시각 정보 처리 능력을 새로 추가한다고 22일 밝혔다.

클로바X는 그동안 텍스트 기반 질의응답 기능을 제공해 왔다. 네이버 전체 서비스를 넓혀도 이미지 탐색 AI가 적용됐던 곳은 네이버 쇼핑(옴니서치) 등 일부에 불과했다.

하지만 클로바X는 앞으로 사진 속 상황을 추론하고 표, 그래프 등을 분석하고 수학 문제를 풀 수 있게 됐다. 네이버는 자사 블로그를 통해 클로바X에 탑재될 '하이퍼클로바X 비전' 기능(이미지에 대한 상세한 설명, 이미지를 통한 추론, 표·차트 이해 등)을 소개했다.

"채소, 고기, 빵 사진만 올렸는데 내가 햄버거를 먹겠다는 걸 어떻게 알았지?"

하이퍼클로바X 비전 vs GPT-4o, 韓 검정고시 승자는 네이버

[서울=뉴시스] 네이버는 오는 27일 대화형 AI 서비스 '클로바X' 업데이트를 통해 시각 정보 처리 능력을 새로 추가한다고 22일 밝혔다. 사진은 클로바X가 지은 시 (사진=네이버 클로바 기술 블로그 캡처)

예를 들어 아이가 양에게 먹이를 주고 있는 모습이 담긴 사진을 게재하면 클로바X가 "아이가 양에게 먹이를 주고 있습니다. 아이는 파란색 바탕에 동물 그림이 그려진 옷을 입고 있으며 줄무늬 모자를 쓰고 있습니다. 배경에는 다른 양들도 보이며 이 장소가 양 목장임을 짐작할 수 있습니다"라고 답한다.

양파, 토마토, 소고기, 햄버거 빵 등 사진을 함께 올린 뒤 "방금 장 봐온 재료들인데 이걸로 뭐 만들 것 같아? 만드는 순서도 알려줘"라고 말하면 클로바X가 햄버거 조리법을 알려준다.

키위새 인형 등이 나뭇잎, 열매를 든 사진을 주고 "이 듀오를 위한 밴드 이름을 지어 줘"라고 말하면 클로바X가 '키위 팝스', '리프 앤 베리 밴드', '숲속 친구들' 등의 이름을 제시하는 기능도 선보였다.

[서울=뉴시스] 네이버는 오는 27일 클로바X 서비스 업데이트를 통해 시각 정보 처리 능력을 새로 추가한다고 22일 밝혔다. 하이퍼클로바X 이미지 이해 '코드 생성' 부분 (사진=네이버 제공) *재판매 및 DB 금지

네이버는 AI 챗봇 고도화로 다른 글로벌 빅테크가 개발한 AI 챗봇과의 경쟁력도 갖추게 됐다. 이미 구글, 오픈AI, 앤트로픽 등은 이미지 분석, 음성 대화 등의 기능을 갖춘 LLM을 자사 챗봇에 탑재한 바 있다.

구글은 LLM '제미나이'에 고급 음성 기능을 더한 '제미나이 라이브'를 출시했다. 풍부한 표현력으로 사용자와 대화할 수 있으며 챗봇이 답변 중 후속 질문을 하더라도 바로 대응할 수 있다는 게 구글 측 설명이다.

오픈AI도 사용자와 실시간으로 음성 대화를 나눌 수 있는 LLM 'GPT-4o'를 공개했다. 스칼렛 요한슨이 GPT-4o 음성 중 하나인 '스카이'가 자신의 목소리를 무단 도용했다고 주장해 화제가 되기도 했다. 현재는 스카이 음성을 삭제한 모드로 제공되고 있다.

앤트로픽도 이미지 인식 능력을 갖춘 LLM '클로드 3.5 소네트'를 보유하고 있다. 이미지를 분석해 코드를 생성하고 편집하는 기능을 갖췄다.

네이버는 이들 기업보다 늦게 멀티모달 LLM을 공개했으나 성능은 뒤처지지 않는다고 강조했다. 네이버가 국내 초·중·고등학교 검정고시 총 1480개 문항을 AI 모델에 이미지 형태로 입력하고 문제를 풀게 한 결과 클로바X가 약 84%의 정답률을 기록했다고 전했다. 오픈AI GPT-4o의 78%보다 높은 정답률을 보였다는 게 네이버 측 설명이다.

네이버는 클로바X가 논리적 글쓰기, 코드 작성, 번역 등의 작업에 활발히 사용된 것에서 더 나아가 이미지 이해 능력을 기반으로 개인의 생산성 향상 도구로서 활용 범위가 한층 넓어질 것으로 기대한다고 전했다.

☞공감언론 뉴시스 alpaca@newsis.com

Copyright © 뉴시스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?