인터넷도 안되는데 '초당 90단어' 쏟아냈다

권봉석 기자 2024. 10. 24. 15:04
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[스냅드래곤 서밋] 퀄컴 스냅드래곤8 엘리트, 실제 AI 성능 살펴보니

(지디넷코리아=권봉석 기자)[하와이(미국)=권봉석 기자] 퀄컴은 미국 하와이에서 진행하는 연례 기술행사 '스냅드래곤 서밋 2024' 첫 날인 21일(이하 현지시각) 행사장인 마우이 와일레아 비치 리조트 일대에서 AI 관련 기능을 체험할 수 있는 데모 존을 운영했다.

행사장에는 퀄컴이 같은 날 발표한 안드로이드 스마트폰용 SoC(시스템반도체) 최신 제품인 '스냅드래곤8 엘리트'를 탑재한 스마트폰 시제품, 그리고 지난 6월 출시된 '스냅드래곤 X 엘리트/플러스'가 탑재된 시판 노트북 제품이 배치됐다.

스냅드래곤8 엘리트 탑재 스마트폰 시제품. (사진=지디넷코리아)

■ 초당 90단어 쏟아내는 온디바이스 멀티모달 AI

AI 모델의 성능 측정 기준으로 흔히 토큰 관련 속도가 언급된다. 예를 들어 LLM(거대언어모델)에 질문한 후 답변을 구성하는 첫 단어가 몇 초 만에 출력되는지, 또 분당 몇 단어가 출력되는지를 기준으로 삼는다.

멀티모달 AI. 영수증 사진을 인식하고 인당 식사 비용을 계산한다. (사진=지디넷코리아)

시연장에서는 중국 지푸(Zhipu)가 개발해 스냅드래곤8 엘리트에 최적화한 멀티모달 AI를 이용한 시연이 눈길을 끌었다.

생성 AI에 주위 풍경을 설명해 달라고 음성으로 요청한 뒤 주위 사진을 찍자 단 몇 초만에 화면에 나타난 사람, 입고 있는 옷과 추정되는 실내 풍경을 설명하는 문장이 나타났다.

주위 풍경을 설명해달라고 요청하자 초당 90단어 이상을 출력했다. (사진=지디넷코리아)

이 멀티모달 AI는 인터넷 연결이나 클라우드 도움 없이 순식간에 초당 90토큰(단어) 이상을 쏟아냈다.

시연을 진행한 퀄컴 관계자는 "초당 70토큰이 나오는 AI 모델은 굉장히 빠른 것으로 평가되며 온디바이스로 구현했다는 데 의미가 있다"고 설명했다.

■ AI 모델·NPU 활용해 선명한 반려동물 사진 구현

스냅드래곤8 엘리트에는 영상 정보를 처리하는 스펙트라 AI ISP가 탑재된다. 최대 4천800만 화소 카메라 3대에서 들어오는 영상 정보를 동시에 처리함은 물론 헥사곤 NPU(신경망처리장치)가 모든 영상 처리 과정에 개입해 AI로 품질을 높인다.

쉴 새 없이 움직이는 반려동물을 선명하게 포착할 수 있는 시연 코너. (사진=지디넷코리아)

퀄컴은 이날 스냅드래곤8 엘리트 탑재 스마트폰 시제품과 아크소프트가 개발한 시연용 앱을 이용해 반려동물 사진을 보다 선명하게 찍을 수 있는 시연을 진행했다.

AI 모델과 NPU를 활용해 개가 뛰어오르는 순간을 선명하게 포착했다. (사진=지디넷코리아)

반려동물이 초당 30프레임으로 촬영한 사진 중 초점이 잘 맞은 사진을 골라내고 NPU(신경망처리장치)로 고해상도로 바꾸는 작업인 업스케일링 기능으로 보다 선명한 사진을 얻을 수 있다.

■ 윈도11 24H2 AI 기능, 스냅드래곤에 먼저 구현

마이크로소프트는 최근 온디바이스 AI 관련 기능을 대거 추가한 윈도11 24H2 업데이트를 공개했다. 해당 기능은 현재 스냅드래곤 X 엘리트/플러스에 가장 먼저 지원되며 인텔·AMD 등 x86 프로세서는 오는 11월 업데이트로 제공된다.

이번 업데이트는 개인정보 유출이나 사생활 침해 우려로 논란의 대상이 됐던 '리콜' 기능도 포함했다.

마이크로소프트 관계자는 ”리콜 기능이 수집한 정보 중 민감 정보는 삭제할 수 있다”고 설명했다. (사진=지디넷코리아)

스냅드래곤 X 엘리트를 탑재한 서피스 프로 11로 리콜 기능을 시연하던 마이크로소프트 관계자는 "리콜 기능으로 금융정보나 개인정보가 포착되면 이를 영구히 삭제할 수 있고 원치 않는다면 끄는 것도 가능하다"고 설명했다.

클릭투두 기능으로 긴 문서를 요약하는 기능 시연. (사진=지디넷코리아)

클릭투두 기능은 클릭한 웹사이트나 문서를 요약하고 번역하는 기능을 제공하지만 현재는 영어만 지원한다. 또 위키백과 등 일부 웹사이트 양식에 따라 기능이 제대로 작동하지 않는 모습도 보였다.

클릭투두 기능의 요약 기능은 현재 영어에서만 작동한다. (사진=지디넷코리아)

마이크로소프트 관계자는 "일부 기능에서 보이는 문제는 향후 최신 빌드로 개선될 것"이라고 설명했다.

■ "전자악기 지연시간 최소화 ASIO, 스냅드래곤서도 지원"

디지털 오디오 워크스테이션(DAW)은 디지털 음악 제작에 필요한 고성능 하드웨어와 소프트웨어를 내장한 시스템을 뜻한다. 1인 음악 창작자가 건반과 마우스, 가상악기 소프트웨어와 작곡 프로그램을 이용해 다양한 음악을 제작할 수 있다.

퀄컴은 ”마이크로소프트 ASIO 드라이버가 스냅드래곤에 최적화될 것”이라고 밝혔다. (사진=지디넷코리아)

그러나 PC와 연결된 악기의 전송 지연시간 문제로 건반을 누르는 시간과 실제 입력 시간에 차이가 생기는 경우가 잦았다. 이를 해결하려면 음악 관련 데이터를 고속으로 전송하는 ASIO(오디오 스트림 입출력) 드라이버가 필요했다.

퀄컴은 지난 21일 기조연설에서 "디지털 오디오 워크스테이션(DAW) 소프트웨어-하드웨어 구성에 필수적인 마이크로소프트 ASIO 드라이버와 소프트웨어가 스냅드래곤 X 엘리트에 최적화될 것"이라고 밝힌 바 있다.

큐베이스 관계자는 ”맥OS가 아닌 스냅드래곤 기반 윈도 PC에서도 악기 관련 지연시간이 최소화될 것”이라고 설명했다. (사진=지디넷코리아)

이날 해당 기능을 시연하던 DAW 소프트웨어 업체 '큐베이스' 관계자는 "그간 ASIO를 가장 잘 지원하는 소프트웨어와 드라이버는 맥OS 등 애플 제품에만 탑재됐지만 이제는 스냅드래곤 X 엘리트/플러스에서도 문제 없이 작동한다"고 밝혔다.

권봉석 기자(bskwon@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?