정확·신속 답변 필요한 AI 검색…성능·효율 다 잡은 네이버 ‘AI탭’

네이버, 2일 테크 딥톡 세션 개최
지난달 오픈한 AI탭에 적용한 핵심 기술 공유
프로덕트 네이티브 LLM·하네스 엔지니어링 등 적용
글로벌 SOTA급 답변 제공…서비스 비용도 낮아

이기창 네이버클라우드 이사가 지난 2일 네이버 D2SF 강남에서 열린 테크 딥톡 세션에서 발표하고 있다. 네이버 제공

인공지능(AI) 검색이 당연해진 요즘, AI는 복잡한 요구사항에도 정확한 답변을 빠르게 처리해야 한다. 아무리 좋은 답변이라도 응답 시간이 길어지면 사용자 경험(UX)이 나빠지기 때문이다. 이 같은 AI 경험을 제시하려면 기술력을 총동원해야 해 ‘효율’을 놓칠 수 있다.

네이버는 지난 2일 서울 네이버 D2SF 강남에서 ‘네이버 AI 검색’을 주제로 테크 딥톡 세션을 열고 △프로덕트 네이티브 대형언어모델(LLM) △하네스 엔지니어링(Harness Engineering) △멀티모달 기술 등 핵심 기술을 통해 ‘AI탭’이 성능과 효율을 모두 잡았다고 밝혔다.

지난달 선보인 AI탭은 10초 안에 글로벌 최고 성능(SOTA) 수준의 답변을 제공하는 한편, 운영 효율을 크게 높였다는 것이다.

이기창 네이버클라우드 이사는 “서비스 역량에서는 확실한 우위를 점하고, 기본 역량은 경쟁사를 넘어서는 수준을 유지하고, 전문 역량은 글로벌 프론티어 최고 수준과의 격차를 최소화하는 걸 목표로 하고 있다”며 “저희가 만들고자 하는 것은 사용자가 검색하고 구매하고 실제 서비스에 쓴다는 가장 성능이 좋은 프로덕트 네이티브 AI 모델을 만들기 위한 맥락”이라고 강조했다.

AI탭은 간단한 질문에도 각종 요인을 고려해 답변을 제공한다. 가령 “아디다스 농구화를 추천해줘”라는 물음에 가격·성별·선호도 등을 종합 고려해 다양한 제품을 추천하며 네이버 계정 정보를 통해 사용자의 연령대가 선호하는 제품도 추천해준다. 또한 AI탭 내에서 곧바로 ‘상품 결제’까지 가능하다.

이 같은 답변을 위해 네이버는 AI탭에 기존 하이퍼클로바X(HCX) 기반의 경량 모델에 네이버의 데이터·서비스 시나리오·사용자 피드백을 반영한 프로덕트 네이티브 LLM를 적용했다.

이 모델은 대규모 서비스 환경에 최적화된 전문가혼합(MoE) 구조로 HCX 대비 응답 속도와 처리량을 끌어올렸다. 기존 트랜스포머 구조 모델은 입력 길이가 늘어날수록 응답 시간이 가파르게 늘어나지만, 해당 모델은 선형적인 비례 수준이라 긴 문맥에도 안정적이라는 설명이다.

또한 학습 단계에서 투입된 컴퓨팅 자원은 HCX 대비 2배 증가했으며 사람처럼 행동하는 ‘유저 시뮬레이터’로 구축된 강화학습 환경을 통해 실제 서비스와 연계하는 데 성공했다.

사용자의 의도를 명확하게 확인하는 명료성 강화학습(Clarify RL)을 적용, 모호한 질문에 되묻는 ‘보상 학습 구조’를 통해 할루시네이션(환각) 현상도 크게 줄었다. Artificial Analysis의 AA-Omniscience 벤치 마크 기준 해당 모델의 환각 현상은 HCX 대비 30%포인트 감소한 것으로 나타났다.

아울러 네이버는 대규모 서비스인 AI탭의 효율성을 높이기 위해 하네스 엔지니어링 기술을 적용, 분업형 소형언어모델(SLM) 구조를 구축했다. 하나의 LLM이 모든 작업을 처리하는 대신, 역할별로 특화된 SLM을 조합해 운영 비용을 줄이면서도 응답 속도와 품질을 높인 것이다. 네이버는 일부 컴포넌트의 장비 운영 비용은 기존 대비 최대 3배 절감됐고, 응답 속도는 2배 이상 개선되는 성과를 거뒀다.

김영욱 기자 wook95@dt.co.kr

디지털타임스

IT/과학

정확·신속 답변 필요한 AI 검색…성능·효율 다 잡은 네이버 ‘AI탭’