네이버, AI 차세대 3대 기술 공개…'눈' 스마트렌즈로 검색
AI 인프라 운영·서비스 경험까지 결정 '하네스 엔지니어링'
2027년 검색 인프라와 데이터·서비스 자산 기반으로 고도화
스마트렌즈 중심 멀티모달 검색 기술 청사진 제시

네이버는 최근 D2SF 강남에서 미래 네이버 AI 검색을 이끌 3대 핵심 기술을 공개했다. 네이버는 '탐색에서 실행까지, 차세대 AI 기술이 만드는 네이버 AI 검색'을 주제로 진행된 AI 검색 테크 딥톡에서 △대화형 AI 검색 'AI탭' 최적화 모델 △AI를 안전하고 효율적으로 운영하는 하네스 엔지니어링(Harness Engineering) △AI의 시각적 이해를 확장하는 멀티모달 기술 등 차세대 AI 검색 구현에 필요한 핵심 기술을 공개했다.
AI탭 실제 서비스 환경서 강화 학습…대규모 서비스에서 속도·정확성 높여
이를 통해 '7월 12일 오후 12시에 20명 정도 노량진 쪽에서 해산물 먹을까 하는데 부모님 생일에 적합한 식당 없을까?'라고 물을 경우 '해량, 진주식당, 황제식당을 우선 후보로 볼 수 있어요. 특히 해량은 캐치테이블 예약과 생일모임 후기가 확인되고, 진주식당은 노량진수산시장 내 룸 있는 식당으로 언급되며, 황제식당은 단체예약·대형룸·개별룸 키워드가 확인되므로 예약 시 20명 동시 착석, 룸 배정, 케이크 반입, 주차를 함께 확인하는 편이 좋습니다'라는 답을 얻을 수 있다.
'갤럭시 S26이랑 아이폰 18 중 어떤 게 나한테 맞을까?', '원룸인데 에어컨을 하루 종일 켜는 게 껐다 켜는 것보다 전기요금이 덜 나올까?', '장마철에 빨래를 실내에서 말려야 하는데 제습기 없이 냄새 안 나게 하는 방법 알려줘', '국제유가 떨어지면 항공권도 싸져?' 등에 대한 질문에도 구체적인 답변을 받을 수 있다.
해당 모델은 서비스 효율성을 극대화하기 위해 데이터, 아키텍처, 트레이닝 3대 축을 중심으로 개발됐다.
네이버는 문서 품질 필터를 통해 학습 데이터의 품질을 높였으며, 복잡한 사용자 요청과 최적의 답변을 찾아내는 '서비스형 데이터 수집 파이프라인'을 구축해 검색·쇼핑·플레이스·생활정보 분야의 고품질 데이터를 사전 학습 단계부터 반영했다.
아키텍처 측면에선 대규모 서비스 환경에 최적화된 전문가 조합(Mixture of Experts, MoE) 구조를 도입해, 기존 HCX 대비 더 빠른 응답 속도와 높은 처리량을 확보했다. 특히 이번 모델은 사용자 경험과 직결되는 지표인 입력부터 최종 답변 완료까지 걸리는 총 소요시간(End to end Latency, E2E Latency)을 단축했다. 기존 모델은 입력 길이가 늘어날수록 연산량이 제곱으로 증가해 응답 시간이 가파르게 늘어나는 반면, 해당 모델은 연산량을 입력 길이에 비례하는 수준으로 개선해 긴 문맥에서도 안정적인 응답 속도와 높은 처리량을 유지할 수 있다.
트레이닝 단계에선 강화학습에 투입되는 컴퓨팅 자원이 기존 HCX 대비 2배 이상 확대됐다. 유저 시뮬레이터(User Simulator)와 네이버의 검색·예약 등 실제 서비스를 연계한 강화학습 환경을 구축해, 모델이 여러 도구를 활용해 사용자의 과업을 끝까지 수행하도록 학습시켰다. 답을 낼 수 없는 질문에 대해선 추가 조건을 되물었을 때, 보상을 부여해 모델 성능을 높이는 강화 학습 기술도 새롭게 적용했다
AI 에이전트 핵심 '하네스 엔지니어링'…속도 2배·비용 효율 3배 개선

'AI탭'을 안정적으로 구동하는 핵심 기술인 '하네스 엔지니어링'도 공개됐다. AI 검색이 에이전트로 확장될수록, 사용자가 검색을 통해 해결하려는 과업이 더욱 다양·복잡해지기 때문에 답변 품질뿐만 아니라 응답 속도, 비용 효율성, 안정성까지 함께 관리하는 게 중요하다.
AI탭에 적용된 하네스 엔지니어링은 AI가 부적절한 답변을 하지 않도록 제어하는 동시에, 필요한 정보를 스스로 찾고 적절한 도구를 활용해 사용자의 요청을 끝까지 수행하도록 설계됐다. 안전 필터, 사용자 의도 이해와 긴 대화 맥락 관리, 검색·쇼핑·플레이스 등 서비스 연계 추론, 출처 제공과 실행 연결의 4단계로 동작한다.
네이버는 대규모 서비스인 AI탭의 효율성을 높이기 위해 분업형 소규모 언어모델(Small Language Model, SLM) 구조를 구축했다. 하나의 거대 대규모 언어 모델(large language model, LLM)이 모든 작업을 처리하는 대신, 역할별로 특화된 SLM을 조합해 운영 비용을 줄이면서도 응답 속도와 품질을 동시에 높였다. 실제 AI탭에는 경량화된 특화 모델을 적용해 일부 컴포넌트의 장비 운영 비용을 기존 대비 최대 3배 절감하고, 응답 속도는 2배 이상 개선하는 성과를 냈다.
네이버 AI 검색 서비스 한승균 리더는 "서비스에서 잘 작동하는 AI 에이전트를 만들기 위해서는 LLM뿐만 아니라 비용 효율성과 안정성을 동시에 설계하는 하네스 엔지니어링이 필수"라며 "지난 27년 간 축적한 검색 인프라와 노하우, 블로그·카페 등 방대한 콘텐츠, 쇼핑·플레이스 등 다양한 서비스 자산을 AI 기술로 연결해 검색부터 실행까지 이어주는 경험은 누구도 쉽게 따라올 수 없는 네이버만의 경쟁력"이라고 말했다.
AI 에이전트의 '눈' 멀티모달…전면 배치된 스마트렌즈로 AI검색 시각으로 확장

네이버는 검색창 전면에 배치된 스마트렌즈를 중심으로 한 멀티모달 기술 고도화 전략을 공개했다. 멀티모달은 이미지를 AI가 이해할 수 있는 표현(임베딩)으로 변환해 텍스트뿐만 아니라 이미지와 영상 등 다양한 형태의 정보를 함께 이해하고 활용할 수 있도록 하는 기술이다.
예를 들어 모바일 검색창에서 '스마트렌즈' 탭을 선택해 영양제 사진을 첨부할 경우 네이버 AI 브리핑을 통해 해당 영양제 이름, 주요 성분과 효능, 하루 1회 섭취 권장 등을 확인할 수 있다.
이어 'AI로 더 알아보기'를 통해 AI탭으로 이동한 뒤 하루 1회 먹을 때 구체적으로 언제 먹으면 좋은지에 대해 물으면 아연과 비타민 D가 들어 있어 공복보다 식후에 먹으면 위장 부담을 줄이고 흡수에도 도움이 된다고 설명하며 후 섭취를 추천한다. 더 나아가 성분별 최적 섭취 시간과 그 이유까지 함께 안내받을 수 있다. 네이버는 상품 검색을 넘어 다양한 영역에서 실행형 멀티모달 검색 경험을 제공할 수 있도록 관련 기술을 고도화할 계획이다.
하나의 이미지와 실제 대화 패턴을 함께 학습해 문맥까지 이해하는 멀티모달 임베딩 기술인 MuCo(Multi-turn Contrastive Learning)도 소개됐다. MuCo 기술은 동일 이미지는 반복 처리하지 않아 효율성을 높이고, 이미지와 텍스트 간 의미 관계를 정교하게 연결할 수 있는 게 특징이다.
네이버 Future AI Center 윤상두 리더는 "네이버가 10년 가까이 스마트렌즈를 통해 축적한 시각 검색 기술은 AI 에이전트가 세상을 바라보는 '눈'을 만드는 핵심 기술"이라며 "향후 네이버의 AI에이전트 서비스는 텍스트뿐만 아니라 이미지를 통해서도 사용자의 의도를 이해하고 실제 행동까지 연결하는 방향으로 진화할 것"이라고 말했다.
- 이메일 :jebo@cbs.co.kr
- 카카오톡 :@노컷뉴스
- 사이트 :https://url.kr/b71afn
CBS노컷뉴스 박요진 기자 truth@cbs.co.kr
진실은 노컷, 거짓은 칼컷
Copyright © 노컷뉴스. 무단전재 및 재배포 금지.
- "터뜨려 줄게" 김세의, 김수현 '하체노출 유포·1800억 협박' 전말
- 리센느에 빠진 러닝 기자…거제 7.8㎞ 달리기 '7월 8일 컴백 기념'[페이스메이커]
- 지하철서 피 토한 20대 中여성…"시한부 인생"에 봉사활동
- "상어가 나타났다" 강릉 경포·안목해변서 신고 잇따라…"안전 주의" 당부(종합)
- 2억으로 23억 만드는 주식투자법이 있다면?[계좌부활전]
- 푸틴 "도네츠크 요충지 점령"…젤렌스키 "현실은 푸틴 말과 달라"
- 美민주당, 중간선거 끝나면 트럼프 재산 증식 집중 공세
- "5년 뒤 치매 판도 바뀝니다" 150개 치료제 후보 물질이 불러올 '치매 해방'의 서막[건강비책]
- "소송할 돈이 없다는데 먼저 돈부터 내라"…소송구조의 모순
- 최민식 광기와 '살리에리'…'맨 끝줄 소년'이 그린 열등감의 비극[왓더OTT]