카카오, LLM 오케스트레이션 평가 벤치마크 ICLR 2026 채택

에이전틱 AI 성능 측정 지표 개발
오픈소스로 깃허브에 공개

[이데일리 이소현 기자] 카카오(035720)가 자체 개발한 대형언어모델(LLM) 오케스트레이션 평가 벤치마크가 세계 최고 수준의 인공지능 학술대회에서 연구 성과로 인정받았다.

카카오는 LLM의 오케스트레이션 능력을 평가하는 자체 벤치마크가 국제표현학습학회(ICLR 2026)에 논문으로 채택됐다고 3일 밝혔다.

ICLR은 신경망과 표현학습 분야에서 세계 3대 AI 학회로 꼽히는 학술대회로, 글로벌 빅테크와 주요 연구기관들이 최신 연구 성과를 발표하는 무대다. 카카오에 따르면 ICLR 2026에는 약 1만9000여편의 논문이 제출됐으며, 이 중 상위 28%만이 채택됐다.

이번 연구는 LLM이 단순 질의응답을 넘어 다양한 작업을 계획·조율·실행하는 ‘에이전틱 AI(Agentic AI)’로 고도화되는 흐름에 착안해 개발됐다. 카카오는 실제 서비스 환경에서 요구되는 멀티스텝, 멀티도메인 처리 역량을 정밀하게 평가할 수 있는 오케스트레이션 중심 벤치마크를 제안했다.

기존 LLM 성능 평가는 단편적인 정확도나 추론 능력 측정에 머물러 복잡한 사용자 요청을 해석하고 여러 도구를 연계·관리하는 능력을 평가하는 데 한계가 있었다. 이에 카카오는 AI 모델의 작업 계획과 도구 실행을 분리해 평가하는 새로운 프레임워크를 설계했다.

해당 벤치마크는 여행·쇼핑·금융·일정 등 17개 서비스 도메인과 100여 개의 가상 도구를 기반으로 구성됐으며, 사용자 요청 변경이나 추가 질문이 이어지는 실제 대화 흐름을 반영해 실용성을 높였다. 평가 데이터는 AI 어노테이터의 수작업 검증을 거쳐 구축됐으며, 한국어와 영어를 모두 지원한다. 특히 한국어의 경우 문화적 맥락과 표현 특성을 반영해 평가 신뢰도를 강화했다.

카카오는 연구 성과의 확산과 AI 연구 생태계 활성화를 위해 해당 벤치마크와 논문을 깃허브에 오픈소스로 공개했다.

카카오 관계자는 “에이전틱 AI가 실제 서비스 환경에서 안정적으로 작동하는지를 평가할 수 있는 핵심 지표를 제시한 연구”라며 “앞으로도 에이전트 간 협업과 오케스트레이션 역량 강화를 위한 연구를 지속하며, 카카오의 AI 기술 고도화를 이어갈 계획”이라고 말했다.

이소현 (atoz@edaily.co.kr)

IT/과학

카카오, LLM 오케스트레이션 평가 벤치마크 ICLR 2026 채택