카카오, AI 펑션콜 성능 평가 툴 업데이트…깃허브에 오픈소스 공개

변상근 2025. 7. 30. 16:25
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

카카오가 인공지능(AI) 모델의 펑션콜(Function Calling·함수호출)을 평가하는 데이터셋을 업그레이드했다.

카카오는 지난해 9월 공개한 AI 언어모델의 함수호출 성능 평가 데이터셋 '펑션챗 벤치(FunctionChat-Bench)'의 업데이트 버전을 깃허브에 오픈소스로 30일 공개했다.

카카오는 언어 모델 자체의 고도화 뿐 아니라 AI 에이전트 구현에 필수적인 펑션콜 성능을 정밀히 측정할 수 있는 신뢰도 높은 평가 도구 개발에도 집중할 계획이다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

카카오 '펑션챗 벤치(FunctionChat-Bench)' 업데이트 버전 〈자료 카카오〉

카카오가 인공지능(AI) 모델의 펑션콜(Function Calling·함수호출)을 평가하는 데이터셋을 업그레이드했다.

카카오는 지난해 9월 공개한 AI 언어모델의 함수호출 성능 평가 데이터셋 '펑션챗 벤치(FunctionChat-Bench)'의 업데이트 버전을 깃허브에 오픈소스로 30일 공개했다.

함수호출은 AI 언어모델이 자체적으로 수행할 수 없는 동작을 지시하거나 사전에 학습하지 않은 실시간 정보를 받도록 언어모델과 응용프로그래밍인터페이스(API) 등 외부 도구를 연결하는 기술을 뜻한다. 언어모델을 기반으로 하는 서비스 구현에 있어 필수 기술로 꼽힌다. 언어모델이 가진 한계를 해결해 새 기능으로 확장할 수 있다.

카카오는 지난해 펑션콜 기술의 고도화와 생태계 기여를 위해 국내 정보기술(IT) 기업 최초로 한국어 대화 환경에서 성능을 다면적으로 평가할 수 있는 펑션챗 벤치를 구축하고 이를 오픈소스로 공개했다. 업데이트한 2.0 버전은 보다 정밀한 측정을 위해 최신 버전의 평가용 거대언어모델(LLM)로 교체했다. 데이터 및 루브릭(평가 기준) 보완, 새 평가 데이터 문항 추가 등을 반영했다.

카카오는 펑션챗 벤치의 자동 평가 방식을 최신 기술 동향에 맞춰 업그레이드했다. 기존 버전에서 평가자 모델로 사용한 'GPT-4-0125-preview' 모델에서 'GPT-4.1-2025-04-14'로 변경 적용해 평가의 정밀도를 한층 높였다. 이와 함께 평가 데이터 및 루브릭을 보다 정교하게 보완하는 작업으로 사람이 수행한 정성 평가 결과와 오차를 최소화하며 높은 평가 일치율을 달성했다.

기존 버전의 평가 데이터셋에 새로운 평가 데이터셋인 '콜 디시전(Call Decision)'을 추가하기도 했다. 이를 통해 펑션콜이 필요한 대화 상황에서 '사용할 수 없는 도구와 관련된 요청을 올바르게 거절하는 능력'과 '누락된 정보를 파악해 사용자에게 질문하는 능력'을 중점적으로 평가할 수 있게 됐다. 이 밖에도 대량의 요청을 한 번에 묶어 효율적으로 처리하는 오픈AI의 'Batch' 방식을 도입해 평가 속도를 대폭 높였다. 평가 결과 방식에서의 사용 편의성도 개선했다.

카카오는 언어 모델 자체의 고도화 뿐 아니라 AI 에이전트 구현에 필수적인 펑션콜 성능을 정밀히 측정할 수 있는 신뢰도 높은 평가 도구 개발에도 집중할 계획이다.

카카오 관계자는 “이번 데이터셋은 현재 자체 개발 AI 모델의 성능 평가에도 활용되고 있다”면서 “국내 AI 기술 생태계의 다면적인 발전을 위해 AI 모델과 평가 데이터셋을 고도화하겠다”고 밝혔다.

변상근 기자 sgbyun@etnews.com

Copyright © 전자신문. 무단전재 및 재배포 금지.