카카오, AI 펑션콜 성능 평가 툴 업데이트…깃허브에 오픈소스 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
카카오가 인공지능(AI) 모델의 펑션콜(Function Calling·함수호출)을 평가하는 데이터셋을 업그레이드했다.
카카오는 지난해 9월 공개한 AI 언어모델의 함수호출 성능 평가 데이터셋 '펑션챗 벤치(FunctionChat-Bench)'의 업데이트 버전을 깃허브에 오픈소스로 30일 공개했다.
카카오는 언어 모델 자체의 고도화 뿐 아니라 AI 에이전트 구현에 필수적인 펑션콜 성능을 정밀히 측정할 수 있는 신뢰도 높은 평가 도구 개발에도 집중할 계획이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

카카오가 인공지능(AI) 모델의 펑션콜(Function Calling·함수호출)을 평가하는 데이터셋을 업그레이드했다.
카카오는 지난해 9월 공개한 AI 언어모델의 함수호출 성능 평가 데이터셋 '펑션챗 벤치(FunctionChat-Bench)'의 업데이트 버전을 깃허브에 오픈소스로 30일 공개했다.
함수호출은 AI 언어모델이 자체적으로 수행할 수 없는 동작을 지시하거나 사전에 학습하지 않은 실시간 정보를 받도록 언어모델과 응용프로그래밍인터페이스(API) 등 외부 도구를 연결하는 기술을 뜻한다. 언어모델을 기반으로 하는 서비스 구현에 있어 필수 기술로 꼽힌다. 언어모델이 가진 한계를 해결해 새 기능으로 확장할 수 있다.
카카오는 지난해 펑션콜 기술의 고도화와 생태계 기여를 위해 국내 정보기술(IT) 기업 최초로 한국어 대화 환경에서 성능을 다면적으로 평가할 수 있는 펑션챗 벤치를 구축하고 이를 오픈소스로 공개했다. 업데이트한 2.0 버전은 보다 정밀한 측정을 위해 최신 버전의 평가용 거대언어모델(LLM)로 교체했다. 데이터 및 루브릭(평가 기준) 보완, 새 평가 데이터 문항 추가 등을 반영했다.
카카오는 펑션챗 벤치의 자동 평가 방식을 최신 기술 동향에 맞춰 업그레이드했다. 기존 버전에서 평가자 모델로 사용한 'GPT-4-0125-preview' 모델에서 'GPT-4.1-2025-04-14'로 변경 적용해 평가의 정밀도를 한층 높였다. 이와 함께 평가 데이터 및 루브릭을 보다 정교하게 보완하는 작업으로 사람이 수행한 정성 평가 결과와 오차를 최소화하며 높은 평가 일치율을 달성했다.
기존 버전의 평가 데이터셋에 새로운 평가 데이터셋인 '콜 디시전(Call Decision)'을 추가하기도 했다. 이를 통해 펑션콜이 필요한 대화 상황에서 '사용할 수 없는 도구와 관련된 요청을 올바르게 거절하는 능력'과 '누락된 정보를 파악해 사용자에게 질문하는 능력'을 중점적으로 평가할 수 있게 됐다. 이 밖에도 대량의 요청을 한 번에 묶어 효율적으로 처리하는 오픈AI의 'Batch' 방식을 도입해 평가 속도를 대폭 높였다. 평가 결과 방식에서의 사용 편의성도 개선했다.
카카오는 언어 모델 자체의 고도화 뿐 아니라 AI 에이전트 구현에 필수적인 펑션콜 성능을 정밀히 측정할 수 있는 신뢰도 높은 평가 도구 개발에도 집중할 계획이다.
카카오 관계자는 “이번 데이터셋은 현재 자체 개발 AI 모델의 성능 평가에도 활용되고 있다”면서 “국내 AI 기술 생태계의 다면적인 발전을 위해 AI 모델과 평가 데이터셋을 고도화하겠다”고 밝혔다.
변상근 기자 sgbyun@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- 2주내 의약품 관세 발표…美상무 "15%보다 높다"
- 벤협·코스닥·VC협회, “30조 벤처펀드 조성 제안”
- 정의선 현대차 회장도 미국 합류 …관세협상 지원
- 국정기획위, 李대통령 공약 'K-콘텐츠 육성' 점검…CJ “전략산업 지정을”
- 과기정통부, 피지컬 AI 간담회 개최…“특화 데이터·인프라 구축 시급”
- LG전자, '웹OS 가상 테스트 랩' 운영…개발 진입장벽 낮췄다
- 한류 붐 탄 'K리커머스'…“조세 제도 손질, 수출 지원 시스템 만들어야”
- 트럼프 “관세로 번 수입, 국민들에 환급”... “1인당 83만원” 법안 발의
- 유인촌 문체부 장관 임기 마무리…“영광스러운 시간”
- 표준연, 지자체와 힘 합쳐 기업 QX 견인...사업 1년 만에 성과 창출