[Tech & Now] 달파, 오픈AI 'MLE-벤치'서 종합 점수 79.11% 기록

구글·바이두 등 글로벌 빅테크 성과 상회
소비재 특화 '에이전틱 OS' 고도화 주력

달파는 오픈AI의 AI 에이전트 성능 평가 지표인 'MLE-벤치(MLE-bench)'에서 종합 점수 79.11%를 기록하며 글로벌 최고 수준의 기술력을 입증했다고 7일 밝혔다.

MLE-벤치는 세계 최대 AI 경진대회 플랫폼 '캐글(Kaggle)'의 실제 비즈니스 과제 75개를 AI 에이전트가 자율적으로 해결하는 능력을 측정하는 지표다. 데이터 전처리부터 모델 학습 및 최적화까지 머신러닝 엔지니어링 전 과정을 AI 스스로 완수해야 하는 고난도 벤치마크다.

달파의 고유 프레임워크인 '코브라 에이전트(Cobra Agent)'가 기록한 79.11%는 기존 글로벌 리더보드에 공개됐던 구글 AI 연구팀의 'CAIR MARS+'(62.67%)와 중국 바이두의 'FM-Agent'(64.44%) 등 글로벌 빅테크의 성과를 크게 상회하는 수치다.

달파 측은 일부 과제에서 AI가 인간 참가자 1위의 성과를 넘어서는 압도적인 실무 해결 능력을 보였다고 설명했다.

이번 성과에는 환경과 모델의 상호작용을 내부적으로 시뮬레이션해 미래 결과를 예측하는 '월드 모델(World Model)' 방법론이 활용됐다. 달파는 이를 통해 자사 프레임워크 '코브라(Cobra)'의 자율 탐색 및 자가 개선 역량을 객관적으로 증명했으며, 조만간 해당 기술적 성과와 구체적인 구현 방식을 담은 연구 논문을 공식 발표할 예정이다.

또 달파는 이러한 기술력을 바탕으로 소비재(CPG) 브랜드를 위한 '에이전틱 OS' 고도화에 주력하고 있다. 해당 시스템은 기업 내부의 파편화된 데이터를 통합하고, 신상품 기획부터 물류 최적화, 마케팅 실행까지 전 과정을 AI 에이전트가 자율적으로 수행하도록 지원한다.

김도균 달파 대표는 "이번 검증 결과는 달파의 AI 에이전트가 글로벌 빅테크와 비교해도 손색없는, 세계 최고 수준의 실무 성과를 낼 수 있음을 보여준다"며 "이를 실제 소비재 산업 현장의 업무 혁신으로 연결하는 데 집중할 것"이라고 말했다.

EBN산업경제

경제

[Tech & Now] 달파, 오픈AI 'MLE-벤치'서 종합 점수 79.11% 기록