달파, 오픈AI 'MLE-벤치'서 글로벌 최고 수준 에이전트 성능 입증

AI 에이전트 전문기업 달파는 오픈AI가 제시한 AI 에이전트 성능 평가 지표인 'MLE-벤치'를 활용해 자체 기술력을 검증한 결과 글로벌 최고 수준인 종합 점수 79.11%를 기록했다고 7일 밝혔다.

MLE-벤치는 오픈AI가 공개한 기술 지표로, 세계 최대 AI 경진대회 플랫폼 캐글(Kaggle)의 실제 비즈니스 과제 75개를 AI 에이전트가 얼마나 자율적으로 해결하는지 측정한다. 데이터 전처리부터 모델 학습, 최적화까지 머신러닝 엔지니어링 전 과정을 스스로 완수해야 하는 고난도 벤치마크다.

달파의 '코브라 에이전트'가 기록한 79.11%의 점수는 기존 글로벌 리더보드에 공개되었던 구글 AI 연구팀의 'CAIR MARS+'(62.67%), 중국 바이두의 'FM-Agent'(64.44%) 등 글로벌 빅테크들의 기록을 크게 웃도는 수치다. 일부 과제에서는 AI가 인간 참가자 1위의 성과를 넘어서기도 했다.

달파는 이번 성과가 자사의 자체 에이전트 프레임워크인 '코브라'의 자율 탐색 및 자가 개선 역량을 객관적으로 증명한 결과라고 설명했다. 이 과정에서는 환경과 모델의 상호작용을 내부적으로 시뮬레이션하며 미래 결과를 예측하는 월드 모델 방법론이 활용됐다. 달파는 이번 기술적 성과와 구체적인 구현 방식을 담은 연구 논문을 조만간 발표할 예정이다.

달파는 기술력을 바탕으로 소비재(CPG) 브랜드를 위한 '에이전틱 OS' 고도화에 박차를 가하고 있다. 에이전틱 OS는 기업 내부의 파편화된 데이터를 통합하고, AI 에이전트가 신상품 기획부터 물류 최적화, 마케팅 실행까지 전 과정을 자율적으로 수행하는 시스템이다.

김도균 달파 대표는 “이번 검증 결과는 달파의 AI 에이전트가 글로벌 빅테크와 비교해도 손색없는 세계 최고 수준의 실무 성과를 낼 수 있음을 보여준다”며 “이를 실제 소비재 산업 현장의 업무 혁신으로 연결하는 데 집중하겠다”고 말했다.

정현정 기자 iam@etnews.com

전자신문

IT/과학

달파, 오픈AI 'MLE-벤치'서 글로벌 최고 수준 에이전트 성능 입증