달파, 오픈AI 'MLE-벤치'서 글로벌 최고 수준 에이전트 성능 입증

AI 에이전트 전문기업 달파는 오픈AI가 제시한 AI 에이전트 성능 평가 지표인 'MLE-벤치'를 활용해 자체 기술력을 검증한 결과 글로벌 최고 수준인 종합 점수 79.11%를 기록했다고 7일 밝혔다.
MLE-벤치는 오픈AI가 공개한 기술 지표로, 세계 최대 AI 경진대회 플랫폼 캐글(Kaggle)의 실제 비즈니스 과제 75개를 AI 에이전트가 얼마나 자율적으로 해결하는지 측정한다. 데이터 전처리부터 모델 학습, 최적화까지 머신러닝 엔지니어링 전 과정을 스스로 완수해야 하는 고난도 벤치마크다.
달파의 '코브라 에이전트'가 기록한 79.11%의 점수는 기존 글로벌 리더보드에 공개되었던 구글 AI 연구팀의 'CAIR MARS+'(62.67%), 중국 바이두의 'FM-Agent'(64.44%) 등 글로벌 빅테크들의 기록을 크게 웃도는 수치다. 일부 과제에서는 AI가 인간 참가자 1위의 성과를 넘어서기도 했다.
달파는 이번 성과가 자사의 자체 에이전트 프레임워크인 '코브라'의 자율 탐색 및 자가 개선 역량을 객관적으로 증명한 결과라고 설명했다. 이 과정에서는 환경과 모델의 상호작용을 내부적으로 시뮬레이션하며 미래 결과를 예측하는 월드 모델 방법론이 활용됐다. 달파는 이번 기술적 성과와 구체적인 구현 방식을 담은 연구 논문을 조만간 발표할 예정이다.
달파는 기술력을 바탕으로 소비재(CPG) 브랜드를 위한 '에이전틱 OS' 고도화에 박차를 가하고 있다. 에이전틱 OS는 기업 내부의 파편화된 데이터를 통합하고, AI 에이전트가 신상품 기획부터 물류 최적화, 마케팅 실행까지 전 과정을 자율적으로 수행하는 시스템이다.
김도균 달파 대표는 “이번 검증 결과는 달파의 AI 에이전트가 글로벌 빅테크와 비교해도 손색없는 세계 최고 수준의 실무 성과를 낼 수 있음을 보여준다”며 “이를 실제 소비재 산업 현장의 업무 혁신으로 연결하는 데 집중하겠다”고 말했다.
정현정 기자 iam@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- 코스피, 첫 7500선 찍고 하락 전환…외국인 하루 만에 '팔자' 돌아서
- 현대모비스, 범용 전기차 '심장' 독자 개발...상반기 내 소형까지 완성 예정
- 트럼프 “이란 핵무기 포기 동의”…'일주일내 핵협상 타결' 시사
- [르포] “티코의 추억에서 수출 1위 전진기지로”…첨단 로봇과 질주하는 한국GM 창원공장
- 국힘 지도부 靑 앞 집결…“셀프면죄 특검, 독재로 가는 톨게이트”
- 디카페인은 기억력, 카페인은 집중력…커피 효과 달랐다
- 삼성 “'갤럭시 워치'로 미주신경성 실신 조기 예측 가능성 확인”
- “학교폭력엔 '매'가 답”… 싱가포르, 9세부터 교사가 '회초리' 든다
- “자전거 타며 스마트폰 봤다가 벌금 11만원”…日, 단속 보름 만에 842건 적발
- “감히 챗봇이 의사 행세를”… 美 펜실베이니아주, AI 챗봇 업체 고소