[팽동현의 테크픽] AI에이전트 성능 좌우…‘하네스 엔지니어링’ 부상

모델 둘러싼 환경 설계가 핵심 경쟁력으로
MS 엠대시, 벤치마크서 미토스 점수 추월

인공지능(AI) 모델 성능이 상향평준화하면서 모델의 작업을 뒷받침하는 도구나 환경의 중요성이 커지고 있다. 기존 프롬프트 엔지니어링을 넘어 ‘하네스 엔지니어링’이 에이전틱AI 시대의 화두로 자리잡고 있다.

반려견 용품으로 이름이 더 익숙한 하네스는 본래 말의 방향 등을 제어하기 위한 마구(馬具)를 뜻한다. 동명의 미국 소프트웨어(SW)기업이 지난 13일(현지시간) 공개한 보고서에 따르면, AI 코딩 도구를 도입한 뒤 엔지니어링 리더의 89%가 개발자 생산성이 개선됐다고 답했지만, 81%는 코드 리뷰 시간이 늘었다고 응답했다. AI가 코드를 쓸수록 검증할 일도 늘어나는 역설로, 개발자 하루의 약 31%가 이런 ‘보이지 않는 작업’에 쓰이고 있다고도 제시됐다.

하네스 엔지니어링은 이런 문제를 풀 수 있는 방안으로 떠오르고 있다. AI 모델이 말이라면 이를 둘러싼 도구, 시스템 프롬프트, 메모리, 샌드박스, 권한제어, 옵저버빌리티, 피드백 루프 등을 통틀어 하네스라 부른다. 작업이 복잡하거나 길어질수록 엇나가기 일쑤인 AI에이전트를 제어·검증하기 위한 환경 설계다. 랭체인은 이를 ‘에이전트=모델+하네스’라고 정의하며, 모델을 제외한 코드·설정·실행 로직 전체를 하네스에 포함시킨다.

하네스 엔지니어링이 등장하기 전부터 있던 기업 하네스의 위 보고서는 일종의 우연에 가깝다. 이 용어가 처음 본격적으로 거론된 것은 미첼 하시모토 하시코프 공동창업자가 “에이전트가 실수를 저지르는 것을 발견할 때마다 그 에이전트가 다시는 같은 실수를 하지 않도록 해결책을 마련하는 데 시간을 투자해야한다”며 지난 2월 올린 글로 추정된다.

약 일주일 뒤 오픈AI가 공식 엔지니어링 블로그에 하네스 엔지니어링을 제목으로 삼아 코덱스 활용 관련 글을 게재하면서 표준용어처럼 굳어졌다. 오픈AI는 이 글에서 엔지니어 3명으로 출발한 팀이 5개월간 코덱스 에이전트로 약 100만줄·1500풀리퀘스트(PR) 규모의 내부 베타 프로덕트를 만들었다며 “인간은 조향(steer)하고, 에이전트는 실행(execute)한다”는 새 명제를 내걸기도 했다.

프롬프트 엔지니어링이 AI에게 어떻게 지시할 것인가를, 이후 컨텍스트 엔지니어링이 AI가 어떤 정보를 보게 할 것인가를 주제로 삼았다면, 하네스 엔지니어링은 AI가 어떤 환경·도구·검증·권한 안에서 일하게 할 것인가를 다룬다고 풀이된다. 실제로 랭체인은 AI모델을 그대로 둔 채 하네스만 재설계해 자사 코딩 에이전트의 터미널벤치 2.0 점수를 52.8%에서 66.5%로 13.7%포인트(p) 끌어올렸다고 발표한 바 있다.

지난달부터는 주요 기업들이 하네스 관련 행보를 본격화했다. 지난달 앤스로픽은 ‘클로드 매니지드 에이전트’를 토큰 이용료와 별도로 세션 런타임 시간당 0.08달러로 내놨고, 오픈AI는 에이전트 SW개발키트(SDK)에 모델 네이티브 하네스와 네이티브 샌드박스 실행 기능을 추가했다. 또 아마존웹서비스(AWS)는 ‘아마존 베드록 에이전트코어’에 ‘매니지드 에이전트 하네스’를 퍼블릭 프리뷰로 추가하며 하이퍼스케일러 중 처음으로 상품화했다.

나아가 마이크로소프트(MS)는 취약점 발굴부터 검증·증명 및 대응까지 단계형 파이프라인을 갖춘 에이전틱 보안 분석 시스템인 ‘멀티모델 에이전틱 스캐닝 하네스’(MDASH·엠대시)를 지난 12일 일부 고객 한정 프리뷰로 선보였다. 다수 모델과 100개 이상의 전문 AI에이전트를 결합해 취약점 발견부터 검증·토론, 악용 가능성 증명까지 전 과정을 엔드투엔드로 수행하도록 설계됐다.

MS에 따르면 엠대시는 공개 사이버짐(CyberGym) 벤치마크에서 취약점 재현 과제 1507개 중 88.45%의 성공률로 리더보드 최고 점수를 기록했다. 이는 오픈AI의 최신 GPT-5.5(81.8%)뿐 아니라, 보안취약점 탐색능력으로 정부·금융부문과 사이버보안업계를 비롯해 전 세계를 긴장시킨 앤스로픽 ‘클로드 미토스 프리뷰’(83.1%)보다도 5%p 이상 높은 수치다. MS는 이 시스템을 활용해 윈도우 네트워킹 및 인증 스택 전반에서 16개의 신규 취약점을 식별했다고도 밝혔다.

다만, 하네스 엔지니어링에 대한 과장을 경계하는 목소리도 있다. 앞서 취리히공대(ETH) 연구진이 AGENTS.md 같은 저장소 단위 콘텍스트 파일이 실제 코딩 에이전트 성능을 높이는지 검증한 결과, 대형언어모델(LLM)이 자동 생성한 컨텍스트 파일은 성공률을 평균 3% 낮추면서 추론비용도 20% 이상 늘렸다. 마구를 채우는 것 자체가 답이 아니라 정교한 설계가 필수인 셈이다.

이제 AI 성능에선 모델뿐 아니라 하네스도 핵심으로 다뤄지는 분위기다. AI 분야에 새로운 승부처가 마련된 셈이다. MS는 이번 엠대시 관련해 “모델은 하나의 인풋이고, 시스템이 프로덕트”라고도 강조했다. 결국 하네스 엔지니어링의 핵심은 모델이 실제 조직의 코드·데이터·권한·검증 체계 안에서 안전하고 지속적으로 일하도록 만드는 데 있다.

팽동현 기자 dhp@dt.co.kr

디지털타임스

IT/과학

[팽동현의 테크픽] AI에이전트 성능 좌우…‘하네스 엔지니어링’ 부상