코덱스·클로드코드 섞어 쓰지 마세요...“에이전트 팀웍 능력 아직 인간 못 따라가”[김창영의 실리콘밸리Look]

스탠퍼드 연구팀, 에이전트 협업 능력 측정
두 에이전트 의견 충돌 가정한 코딩 실험
코드 충돌 경고했지만 상대 에이전트 무시
“협업 능력 위해선 새 사회적 지능 필요”
서비스나우 등 에이전트 통합·조율 강조

평범한 문장으로 컴퓨터에 명령을 내리는 ‘바이브 코딩’ 기술이 발달하면서 개발자뿐만 아니라 일반인까지 코딩 에이전트(비서)를 즐겨 쓰고 있다. 오픈AI 발표에 따르면 코딩 도구인 코덱스 주간 활성 사용자 수가 500만 명을 넘어서며 2월 앱 출시 이후 6배 이상 증가했다. 개발자가 주요 사용자이지만 지식노동자가 전체 사용자의 약 20%를 차지하고 있고, 증가 속도는 개발자와 비교해 3배 이상 빠르다.

코덱스, 앤스로픽 클로드 코드가 인기를 끌면서 다양한 코딩 에이전트를 조합해 쓰는 ‘멀티 에이전트’ 이용자들도 늘고 있다. 여러 에이전트를 쓰면 각각의 장점을 결합해 2배 이상의 결과물을 낼 수 있다는 생각에서다.

하지만 미국 스탠퍼드대 연구에서 두 코딩 에이전트가 협업할 경우 따로 코드를 짤 때보다 업무 능력이 떨어지는 것으로 조사됐다. 인간 사회에서는 ‘백지장도 맞들면 낫다’는 말처럼 협업이 업무 효율을 높이는 최고의 방법이지만 AI 세계에서는 오히려 병목을 일으킨다는 것이다. AI가 학습하고 스스로 추론하는 능력은 인간 지능에 근접했을지 몰라도 협업 능력은 아직 갈 길이 멀다는 평가가 나온다.

스탠퍼드대 인간 중심 인공지능 연구소(HAI)는 지난 1일(현지 시간) ‘AI 코딩 에이전트, 팀워크에 실패(AI Coding Agents Fail at Teamwork)’라는 제목의 연구 내용을 공개했다. HAI는 “두 모델이 협력해 작업할 때보다 단독으로 작업할 때 성능이 떨어지는 것으로 나타났다”며 “AI 능력에서 중대한 격차를 드러냈다”고 설명했다. 연구 내용은 지난 4월 ICLR 워크숍에서 주 연구원이 제1저자로 참여한 논문으로도 발표됐다.

자료에서는 스탠퍼드대의 양 디이 컴퓨터 과학 조교수와 하오 주 박사후 연구원이 쿠퍼벤치(CooperBench)를 토대로 연구한 결과가 소개됐다. 쿠퍼벤치는 에이전트 팀을 평가하고 에이전트가 팀원으로서 얼마나 잘 작동하는지 측정하는 최초의 벤치마크로 스탠퍼드대와 SAP 랩스가 함께 개발했다. 쿠퍼벤치는 에이전트 능력을 측정할 때 특정 작업 수행 능력뿐만 아니라 공통점을 찾고 합의를 도출하는 사회적 지능도 필요하다는 판단에서 도입됐다. 에이전트가 복잡한 협업 과제에서 능력을 발휘하려면 업무를 조정할 수 있는 능력이 중요하기 때문이다.

연구팀은 파이썬·타입스크립트·고·러스트 등 4개 프로그래밍 언어 중 하나를 사용해 두 에이전트가 협업하도록 650개 이상의 소프트웨어 엔지니어링 작업을 설계했다. 작업들은 에이전트끼리 충돌하는 상황을 가정해서 설계됐다. 각 에이전트는 코드를 짜고 명령을 실행하며 상대 에이전트와 실시간으로 메시지를 주고받을 수 있다. 연구팀은 두 코딩 에이전트에 작업을 맡긴 결과 성과는 기대에 미치지 못했다며 ‘조정 격차(coordination gap)’가 발생했다고 밝혔다.

주 연구원은 연구 결과 단일 모델이 두 에이전트가 작업을 공유하는 것보다 더 나은 것으로 조사됐다면서 “이것은 협업의 저주”라고 밝혔다. 그는 “모델들의 언어 구사 능력은 뛰어나지만 사회적 행동에서 언어를 활용하지 못해 협업시 안정적으로 행동하는 데 필요한 조정 능력이 부족하다”며 “모델이 사회적 방식으로 언어를 사용하지 않도록 훈련받은 것이 문제”라고 분석했다. 양 교수도 “협업할 때 AI의 성능은 실제로 급격히 떨어진다. 최고의 코딩 에이전트조차도 작업을 공유하기 위해 짝을 이루면 능력이 절반 가까이 줄어든다”며 “이는 코딩 기술이 아니라 사회적 지능이 AI 협업의 핵심 병목이라는 점을 보여준다”고 설명했다.

연구팀은 에이전트끼리 소통하도록 설계하면 협업 성공 확률이 높아질 것이라고 예상했지만 결과에는 큰 영향이 없었다. 연구팀은 한 에이전트가 충돌을 경고했는데도 상대 에이전트가 이를 무시한 사례를 예로 들며 AI가 공간적·의미적 조정에 어려움을 겪었다고 설명했다. 코드에서 어떤 점이 잘못됐는지, 어느 부분을 수정해야 하는지 소통 과정에서 구분하지 못했다는 것이다. 연구팀은 인간 사회에서 이러한 행동은 신뢰를 해치고 모욕적인 행위라고 지적했다.

연구팀은 AI 간 협업이 해결 가능한 문제라면서도 단순히 더 나은 지시를 내리는 것이 중요 과제가 아니라 AI가 갖추지 못한 새로운 유형의 사회적 지능이 필요하다고 분석했다. AI가 단순히 좋은 코드를 작성하는 것을 넘어 성공적인 파트너십이 무엇인지 학습시켜야 한다는 것이다. 개발자가 에이전트의 약속 이행을 검증하는 시스템을 도입하고 에이전트 간 합의서를 작성하는 방안도 제시됐다. 주 연구원은 “쿠퍼벤치 연구를 통해 AI 에이전트가 인간처럼 말하지만 사회적 맥락에서 언어가 어떻게 작동하는지 파악하기까지는 아직 배울 점이 많다는 것을 알게 됐다”고 전했다.

빌 맥더모트 서비스나우 최고경영자가 지난 5일(현지 시간) 미국 라스베이거스에서 열린 ‘K26’ 개막식에서 기조연설을 하고 있다. 서비스나우

실제 AI 산업 현장에서도 에이전트 간 조합(오케스트레이션)이 중요해지고 있다. 시장조사 업체 IDC에 따르면 전 세계 에이전트는 2025년 2860만 개에서 2030년 22억 개로 늘어날 것으로 예상된다. 에이전트 사용이 늘어날수록 협업이 필요하지만 이를 위해서는 병목 문제를 해결해야 하기 때문이다. 기업 업무 효율화를 위한 소프트웨어 기업 서비스나우는 지난해 수십, 수백 개의 AI 에이전트를 통합 조율하는 AI 컨트롤타워를 공개했다.

※실리콘밸리Look을 구독하시면 실리콘밸리 기술·투자·창업 정보는 물론 재미있는 읽을거리도 받아보실 수 있습니다.

실리콘밸리=김창영 특파원 kcy@sedaily.com

서울경제

국제

코덱스·클로드코드 섞어 쓰지 마세요...“에이전트 팀웍 능력 아직 인간 못 따라가”[김창영의 실리콘밸리Look]