AI모델, 프리미어리그 모의 베팅서 ‘줄줄이 파산’…“생각과 행동 따로 논다”

주요 인공지능(AI) 모델들이 잉글랜드 프리미어리그(EPL) 축구 모의 베팅에서 모두 손실을 기록했다.

13일 영국 런던의 AI 스타트업 제너럴리즈닝이 공개한 ‘켈리벤치’ 논문에 따르면, 2023~2024시즌 프리미어리그를 가상으로 재현해 8개 AI 모델에게 베팅하도록 한 결과 모두 손실을 기록하는 결과가 나왔다.

오픈AI의 ‘GPT-5.4’와 엔트로픽의 ‘클로드 오퍼스 4.6’, 구글의 ‘제미나이 3.1프로’, xAI ‘그록 4.20’ 등이 그 대상이다. 연구진은 각각 10만 파운드를 초기 자본금으로 지급하고 경기 결과와 득점 수에 베팅하도록 세팅했다.

해당 모델들에게는 약 30년 치에 달하는 과거 경기 데이터를 제공했다. 이후 인터넷 접속을 차단하여 실시간으로 정보를 습득하는 것을 방지했다.

세 차례 시도 후 클로드 오퍼스 4.6과 GPT 5.4만이 파산을 면했다. 이외의 6개의 모델은 모두 파산하는 결과를 가져왔다. 연구진은 “새로운 경기 데이터에 대응해 전략을 재조정하고 베팅을 임의로 하지 않고 체계적으로 시행했으며 전략상 우위가 없는 상황에서도 자본을 보존했다”며 파산을 면한 두 AI 모델에 대해 평가했다.

나머지 6개 모델은 세 번 중 한 번 이상은 초기 자금을 모두 탕진한 결과를 가져왔다. 혹은 베팅 자체를 완수하지 못해 기권 처리되는 경우도 있었다.

이는 추론 과정이 행동으로 이어지지 않는 ‘지식-행동 격차’ 현상을 보여준다. 추론 과정에서는 그럴싸한 전략을 내놓았지만, 실제 베팅에서는 엉뚱하게 행동하는 것이다. 연구진은 “AI 모델은 정교한 코드를 작성하고 스스로 실패를 진단하며 제대로 된 전략을 표현할 수는 있다”면서도 “정작 그 전략을 안정적으로 실행하거나 자신의 성과를 모니터링하고 접근법이 작동하지 않을 때는 조정하는 데는 실패를 반복한다”고 분석했다.

스포츠 베팅 전문가들은 8개 모델에 대한 전략 정교도 평가를 진행했다. 파산을 면한 클로드와 GPT는 전략 정교도 평가에서 만점의 3분의 1 수준의 평가를 받았다. 제미나이 3.1프로와 그록 4.20은 약 9.8%의 평가에 그쳤다.

해당 연구는 현재 AI 모델이 목표와 기준이 명확한 과제는 잘 해결하지만, ‘수익을 극대화하라’와 같은 정해진 해법이 없는 목표를 수행하는 데는 아직 부족하다는 것을 보여준다.

배현의 인턴기자 baehyeonui@hankyung.com

한경비즈니스

경제

AI모델, 프리미어리그 모의 베팅서 ‘줄줄이 파산’…“생각과 행동 따로 논다”