AI 성능 공정 평가 'LM아레나', 1억달러 시드 투자 유치 성공

[이포커스] 인공지능(AI) 모델의 성능을 공정하게 평가하는 크라우드소싱 벤치마킹 플랫폼 'LM 아레나(LMSYS Chatbot Arena)'가 1억 달러(약 1375억 원) 규모의 시드(초기) 투자를 유치하며 AI 업계의 뜨거운 감자로 떠올랐다.

AI 기술 경쟁이 치열해지는 가운데, 객관적인 성능 검증 플랫폼의 중요성이 부각되면서 실리콘밸리 큰손들의 자금이 몰린 것으로 풀이된다.

22일 블룸버그통신 및 외신 보도 내용들을 종합하면 이번 시드 펀딩은 실리콘밸리의 대표적 벤처캐피털(VC) 안드레센 호로위츠(a16z)와 캘리포니아대학교(UC)의 투자 포트폴리오를 관리하는 UC 인베스트먼트가 공동으로 주도했다. 이 외에도 라이트스피드 벤처 파트너스, 펠리시스 벤처스, 클라이너 퍼킨스 등 유수의 VC들이 투자자로 참여하며 LM 아레나의 잠재력을 높이 평가했다.

2023년 설립된 LM 아레나는 주로 UC 버클리 소속 연구원들이 운영하는 프로젝트다. 오픈AI의 GPT 시리즈, 구글의 제미나이, 앤트로픽의 클로드 등 세계 최고 수준의 AI 모델 개발사들이 자사의 주력 모델을 LM 아레나에 제공하면 불특정 다수의 커뮤니티 사용자들이 두 개의 모델을 익명으로 비교 평가(블라인드 테스트)하고 선호하는 모델을 선택하는 방식으로 순위를 매긴다. 이러한 '인간 평가 기반' 방식은 정형화된 벤치마크 테스트만으로는 측정하기 어려운 AI 모델의 미묘한 성능 차이와 실제 사용자의 사용성을 반영한다는 점에서 주목받고 있다.

AI 업계에서 LM 아레나가 단기간에 높은 관심을 받는 이유는 AI 기술의 '투명성'과 '공정성'에 대한 요구가 커지고 있기 때문이다. AI 모델 개발사들이 앞다퉈 자체 성능을 과시하지만 객관적인 비교 기준이 없어 사용자들은 혼란을 겪는 경우가 많았다. LM 아레나는 이러한 정보 비대칭을 해소하고 AI 모델의 실제 경쟁력을 가늠하는 중요한 척도로 부상하고 있다.

LM 아레나는 이전까지 구글의 데이터 과학 플랫폼 캐글, a16z, 투게더 AI 등으로부터 보조금과 기부금 형태로 자금을 지원받아왔다. 이번 대규모 시드 투자 유치는 LM 아레나가 독립적인 AI 평가 플랫폼으로서 본격적인 성장 궤도에 올랐음을 시사한다.

다만 최근 일각에서는 일부 AI 연구소들이 LM 아레나의 리더보드 순위를 인위적으로 높이기 위해 시스템의 허점을 이용하는 '리더보드 게이밍(gaming the leaderboard)'을 LM 아레나 측이 암묵적으로 도왔다는 비판이 제기되기도 했다.

이에 대해 LM 아레나 측은 "사실무근"이라며 강력히 부인하고 있으며 오히려 이번 투자 유치를 통해 플랫폼의 중립성과 평가 시스템의 고도화를 꾀할 것이라는 전망이 나온다.

업계 관계자는 "AI 기술이 블랙박스처럼 여겨지는 상황에서 LM 아레나와 같은 제3자 평가 플랫폼의 역할은 더욱 중요해질 것"이라며 "이번 투자를 발판 삼아 평가 방식의 신뢰도를 높이고 더 많은 AI 모델들이 공정하게 경쟁할 수 있는 환경을 조성하는 데 기여할 것으로 기대된다"고 밝혔다.

LM 아레나는 확보된 자금을 연구 인력 확충, 평가 시스템 개선, 서비스 범위 확대 등에 투입할 계획이다.

이포커스=김수정 기자

#LM아레나 #이포커스

더 많은 기사 보기