AI 발전 속도 너무 빨라…빅테크들, '성능평가' 서둘러 재설계
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI) 기술이 급속히 발전하면서 미국 기술 기업들이 AI 모델을 테스트·평가하는 방식을 서둘러 재설계하고 있다.
9일(현지시간) 파이낸셜타임스(FT)에 따르면 기업들은 '벤치마크'로 불리는 테스트를 통해 AI 모델의 능력을 평가하는데, 최근 기존 테스트로 신모델을 평가할 경우 정확도가 90%대로 지나치게 높아 새로운 테스트의 필요성이 부각되고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(서울=연합뉴스) 차병섭 기자 = 인공지능(AI) 기술이 급속히 발전하면서 미국 기술 기업들이 AI 모델을 테스트·평가하는 방식을 서둘러 재설계하고 있다.
9일(현지시간) 파이낸셜타임스(FT)에 따르면 기업들은 '벤치마크'로 불리는 테스트를 통해 AI 모델의 능력을 평가하는데, 최근 기존 테스트로 신모델을 평가할 경우 정확도가 90%대로 지나치게 높아 새로운 테스트의 필요성이 부각되고 있다.
메타플랫폼(페이스북 모회사) 관계자는 "업계의 발전 속도가 극히 빠르다"면서 "측정 능력이 포화하기 시작했으며 (AI 신모델을) 평가하기가 점점 어려워지고 있다"고 말했다.
일례로 오픈AI·마이크로소프트·메타·앤스로픽 등은 최근 인간을 대신해 자동으로 업무를 수행할 수 있는 'AI 에이전트' 구축 계획을 발표한 바 있는데, 이를 위해서는 평가가 필요한 상황이다.
이에 따라 기술기업 다수는 자체적인 벤치마크를 만들고 있는데, 업계 일각에서는 공개적인 테스트가 없는 만큼 기술을 어떻게 비교할 수 있을지에 대한 우려를 내놓고 있다.
오픈AI 관계자는 "사람이 만든 테스트 다수가 더는 AI 모델 능력의 바로미터로 충분하지 않은 시기로 들어서고 있다"고 평가했다.
현재 공개된 벤치마크들은 다지선다형 질문을 통해 다양한 주제에 대한 지식을 평가하는데, 이제 이러한 방식은 불필요하며 더 복잡한 테스트가 필요하다는 것이다.
이러한 흐름 하에 기존 벤치마크 중 하나인 'SWE-bench Verified'는 지난 8월 오픈AI 등의 의견을 수렴해 업데이트를 진행했으며, 개발자 플랫폼 '깃허브' 등에서 가져온 실제 문제를 테스트에 이용하고 있다.
오픈AI의 최신 AI 모델인 GPT-4o은 이 테스트 결과 41.4%의 문제를 풀었고, 앤스로픽 '클로드 3.5 소넷'은 49%를 해결했다.
한 스타트업은 다양한 전문가들로부터 추상적 추론이 필요한 복잡한 질문을 클라우드 소스 형태로 모은 '인류 최후의 시험' 프로젝트를 지난 9월 발표하기도 했다.
다만 AI 모델 평가에 대한 명시적 합의가 없는 만큼 기업들이 경쟁사 모델을 평가하거나 사용자들이 이해하기 어려울 수 있다는 전문가 우려도 나온다.
AI 세이프티의 댄 헨드릭스는 "테스트가 공개되지 않으면 재계나 사회 전반에서 (비교에 대해) 말하기 어렵다"고 말했다.
bscha@yna.co.kr
▶제보는 카톡 okjebo
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- '핵펀치' 잃은 58세 타이슨, 31세 연하 복서에게 판정패 | 연합뉴스
- 李, '징역형 집유' 선고 이튿날 집회서 "이재명은 죽지 않는다" | 연합뉴스
- '오징어게임' 경비병으로 변신한 피겨 선수, 그랑프리 쇼트 2위 | 연합뉴스
- 학창 시절 후배 다치게 한 장난…성인 되어 형사처벌 부메랑 | 연합뉴스
- 주행기어 상태서 하차하던 60대, 차 문에 끼여 숨져 | 연합뉴스
- 아내와 다툰 이웃 반찬가게 사장 찾아가 흉기로 살해 시도 | 연합뉴스
- 페루서 독거미 320마리 밀반출하려다 20대 한국인 체포돼 | 연합뉴스
- 성폭력 재판 와중에 또 악질 성범죄…변명 일관한 20대 중형 | 연합뉴스
- 의문의 진동소리…옛날 가방 속 휴대폰 공기계 적발된 수험생 | 연합뉴스
- 김준수 협박 금품 갈취한 아프리카TV 여성 BJ 구속 송치 | 연합뉴스