공식 평가 기준 없는 AI…“어떤 제품이 더 뛰어난지 알 수 없어”

인공지능(AI) 기술 수준을 판단하는 공식 평가 기준이 없어 사용자가 AI 기업의 주장에 의존할 수밖에 없다는 지적이 나왔다.

15일(현지시간) 뉴욕타임스(NYT)는 자동차, 의약품 등을 생산하는 기업과 달리 AI는 출시 전 제품을 당국에 제출할 필요가 없어 기술 수준을 판별하기 어렵다고 보도했다. 그러면서 사용자가 ‘기능이 향상됐다’ 등 AI 기업의 모호한 주장에만 의존해 제품을 판단해야 한다고 덧붙였다.

부실한 AI 측정 기준으로 인해 안전상 위험이 발생할 수 있다는 지적도 나온다. 객관적인 평가 지표가 없기에 어떤 기능이 예상보다 빠르게 발전하고 있는지, 무슨 제품이 위협적인지 등을 알기 어렵다는 것이다.

스탠퍼드대학의 인간 중심 인공지능(Human-Centered Artificial Intelligence) 연구소가 발표한 올해의 인공지능 지수(AI Index) 저자들은 AI 연구자들이 직면한 가장 큰 도전 중 하나로 ‘부실 측정’을 꼽았다. 보고서 편집장인 네스토르 마슬레는 NYT에 “표준화된 평가가 부족하기 때문에 다양한 AI 모델의 한계와 위험을 체계적으로 비교하는 게 매우 어렵다”고 말했다.

오늘날 AI 챗봇을 평가하는 데 가장 많이 사용되고 있는 평가 방식은 MMLU(Massive Multitask Language Understanding)이다. 2020년 출시된 MMLU는 법학, 의학 등 수십 개의 학문적 주제를 다룬 약 1만6000개의 객관식 질문으로 구성돼 있다. 챗봇이 이러한 질문들에 더 정확하게 대답할수록 더 똑똑한 것으로 판단된다.

다만 MMLU에도 한계가 존재한다는 게 전문가들의 설명이다. 미국 캘리포니아대에서 MMLU 개발에 참여한 AI 안전 연구원 댄 헨르딕스는 “(MMLU의) 유통기한이 1∼2년 정도밖에 남지 않았을 것”이라며 “곧 더 어려운 테스트로 대체될 필요가 있다”고 말했다. AI 모델들이 매 순간 더 똑똑해지고 있어 현재 평가만으로는 판별이 어렵다는 것이다.

이민경 기자 min@segye.com

세계일보

국제

공식 평가 기준 없는 AI…“어떤 제품이 더 뛰어난지 알 수 없어”