공식 평가 기준 없는 AI…“어떤 제품이 더 뛰어난지 알 수 없어”

이민경 2024. 4. 16. 12:05
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 기술 수준을 판단하는 공식 평가 기준이 없어 사용자가 AI 기업의 주장에 의존할 수밖에 없다는 지적이 나왔다.

15일(현지시간) 뉴욕타임스(NYT)는 자동차, 의약품 등을 생산하는 기업과 달리 AI는 출시 전 제품을 당국에 제출할 필요가 없어 기술 수준을 판별하기 어렵다고 보도했다.

그러면서 사용자가 '기능이 향상됐다' 등 AI 기업의 모호한 주장에만 의존해 제품을 판단해야 한다고 덧붙였다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

인공지능(AI) 기술 수준을 판단하는 공식 평가 기준이 없어 사용자가 AI 기업의 주장에 의존할 수밖에 없다는 지적이 나왔다.

15일(현지시간) 뉴욕타임스(NYT)는 자동차, 의약품 등을 생산하는 기업과 달리 AI는 출시 전 제품을 당국에 제출할 필요가 없어 기술 수준을 판별하기 어렵다고 보도했다. 그러면서 사용자가 ‘기능이 향상됐다’ 등 AI 기업의 모호한 주장에만 의존해 제품을 판단해야 한다고 덧붙였다.

부실한 AI 측정 기준으로 인해 안전상 위험이 발생할 수 있다는 지적도 나온다. 객관적인 평가 지표가 없기에 어떤 기능이 예상보다 빠르게 발전하고 있는지, 무슨 제품이 위협적인지 등을 알기 어렵다는 것이다.

스탠퍼드대학의 인간 중심 인공지능(Human-Centered Artificial Intelligence) 연구소가 발표한 올해의 인공지능 지수(AI Index) 저자들은 AI 연구자들이 직면한 가장 큰 도전 중 하나로 ‘부실 측정’을 꼽았다. 보고서 편집장인 네스토르 마슬레는 NYT에 “표준화된 평가가 부족하기 때문에 다양한 AI 모델의 한계와 위험을 체계적으로 비교하는 게 매우 어렵다”고 말했다.

오늘날 AI 챗봇을 평가하는 데 가장 많이 사용되고 있는 평가 방식은 MMLU(Massive Multitask Language Understanding)이다. 2020년 출시된 MMLU는 법학, 의학 등 수십 개의 학문적 주제를 다룬 약 1만6000개의 객관식 질문으로 구성돼 있다. 챗봇이 이러한 질문들에 더 정확하게 대답할수록 더 똑똑한 것으로 판단된다.

다만 MMLU에도 한계가 존재한다는 게 전문가들의 설명이다. 미국 캘리포니아대에서 MMLU 개발에 참여한 AI 안전 연구원 댄 헨르딕스는 “(MMLU의) 유통기한이 1∼2년 정도밖에 남지 않았을 것”이라며 “곧 더 어려운 테스트로 대체될 필요가 있다”고 말했다. AI 모델들이 매 순간 더 똑똑해지고 있어 현재 평가만으로는 판별이 어렵다는 것이다.

이민경 기자 min@segye.com

Copyright © 세계일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?