스칼렛 요한슨 목소리 모방 의혹 망신살, 오픈AI 투명성 `하위권`

스탠퍼드대, AI 투명성 지수 발표…GPT-4 ,11위
구글 1.0 울트라 47점..허깅페이스 스타코더 1위

미국 스탠퍼드대 인간주임인공지능연구소(HAI)의 AI 모델의 투명성 지수

생성형 AI를 대표하는 오픈AI사의 GPT-4, 구글의 '1.0 울트라' 등의 투명성 지수가 상당히 낮은 것으로 평가됐다.

미국 스탠퍼드대의 인간중심인공지능연구소(HAI)는 21일(현지시간) 오픈AI(GPT-4), 구글(1.0 울트라), 메타(라마2), 앤스로픽(클라우드3), IBM, 미스트랄 등 주요 14개 AI 모델 파운데이션 모델에 대한 투명성 지수(FMTI) 평가 보고서를 내놨다.

이 보고서는 지난해 10월 처음 발표된 이후 7개월 만에 업데이트됐다. 조사 대상 모델은 지난해 10개보다 4개 더 늘었다.

HAI 투명성 지수는 대규모 언어모델(LLM)의 투명성을 평가하기 위해 마련된 것으로, 사회적으로 영향력 있는 AI 개발자들이 개발 과정, 훈련 방식 등을 더 많이 공개하도록 장려하는 데 목적이 있다.

매개변수와 훈련방식, 데이터 공개 여부, 설명 가능성 등의 지표를 기준으로 100점 만점으로 평가했다. 이번 평가에서 14개 모델 중 허깅페이스-서비스나우의 '스타코더'가 85점으로 가장 높은 점수를 얻었다. 이에 반해 오픈AI의 GPT-4는 49점으로 11위에 그쳤다. GPT-4는 지난해 10월 48점을 받았다.

최근 오픈AI의 GPT-04(포오)의 음성이 미국 유명 배우 스칼릿 조핸슨의 목소리를 모방했다는 논란에 휩싸인 상황에서 투명성 지수가 발표돼 더 주목을 끈다.

구글의 1.0 울트라는 47점으로 12위였고, 작년 10월에는 구글의 팜2가 조사 대상에 포함돼 40점을 얻었다. 앤스로픽의 클로드3은 51점으로 10위, 마이크로소프트의 '파이-2'는 62점으로 5위, 메타의 '라마-2'는 60점으로 6위를 각각 기록했다.

알레프알파의 '주라식-2'와 IBM의 '그래나이트'는 폐쇄모델이지만 각각 2위, 4위를 차지했다.

조사 대상 모델의 평균 점수는 지난해 10월 37점에서 58점으로 높아졌다.

연구팀은 "AI 개발자들이 모델 학습에 사용하는 데이터, 데이터에 접근할 수 있는 사람, AI가드레일이 얼마나 효과적인지에 대해선 계속 비밀에 부치고 있다"며 "앞으로 투명성의 진전이 책임성 강화, 혁신 증대, 정책 개선 등과 같은 더 나은 사회적 결과로 이어졌으면 한다"고 말했다. 이준기기자 bongchu@dt.co.kr

디지털타임스

IT/과학

스칼렛 요한슨 목소리 모방 의혹 망신살, 오픈AI 투명성 `하위권`