잘나가는 오픈AI GPT·구글 제미나이, 투명성은 낙제점

스탠퍼드대 AI 모델 투명성 평가 결과
GPT-4 등 투명성 점수 평균보다 낮아

챗GPT 개발사 오픈AI 로고와 오픈AI의 동영상 생성 도구 '소라'로 만들어 낸 여성의 얼굴 이미지. AFP 연합뉴스

미국 스탠퍼드대의 인공지능(AI) 모델 투명성 평가에서 오픈AI의 GPT-4, 구글 제미나이 울트라 등 전 세계에서 널리 쓰이고 있는 유명 AI 모델들이 평균 이하의 점수를 받았다.

스탠퍼드 인간중심인공지능연구소(HAI)는 21일(현지시간) '파운데이션 모델 투명성 지수'를 발표했다. 이는 개발사가 파운데이션 모델(여러 AI 서비스의 뼈대가 되는 범용 모델)의 매개변수와 훈련 방식, AI 학습에 구체적으로 어떤 데이터가 활용됐는지 등을 외부에 얼마나 친절하게 공개하고 있는가를 평가한 것이다. 100점을 만점으로 하며, 점수가 낮을수록 투명성이 낮다는 뜻이다.

총 14개 주요 AI 파운데이션 모델을 대상으로 한 이번 평가에서 평균 점수는 58점으로 집계됐다. 최고점은 85점으로, 오픈소스(소스코드를 누구나 무료로 이용, 수정, 재배포할 수 있도록 공개하는 것) 기반 코딩 AI 모델인 '스타코더'가 받았다.

잘 알려진 파운데이션 모델 중에는 평균 이하의 점수를 받은 경우가 많았다. 오픈AI의 GPT-4는 49점이었다. 구글의 제미나이 1.0 울트라는 GPT-4보다도 낮은 47점을 받았다. 앤스로픽의 클로드3는 51점이었다. 반면 마이크로소프트의 파이-2는 62점, 메타의 라마-2는 60점으로 평균보다 높은 평가를 받았다. 두 모델은 오픈소스형 AI 모델이다.

개발사들이 AI 모델의 개발 과정을 투명하게 공개하지 않는 문제는 AI의 적용 범위가 넓어지면서 계속 지적돼 왔다. 특히 훈련용 데이터로 어떤 데이터를 썼는지를 경쟁력을 이유로 공개하지 않는 게 관례처럼 자리 잡았다."내 저작물을 허락 없이 훈련에 갖다 썼다"는 고발이 잇따라 나오는 이유다. 연구팀은 지난해 10월 첫 조사 때보다는 평균 점수가 37점에서 20점 넘게 오른 것을 긍정적으로 평가하면서도 '여전히 많은 개선이 필요하다'고 결론 내렸다.

실리콘밸리= 이서희 특파원 shlee@hankookilbo.com

한국일보

IT

잘나가는 오픈AI GPT·구글 제미나이, 투명성은 낙제점