"스태빌리티AI, 데이터셋에 아동 성학대 사진 포함"

미국 스탠퍼드대 인터넷연구소 연구 발표

(지디넷코리아=김미정 기자)스태빌리티AI의 이미지 데이터셋에 1천600개에 달하는 아동 성적 학대 사진이 포함된 것으로 드러났다.

더버지 등 IT 외신은 20일(현지시간) 미국 스탠퍼드대학 인터넷연구소가 이같은 연구 결과를 발표했다고 보도했다.

해당 데이터셋은 전 세계 기업과 개발자가 모델 개발에 이용하는 라이온(LAION-5B)이다. 스태빌리티AI가 만든 이미지 데이터셋이다. 오픈소스 형태로 이미지 약 58억장으로 이뤄졌다. 자사 AI 이미지 생성기 '스테이블디퓨전'도 이 데이터셋으로 학습했다.

스탠퍼드 연구진은 올해 9월부터 아동 성적 학대 자료가 라이온에 얼마나 들어있는지 조사하기 시작했다. 라이온 이미지 약 5억개를 '포토DNA' 같은 아동 성적 학대 콘텐츠 식별기로 조사했다. 이후 캐나다 아동보호센터로 전송해 콘텐츠 진위여부 검증까지 마쳤다. 결과적으로 아동 폭력, 아동 성적 학대, 관련 불법 스크린샷 등 1천600장이 데이터셋에 들어 있었다.

가장 큰 문제는 여러 AI 기업이 라이온으로 이미지 모델을 훈련했다는 점이다. 가디언 보도에 따르면, 현재 구글 이미지 생성기 '이마진'이 해당 데이터셋으로 훈련받았다. 이에 구글 측은 "모델 훈련 시에만 라이온을 활용했으며 이후 데이터셋을 모델에 저장하지 않았다"고 선을 그었다. 또 "이번에 논란이 된 라이온-5B의 이전 버전인 라이온-400M을 활용했다"고 덧붙였다.

김미정 기자(notyetkim@zdnet.co.kr)

IT/과학

"스태빌리티AI, 데이터셋에 아동 성학대 사진 포함"