"스태빌리티AI, 데이터셋에 아동 성학대 사진 포함"

김미정 기자 2023. 12. 21. 16:33
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

스태빌리티AI의 이미지 데이터셋에 1천600개에 달하는 아동 성적 학대 사진이 포함된 것으로 드러났다.

라이온 이미지 약 5억개를 '포토DNA' 같은 아동 성적 학대 콘텐츠 식별기로 조사했다.

결과적으로 아동 폭력, 아동 성적 학대, 관련 불법 스크린샷 등 1천600장이 데이터셋에 들어 있었다.

가디언 보도에 따르면, 현재 구글 이미지 생성기 '이마진'이 해당 데이터셋으로 훈련받았다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

미국 스탠퍼드대 인터넷연구소 연구 발표

(지디넷코리아=김미정 기자)스태빌리티AI의 이미지 데이터셋에 1천600개에 달하는 아동 성적 학대 사진이 포함된 것으로 드러났다.

더버지 등 IT 외신은 20일(현지시간) 미국 스탠퍼드대학 인터넷연구소가 이같은 연구 결과를 발표했다고 보도했다.

해당 데이터셋은 전 세계 기업과 개발자가 모델 개발에 이용하는 라이온(LAION-5B)이다. 스태빌리티AI가 만든 이미지 데이터셋이다. 오픈소스 형태로 이미지 약 58억장으로 이뤄졌다. 자사 AI 이미지 생성기 '스테이블디퓨전'도 이 데이터셋으로 학습했다.

스태빌리티AI. (사진=홈ㅁ페이지 캡처)

스탠퍼드 연구진은 올해 9월부터 아동 성적 학대 자료가 라이온에 얼마나 들어있는지 조사하기 시작했다. 라이온 이미지 약 5억개를 '포토DNA' 같은 아동 성적 학대 콘텐츠 식별기로 조사했다. 이후 캐나다 아동보호센터로 전송해 콘텐츠 진위여부 검증까지 마쳤다. 결과적으로 아동 폭력, 아동 성적 학대, 관련 불법 스크린샷 등 1천600장이 데이터셋에 들어 있었다.

가장 큰 문제는 여러 AI 기업이 라이온으로 이미지 모델을 훈련했다는 점이다. 가디언 보도에 따르면, 현재 구글 이미지 생성기 '이마진'이 해당 데이터셋으로 훈련받았다. 이에 구글 측은 "모델 훈련 시에만 라이온을 활용했으며 이후 데이터셋을 모델에 저장하지 않았다"고 선을 그었다. 또 "이번에 논란이 된 라이온-5B의 이전 버전인 라이온-400M을 활용했다"고 덧붙였다.

김미정 기자(notyetkim@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?