개인정보위, AI 학습에 쓰이는 '공개 데이터' 처리 기준 마련

챗GPT 등 생성형 인공지능(AI) 개발 과정에서 사용하는 ‘공개 데이터’ 활용 방안에 대한 정부의 첫 가이드라인이 나왔다.

17일 개인정보보호위원회는 ‘AI 개발·서비스를 위한 공개된 개인정보 처리 안내서’를 발간했다. 공개 데이터는 인터넷에서 누구나 합법적으로 접근할 수 있는 데이터를 의미한다.

그동안 주요 AI 기업들은 인터넷 상에서 공개된 데이터를 웹 스크래핑 방식으로 수집해 AI 학습데이터로 활용했다. 그러나 이같은 데이터에는 주소, 고유식별번호, 신용카드번호 등 여러 개인정보가 포함될 수 있어 우려가 있었다.

이에 개인정보위는 공개된 개인정보를 수집·활용하는 법적 기준을 명확히 하고, 기업이 AI 개발 및 서비스 단계에서 어떤 안전조치를 취하는 것이 적정한지를 참고할 수 있는 안내서를 마련했다.

우선, 개인정보위는 ‘정당한 이익’이 정보주체의 권리보다 우선할 경우 동의 없는 정보 수집·이용을 허용하는 현행 개인정보보호법 조항에 따라 공개 데이터를 AI 학습에 이용할 수 있다고 판단했다.

다만, 기업이 ‘정당한 이익’ 조항에 걸맞게 공개 데이터를 쓰려면 ▲AI 목적·용도에 정당성이 있어야 하고 ▲정보 처리에 합리성이 부여돼야 하며 ▲ 정보주체 권리침해 방지를 위한 안전성 확보 조치 마련 등의 요건을 충족해야 한다.

개인정보위는 기업이 모든 안전조치를 의무적으로 시행해야 하는 것은 아니며 각 기업의 특성에 맞는 ‘안전조치의 최적 조합’을 스스로 선택해서 이행할 수 있다고 설명했다.

고학수 개인정보위 위원장은 “안내서를 통해 국민이 신뢰하는 AI·데이터 처리 관행을 기업 스스로 만들어 나가고 축적된 모범사례가 안내서에 지속해서 반영되길 기대한다”고 말했다.

조선비즈