"AI 개발, 공개 데이터 처리 방법은"...정부 첫 가이드라인 공개

개인정보보호위원회가 생성형AI 개발.학습에 필요한 '공개 데이터' 처리 방안에 대한 첫 가이드라인을 17일 공개했다.

[파이낸셜뉴스] 생성형 인공지능(AI) 모델 개발 시 활용되는 ‘인터넷상 공개 데이터’를 안전하게 처리할 수 있는 정부 차원의 기준이 나왔다.

개인정보보호위원회는 AI 개발에 필수적인 공개 데이터를 적법하고 안전하게 처리하는 기준이 될 '인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서'를 마련해 17일 공개했다.

생성형AI가 폭발적으로 성장하면서 광범위한 데이터 학습이 필수가 됐다. 공개 데이터는 사진, 게시물, 영상 등 인터넷 상 누구나 합법적으로 접근할 수 있는 데이터로 생성형AI 개발을 위한 학습의 핵심 요소다. AI 기업들은 커먼크롤, 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 웹 스크래핑 등의 방식으로 수집해 AI 학습데이터로 활용하고 있다.

다만 이러한 공개 데이터에는 주소나 주민등록번호 등의 고유식별번호, 신용카드 번호 등 여러 개인정보가 포함될 수 있다는 우려가 컸다. 개인정보위는 현행 개인정보보호법에는 이러한 공개 개인정보 처리에 적용될 수 있는 명확한 기준이 없어, 기업이 참고할 수 있는 최소한의 기준을 제시하는 안내서를 마련하게 됐다고 전했다.

즉, 공개된 개인정보 수집·활용의 법적기준을 명확하게 하고, AI 개발 및 서비스 단계에서 어떤 안전조치를 취하는 것이 적정한지에 대한 최소한의 기준이라는 의미다. 개인정보위는 "공개된 개인정보를 활용하는 기업들의 개인정보 침해 이슈를 최소화하는 동시에 법적 불확실성을 해소해 기업의 혁신성장을 돕겠다는 취지"라고 설명했다.

안내서에 따르면 개인정보보호법에 따른 '정당한 이익' 조항에 의해 공개된 개인정보만 AI 학습·서비스 개발에 활용할 수 있다. '정당한 이익'은 개인정보 처리자의 정당한 이익을 달성하기 위해 필요한 경우로 명백하게 정보주체의 권리보다 우선하는 경우를 말한다. 특히 기업이 '정당한 이익' 조항에 걸맞게 공개 데이터를 활용하려면 AI 개발 목적의 정당성을 갖춰야 하고, 개발 취지와 관련없는 개인정보를 AI 학습에서 배제하는 등 정보 처리에 합리성이 부여되어야 한다. 또 정보주체 권리침해 방지를 위한 안전성 확보 조치를 마련하는 등 3가지 요건을 충족해야 한다는 점도 분명히 했다.

다만 기술 발전 속도가 빠른 AI 시장 특성을 고려해 세부적인 안전조치는 유연하게 도입·시행할 수 있도록 했다. 개인정보위는 "AI 기업은 모든 안전조치를 의무적으로 시행해야 하는 것은 아니다"라며 "안내서에 제시된 여러 안전조치의 순기능과 AI 성능저하, 편향성 등 부작용과 기술 성숙도를 고려해 기업의 특성에 맞는 '안전조치의 최적 조합'을 스스로 선택해 이행할 수 있다"고 전했다.

아울러 개인정보보호책임자(CPO)를 구심점으로 하는 ‘AI 프라이버시 담당조직’(가칭)을 자율적으로 구성·운영하고 안내서에 따른 기준 충족 여부를 평가해 그 근거를 작성·보관하도록 권고했다. AI 성능 개선 등 중대한 기술적 변경이나 개인정보 침해 발생 우려 등 위험 요인을 주기적으로 모니터링하고, 개인정보 유·노출 등 침해사고 발생 시 신속한 권리구제 방안도 마련하도록 했다.

안내서는 추후 개인정보 관련 법령 제·개정, AI 기술발전 추이, 해외 규제정비 동향 등을 고려해 업데이트될 예정이다. AI 학습데이터의 원천인 이용자 개인정보의 적법한 처리 근거와 기준은 의견 수렴을 거쳐 구체화해 나가기로 했다.

고학수 개인정보위 위원장은 "AI 기술 진보가 빠르게 이뤄지고 있지만, AI 개발의 핵심 관건인 공개 데이터 학습이 개인정보보호법에 비춰 적법하고 안전한지 여부는 공백인 상황"이라며 "안내서를 통해 국민이 신뢰하는 AI·데이터 처리 관행을 기업 스스로 만들어 나가고 이렇게 축적된 모범사례가 안내서에 지속적으로 반영될 수 있기를 기대한다"고 말했다.

yjjoe@fnnews.com 조윤주 기자

IT/과학

"AI 개발, 공개 데이터 처리 방법은"...정부 첫 가이드라인 공개