개인정보위, AI 개인정보 유출 방지 가이드라인 마련

김민국 기자 2024. 2. 4. 15:55
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

개인정보보호위원회가 챗GPT에 활용되는 음성이나 텍스트처럼 인공지능(AI) 기술 개발에서 핵심 재료인 '비정형 데이터'에 대한 사용 기준을 새롭게 마련했다.

개정된 가이드라인은 비정형 데이터를 활용하는 과정에서 개인정보 유출 위험을 차단하기 위한 원칙을 표기하고, 의료·교통·챗봇 등 주요 7개 분야에 걸맞은 사례를 설명해 현장에서 손쉽게 활용할 수 있도록 한 것이 골자다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

일러스트=손민균

개인정보보호위원회가 챗GPT에 활용되는 음성이나 텍스트처럼 인공지능(AI) 기술 개발에서 핵심 재료인 ‘비정형 데이터’에 대한 사용 기준을 새롭게 마련했다.

개인정보위는 4일 이 같은 내용이 담긴 ‘가명정보 처리 가이드라인’ 개정안을 발표했다. 가명정보는 개인정보 일부 항목을 삭제·변형해 추가 정보 결합 없이는 특정 개인을 알아볼 수 없도록 한 정보를 의미한다. 정형 데이터가 엑셀 파일처럼 행과 열 등 규정된 틀에 정리된 수치라고 하면, 비정형 데이터는 정의된 구조가 없는 음성·텍스트·영상·이미지 등의 정보를 뜻한다.

인공지능 기술이 빠르게 발달하면서 지난해 기준 비정형 데이터는 전 세계 데이터의 약 90%를 차지할 정도로 비중이 커졌다. 그러나 기존에 마련된 가이드라인은 정형 데이터에 대한 기준만 제시한 탓에, 기업이나 연구기관을 중심으로 비정형 데이터 사용 기준이 모호하다는 의견이 나왔다. 정형 데이터에 비해 관리가 쉽지 않기에 개인정보 유출에 대한 우려도 꾸준히 나왔다.

이에 개인정보위는 각 분야 전문가로 구성된 태스크포스를 1년 간 운영하며 가이드라인을 개정했다. 개정된 가이드라인은 비정형 데이터를 활용하는 과정에서 개인정보 유출 위험을 차단하기 위한 원칙을 표기하고, 의료·교통·챗봇 등 주요 7개 분야에 걸맞은 사례를 설명해 현장에서 손쉽게 활용할 수 있도록 한 것이 골자다.

가이드라인에 따라 병원에서는 환자의 컴퓨터단층촬영(CT)을 사용할 때 ‘블랙마스킹’ 기법을 통해 환자 번호나 생년월일, 성별 등을 지우도록 권고받는다. 자율주행 시스템이나 교통정보 등에 비정형데이터를 활용할 경우 행인이나 차량 탑승자의 얼굴과 차량 번호판을 컴퓨터가 식별할 수 없는 수준으로 가려야 한다고 개인정보위는 설명했다.

가이드라인에는 인공지능 챗봇의 경우 언어 학습에 활용된 가명 정보가 그대로 답변으로 나오지 않도록 ‘학습 데이터베이스’와 ‘답변 데이터베이스’를 분리해 처리할 것을 명시했다. 또 이메일 주소와 ID 등 개인이 식별될 수 있는 항목들을 가명 처리해야 한다는 내용도 포함됐다. 개인정보위는 가이드라인에서 언급된 위험성을 미리 진단할 수 있도록 ‘개인식별 위험성 검토 체크리스트’도 마련했다. 가이드라인은 5일부터 개인정보위 홈페이지와 개인정보포털에서 내려받을 수 있다.

개인정보위는 앞으로 ‘사전적정성 검토제’ 사례 등을 가이드라인에 추가하고 모범 사례를 확산할 계획이다. 사전적정성 검토제는 새로운 서비스를 기획·개발하려는 사업자가 개인정보위와 함께 개인정보보호법 준수 방안을 사전에 마련하고, 이를 적정하게 적용했다면 추후 사정 변화 등이 없는 한 행정처분을 면제해주는 제도다.

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?