"공개된 개인정보, AI학습 가능" 정부 청신호에 국내업계 숨통

(종합)개인정보위 "글로벌 기준 맞춰 허용…법 개정도 추진"

생성형 AI(인공지능) 모델의 법적 회색지대로 지적받은 '인터넷상 공개된 개인정보 활용'에 대해 정부가 첫 가이드라인을 내놨다. 원칙적 허용 기조를 밝힌 정부의 행보에 국내 AI 개발사들은 운신의 폭을 넓힐 전망이다.

개인정보보호위원회가 17일 펴낸 'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서'에 따르면 현행 개인정보보호법은 '정당한 이익'이 정보주체의 권리보다 우선할 경우 합리적인 정보 수집·이용을 허용한다는 조항이 존재한다. 개인정보위는 이 조항이 공개된 개인정보를 AI 학습에 수집·이용하는 근거가 될 수 있다고 판단했다.

정당한 이익의 범위에 대해 개인정보위는 "합법적 이익으로서, 영업상 이익뿐 아니라 그로부터 발생하는 사회적 이익 등 다양한 층위를 포괄할 수 있다"고 해석했다. AI의 개발주체가 영리기업이어도 정당한 이익을 주장할 수 있다는 취지다. 다만 개인정보위는 안면인식을 통한 개인감시 AI, 피싱·스미싱용 AI를 예로 들면서 "명시적으로 불이익한 효과를 발생시키는 개인정보 처리는 일반적으로 인정될 수 없다"고 명시했다.

개인정보위는 또 정당한 이익을 인정받기 위해선 AI 학습에 이용할 공개정보의 필요성이 충분한지 검토하라고 권고했다. 의료진단보조 AI 개발에 소득·재산 정보를 배제한 사례를 예로 들며 "AI 개발과 상당한 관련성이 없는 정보는 학습에서 제외하는 게 바람직하다"는 조언을 덧붙였다. 아울러 개인정보위는 △데이터 출처 검증·관리 △프롬프트·출력 필터링 △미세조정 등 각종 기술적 안전조치를 안내서에 직접 나열하면서 도입을 권하기도 했다. 정보주체에게 발생하는 권리침해의 규모가 커지면 공개된 개인정보로 진행된 AI 학습의 정당성이 법률적으로 쉽게 인정되기 어렵다는 이유에서다.

공개 데이터는 누구나 인터넷으로 접근할 수 있는 정보를 말한다. 오픈AI 등 국내외 생성형 AI 모델 업체들은 위키백과·웹사이트·블로그·SNS(사회관계망서비스)게시물 등 공개 웹페이지나 이를 미리 압축한 '커먼크롤(Common Crawl)'을 AI 학습용 데이터로 이용해왔다. 정보주체(주인)의 동의 없이 대량으로 수집되는 공개 데이터는 개인의 주소·고유식별번호·신용카드번호 등이 포함될 수 있어 그대로 활용하면 프라이버시 침해 가능성이 있지만, 이미 공개된 정보의 특성상 수집·활용의 원천적 제한은 사실상 불가능한 실정이다.

이날 개인정보위가 개방적 입장을 낸 배경에는 데이터 압축(벡터화)을 수반하는 AI 모델의 기술적 특징과 국내 AI에 대한 규제 역차별 우려가 작용한 것으로 전해졌다. 양청삼 개인정보정책국장은 이날 브리핑에서 "전통적인 데이터 환경에선 여러 개인정보가 엑셀 표처럼 정리돼 항상 확인할 수 있었지만, AI 모델에선 특정 개인의 정보가 추출될 수 있는지도 불투명하다"며 "법령상 열람권·처리정지요구권도 AI 학습의 맥락에 맞춰 인정될 필요가 있다"고 말했다. 다른 개인정보위 관계자는 "해외와 달리 국내 AI 업계가 규제 리스크를 우려한 나머지 학습 데이터를 과도하게 삭제해 모델 성능을 저하시킨다는 지적도 감안했다"고 덧붙였다.

개인정보위는 '정당한 이익'의 기준이 국제적 흐름에도 부합한다는 입장이다. 양 국장은 "미국과 유럽연합(EU) 등 주요국에서 공개 데이터를 포함한 AI·데이터 처리 전반에 대한 개인정보 규율체계를 형성하고 있어 글로벌 상호운용성 확보도 적극 고려했다"며 "향후 기술발전의 추이, 관련 법령의 제개정, 해외동향 등을 참고해 안내서를 지속적으로 업데이트할 예정"이라고 했다.

양청삼 개인정보보호위원회 개인정보정책국장이 17일 서울 종로구 정부서울청사에서 '인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서' 브리핑을 하고 있다./사진=뉴시스 /사진=김명원

성시호 기자 shsung@mt.co.kr

머니투데이

IT/과학

"공개된 개인정보, AI학습 가능" 정부 청신호에 국내업계 숨통