AI가 카드·여권 정보 훔쳐봤다…‘인간지능’이 답변 검토까지

개인정보보호위원회, 네이버 등 6개 사업자 거대언어모델(LLM) 실태점검

개인정보보호위원회가 국내외 주요 생성형 인공지능 서비스에 대해 사전 실태점검을 진행한 결과 주민등록번호 등 온라인상 개인정보가 인공지능 모델 학습데이터로 사용된 것으로 확인됐다. 지난해 개인정보보호위는 챗지피티(ChatGPT) 이용자들의 개인정보를 유출하고도 국내에 신고하지 않은 오픈에이아이(OpenAI)에 대해 직권조사를 거쳐 과태료를 부과한 바 있다. 이후 생성형 인공지능의 개인정보 침해 등이 논란이 되자 개인정보보호위는 한국인터넷진흥원과 함께 오픈에이아이를 포함한 주요 인공지능 서비스 기업들을 대상으로 이번 실태점검에 나섰다.

28일 개인정보보호위는 “27일 제6회 전체회의를 열고, 대규모 언어 모델(Large Language Model·거대한 데이터를 학습해 인간의 질문에 인간의 언어로 답하는 인공지능)을 개발‧배포하거나 이를 기반으로 인공지능(AI) 서비스를 제공하는 6개 사업자에 대하여 개인정보 보호의 취약점을 보완하도록 개선권고를 의결했다”고 밝혔다. 오픈에이아이·구글·엠에스(MS)·메타·네이버·뤼튼의 인공지능 서비스가 실태점검 대상에 올랐다.

이날 개인정보보호위는 “인공지능 단계별 개인정보 보호의 취약점 점검 결과, 개인정보 처리 방침 공개, 데이터 전처리, 정보주체의 통제권 보장 등 보호법상 기본적 요건을 대체로 충족하였으나, 세부적으로 공개된 데이터에 포함된 개인정보처리, 이용자 입력 데이터 등의 처리, 개인정보 침해 예방‧대응 조치 및 투명성 등 관련하여 일부 미흡한 사항이 발견됐다”고 설명했다.

실태점검 결과, 오픈에이아이 등 6개 인공지능 서비스 기업들은 인터넷에 공개된 데이터를 수집해 자사 인공지능 모델의 학습데이터로 사용해온 것으로 드러났다. 이 과정에서 주민등록번호, 신용카드번호 등 한국 이용자들의 개인정보가 포함될 수 있는 것으로 확인됐다. 개인정보보호위는 “지난해 기준 2만999개 온라인 누리집에서 주민등록번호나 여권번호 같은 개인정보가 탐지된 바 있다”고 설명했다. 온라인상 공개된 이미지·영상 등도 인공지능 모델 학습데이터에 사용될 수 있는 것으로 파악됐다.

개인정보보호위는 “오픈에이아이, 구글, 메타는 온라인 에스엔에스(SNS) 같은 개인정보 집적 사이트를 인공지능 모델 학습에서 배제하고, 학습데이터 내 중복 및 유해 콘텐츠 제거조치와 인공지능 모델이 개인정보를 답변하지 않도록 하는 조치는 적용하고 있으나, 학습데이터에서 주민등록번호 등 주요 식별정보를 사전 제거하는 조치가 충분하지 않은 것으로 확인됐다”고 설명했다. 이번 실태점검은 6개 인공지능 서비스 기업들이 개인정보보호위에 제출한 서면 자료와 현장 방문 등을 통해 이뤄졌다.

또한 이들 기업은 자사 인공지능 서비스의 파인튜닝(특정 작업에 적합하도록 이미 훈련된 모델에 추가 학습을 수행하는 방법)을 위해 다수 인력을 투입한 뒤 서비스 이용자의 질문과 이에 대한 인공지능 모델의 답변 내용을 직접 열람·검토하고, 수정하는 방식으로 데이터셋을 만들고 있는 것으로 확인됐다. 이를 통해 기업들은 자사 인공지능 모델을 학습시키고, 프롬프트(인공지능 모델의 답변을 생성하기 위해 입력하는 텍스트) 서비스를 개선하고 있는 것으로 나타났다.

개인정보보호위는 “이용자들은 본인이 입력한 데이터를 사람이 직접 들여다보는 ‘인적 검토’(processed by human reviewer)’ 과정이 존재한다는 사실 자체를 알기 어렵다”며 “중요 개인정보 및 이메일 등 민감한 내용을 입력했는데 인공지능 서비스가 해당 정보를 데이터베이스(DB)로 활용한다면 사생활 침해로 이어질 위험이 있다”고 밝혔다.

이 밖에도 이날 개인정보보호위는 인공지능 서비스가 오픈소스(개방형) 형태로 배포되는 경우 취약점이 발견돼도 즉시 개선되기 어려운 사례와 만 14살 미만 연령 확인절차 없이 인공지능 서비스를 운영하는 사례도 발견했다고 밝혔다.

이날 개인정보보호위는 6개 전체 기업에 이용자 데이터를 사람이 검토함을 분명하게 알리고, 인공지능 서비스의 취약점 발견 시 신속 대응하는 등 개인정보 보호의 취약점을 보완할 것을 권고했다. 오픈에이아이와 구글, 메타 등에 대해선 학습데이터에서 한국 이용자의 개인정보 노출 페이지 삭제 등을 반영한 개인정보 보호조치 개선을 추가로 권고했다. 개인정보보호위의 개선 권고를 통보 받은 기업은 60일 이내에 이행 계획을 제출해야 한다.

박지영 기자 jyp@hani.co.kr

한겨레

경제

AI가 카드·여권 정보 훔쳐봤다…‘인간지능’이 답변 검토까지