[포럼] 생성형AI, 프라이버시 준수가 먼저

염흥열 개인정보보호위원회 위원

초거대 인공지능(AI) 시대가 다가왔다. 대표적으로 생성형 인공지능(generative AI)은 이용자 질의(prompt)를 받아 텍스트, 이미지 또는 콘텐츠를 산출하는 AI 기술의 일종이다.

생성형 AI는 개인용 컴퓨터의 출현과 인터넷의 시작 이후 많은 새로운 일자리를 창출하고, 작업 방식을 바꾸었으며, 창작자 경제를 촉진하는 무한 잠재력을 갖는 파괴적인 기술 혁신이 되고 있다. 이 혁신은 콘텐츠 생성을 위한 비용과 노력을 줄여서 생산성과 수익성을 향상시킬 뿐만 아니라 새로운 비즈니스 모델과 응용의 새 길을 열고 있다. 또한 생성형 AI는 우리의 일상생활과 국가·경제·사회의 모든 산업 부문에 영향을 미치고 있다. 초거대 인공지능과 챗GPT의 시작과 구글의 바드, 마이크로소프트 사의 인공지능 서비스 등의 가파른 등장이 이를 증명한다.

오픈AI는 작년 11월 인간과 유사한 대화형 '챗GPT'를 개발해 서비스 중이다. 마이크로소프트사는 오픈 AI와 협력해 지난 2월 대화형 AI를 접목한 검색엔진 '빙'을 출시한 뒤 연일 새로운 생성 AI 기반 서비스를 선보이고 있다. 구글은 챗GPT에 대항하기 위해 대화형 AI 챗봇 '바드'를 지난 5월 12일 출시했다. 생성형 AI 시장을 놓고 세계적 차원의 한판 승부가 벌어지고 있음을 알 수 있다. 국내 양대 플랫폼 기업인 네이버와 카카오도 생성 AI 기반의 기업용 AI 서비스 시장에서 상용 AI 서비스를 출시하기 위해 전력을 기울이고 있다.

생성형 AI는 이용자로부터 데이터를 입력받아 학습하는 과정과 실제 서비스를 운용하는 과정으로 구분된다. 학습 과정은 약 60%의 학습데이터로, 웹 사이트에 공개된 데이터를 이용하는 것으로 알려져 있다. 이에 따라 AI 서비스가 신뢰성을 확보하기 위해서는 기본 원칙을 적용해야 한다. 마이크로소프트사는 공정성, 신뢰성 및 안전성, 프라이버시 및 보안, 포용성, 투명성 및 책임성이라는 6대 원칙을 제시하고 있다. 유럽연합 AI 협의회에서도 윤리 원칙으로 인간 자율성의 존중, 피해의 방지, 공정성, 그리고 설명 가능성을 제시한다.

AI 시스템이 초래하는 위협은 프라이버시 위협과 보안 위협으로 구분된다. 프라이버시 위협은 AI가 개인 데이터를 정보주체 동의 없이 무단으로 사용하는 위협, 학습 데이터셋 내에 특정 정보주체 데이터가 포함되어 있는지를 확인하는 위협, 대화 응답으로 개인정보를 포함하는 결과를 산출하는 위협 등 다양한 위협을 포함한다. 보안 위협은 학습 모델을 오염시키기 위해 위조 학습 데이터를 입력하는 공격, 원하지 않은 결과를 산출하기 위한 입력을 왜곡하는 회피 공격(evasion attack), 학습 데이터를 추출하기 위한 전도 공격(inversion attack), 그리고 AI 모델의 변수를 추출하기 위한 모델 추출 공격(model extraction attack)이다.

특히 생성형 AI에서의 대표적인 프라이버시 위협은 학습 데이터에 이용자의 개인정보를 정보주체의 동의없이 학습하는 위협과, 서비스 이용 중 이용자 질문에 개인정보나 기업의 기밀정보가 포함되는 경우 이용자 개인정보 또는 회사 기밀정보가 유출될 위협이다.

우리 정부도 손 놓고 있지 않았다. 개인정보위원회는 2021년 세계 최초로 '인공지능 자율점검표'를 발표해 개인정보 처리 단계별 법령상 준수사항을 제시하였다. 또한 최근 개인정보보호법을 개정해 AI를 이용한 "자동화된 결정에 대한 정보주체 권리"를 보장하도록 했다. 그러나, 생성형 AI 시대에서 프라이버시 준수를 만족하는 안전한 AI 서비스를 제공하기 위해서는 반드시 고려해야 할 사항이 있다.

첫째, AI 학습데이터가 데이터의 당초 공개 의도를 합리적으로 만족하는 범위와 기준 마련이 필요하다. 또한 개인정보보호법에서는 통계적 목표, 과학적 연구개발, 그리고 역사보존의 목적으로 이용자의 가명정보를 처리할 때 이를 이용자 동의 없이 사용할 수 있다. 가명처리 기법을 적용한 가명 학습 데이터의 활용을 권장할 필요가 있다.

둘째, 생성형 AI 서비스의 설계 시부터 프라이버시 강화 기술의 적용이 요구된다. 개인정보를 포함하지 않은 고품질 학습용 데이터셋과 재현 데이터셋을 개발해 보급할 필요가 있다. 자율주행 자동차의 경우처럼 단말 자체에서 개인정보가 포함된 데이터를 이용하여 학습 과정의 일부를 처리하고, 중앙의 서버와 결합해 학습을 수행하는 연합 학습 방법을 적극 사용해야 한다. 또한 이를 위해 보안이 내재된 AI 서비스를 설계하고 운영해야 한다. 적대적 공격 등을 통해 AI 학습에 이용된 개인정보나 민감정보의 유·노출을 예방하기 위한 각종 보안 대책 수립이 필요하다.

셋째, 학습데이터에 포함된 개인정보의 정정과 삭제 권한을 정보주체에게 주는 기술적 수단의 마련과 동의 철회권 등을 보장하는 기술적 대책이 필요하다. 또한 수집을 근본적으로 막는 'do not crawl' 등과 같은 수집 금지 표시제의 도입이 고려되어야 하며, 데이터 삭제 권한을 보장할 수 있는 대책도 필요하다.

넷째, AI 서비스를 이용하는 기업이 상용 서비스를 제공하기 전에 자율적으로 법 준수 여부를 점검하는 생성형 AI 서비스를 고려한 AI 자율점검표를 개선할 필요가 있다. 수집에서 이용·제공·파기까지 전 생명주기 동안 위협을 식별하고, 각 위협 항목에 대한 보호 대책의 개발과 적용이 필요하다.

다섯째, AI 특화의 개인정보 영향평가 방법론, 하드웨어 기반의 개인정보 처리, 개인정보의 내용을 알지 못한 상태에서 개인정보의 처리가 가능한 동형 암호기법의 적용, 개인정보 안심구역 지정 등의 보호 조치도 필요하다.

여섯째, 프라이버시 강화 기술의 개발을 위한 AI 서비스를 위한 연구개발과 국제표준화 활동도 적극 추진되어야 한다.

생성형 AI 서비스의 도입은 프라이버시를 준수하며 AI 서비스를 개발해야 하는 우리 기업과 조직에 커다란 도전과 기회를 동시에 제공한다. 정부를 중심으로 산학연 협력체제를 구축하고 이를 통해 초거대 AI 시대에 세계적 수준의 개인정보 보호 대응 역량을 확충하여 개인정보 신뢰 사회를 구축해야 한다.

디지털타임스

사설칼럼

[포럼] 생성형AI, 프라이버시 준수가 먼저