[인공지능의 두 얼굴] 어떻게 빨려들어갈지 모르는 민감정보 '블랙홀' 챗GPT 규제책은

금준경, 박서연 기자 2023. 7. 15. 18:05
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[인공지능의 두 얼굴(17)]
개발 및 이용 과정에서 이용자 정보 대량 학습·유출 문제
챗GPT 우려된다며 '중단'시킨 이탈리아·규제법안 마련한 EU
한국은 기업중심 '선허용 후규제' 논의

[미디어오늘 금준경, 박서연 기자]

챗GPT 개발사인 오픈AI에 '소장'이 쌓이고 있다. 잇따른 저작권 침해 소송에 이어 프라이버시 침해에 따른 집단 소송까지 제기됐다. 대규모 언어모델 학습 과정에서 어떤 정보를 가져가는지 알지 못하는 상황에서 프라이버시 침해 우려는 커지고 있다.

학습 과정에 무엇을 가져가는지 '불투명'

지난달 28일(현지시간) 블룸버그에 따르면 이날 미국 캘리포니아 북부연방법원에 익명의 개인으로 구성된 단체가 챗GPT 개발사인 오픈AI와 오픈AI에 투자한 마이크로소프트를 상대로 집단 소송을 제기했다.

이번 소송은 인공지능 학습 데이터를 대상으로 했다는 점에서 과거 제기된 소송과 유사하지만 '프라이버시 침해 대응'이라는 측면에서 차이가 있다. 소송을 제기한 단체는 “오픈AI가 약 300억 개의 단어를 무단으로 긁어모았다. 동의 없이 얻은 개인정보를 포함한 웹사이트 게시물 등을 도용해 개인정보보호법을 위반했다”고 주장했다. 이들은 잠재적 손해배상액을 30억 달러(약 3조9000억원)로 추산했다.

▲ 챗GPT, 오픈AI 관련 이미지. ⓒUnsplash

챗GPT를 비롯한 거대언어모델 개발 과정에는 많은 정보가 입력된다. 책과 언론 기사를 포함해 온라인 공간 속 소셜미디어와 커뮤니티 게시글 상당수가 학습된 것으로 추정된다. 이 과정에서 개인정보가 섞여 들어갈 수 있고, 유출될 위험성이 있다. 오픈AI가 2020년 발표한 자료에 따르면 GPT-3 버전 기준 학습한 데이터 60% 가량이 온라인에서 긁은 데이터였다. 당시 발표에 따르면 미국 최대 커뮤니티 사이트인 레딧의 게시물을 학습한 사실이 언급돼 있다. 최근 오픈AI는 GPT가 현재 어떤 정보를 학습했는지 밝히지 않고 있다.

서비스 성격은 다르지만 국내에서 서비스된 챗봇 '이루다'가 연애상담앱 이용자의 카카오톡 대화 내용을 그대로 학습한 뒤 대화 과정에서 개인정보가 드러나 논란이 된 사례도 있다.

이용 과정에서 민감정보 스스로 입력할 수도

쳇GPT 열풍이 불고 구글이 대항마인 바드를 내놓으면서 챗봇 형태의 생성형 인공지능과 대화에 나서는 사람들이 늘고 있다. 문제는 이 과정에서 개인의 민감한 정보도 입력할 수 있다는 점이다.

개인 이용자 입장에선 개인정보는 물론 성적 지향이나 건강 상태와 같은 민감 정보를 입력할 수 있다. 챗GPT에게 답을 끌어내는 과정에서 자신에 관한 정보를 제공하면서 자신도 모르는 사이에 많은 정보를 입력하는 것이다. 이렇게 입력된 정보가 서버에 저장돼 유출될 가능성을 배제하기 어렵다. 국회 입법조사처가 지난 3월 발표한 '챗GPT의 등장과 인공지능 분야의 과제' 보고서는 “생성형 인공지능을 이용하는 과정에서 무분별하게 본인 또는 주변인의 개인정보, 기업기관의 비밀 등을 입력하지 않아야 한다”며 “입력한 정보는 어떠한 형태로든 기록에 남고 재생산될 수 있기 때문”이라고 했다.

▲ 일러스트= 권범철 만평작가.

특히 공공기관이나 기업 입장에선 보안 우려가 크다. 예를 들어 보험회사에서 업무에 챗GPT를 활용하면서 고객의 소득과 건강 정보를 입력하거나, 공공기관에서 주민들의 인적 사항이 포함된 정보를 입력할 수 있다.

지난달 15일(현지시간) 로이터통신에 따르면 바드 서비스를 운영하고 있는 구글이 자사 직원들에게 바드를 포함한 인공지능 챗봇에 기밀정보를 입력하지 말라고 공지했다. 미국의 JP모건체이스, 골드만삭스, 뱅크오브아메리카, 도이치뱅크, 일본의 소프트뱅크 등도 챗GPT 등 대화형 인공지능 사용을 금지하거나 제한적으로 활용하게 하고 있다.

국내 기업도 대응에 나섰다. 삼성전자는 지난 4월 DX부문 임직원들에게 “사내 PC를 통한 생성·대화형 AI 사용을 일시적으로 제한한다”며 “회사 밖에서 생성·대화형 AI를 사용할 때 회사 정보와 개인정보 등은 입력하지 말아달라”고 공지했다. 앞서 삼성전자 반도체 부문에서 챗GPT 사용을 허가한 뒤 정보 유출 문제가 나타났다. 한 직원은 프로그램 오류를 확인하기 위해 프로그램 소스코드를 챗GPT 입력창에 입력했고, 다른 직원은 회의 내용 정리를 위해 챗GPT에 회의 녹음자료를 보냈다.

이탈리아 '중단' 조치… 미국도 '규제' 논의

챗GPT의 놀라운 기능이 사회적으로 주목을 받던 때인 지난 3월 이탈리아 데이터보호청은 돌연 챗GPT의 접속 일시 차단을 결정한다. 이 기구는 “챗GPT가 이탈리아의 개인정보 보호 기준과 규정을 충족할 때까지 접속을 일시적으로 차단할 것”이라며 “사용자 접속을 차단하지 않을 경우엔 벌금을 부과하겠다”고 밝혔다. 이탈리아 데이터보호청은 오픈AI가 데이터를 저장하고 훈련하는 과정에서 이용자 개인정보 유출 우려가 있다고 판단했다.

챗GPT는 한 달 후 서비스를 재개하게 된다. 챗GPT는 △인공지능 모델 교육에 대한 사용자 데이터 활용 방법과 데이터 활용을 거부할 권리가 있음을 공지 △유럽 사용자에 대한 데이터 보호 문제를 담당하는 회사를 지정하고 자신의 개인 데이터 활용을 거부하는 양식 게시 △이탈리아 이용자에 연령 확인 및 보호자 서비스 활용 동의를 요청하는 팝업 게시 등 조치를 취했다. 데이터보호청은 “오픈AI가 이행한 노력을 환영한다”면서도 이후 개인정보와 관련한 조사는 이어가겠다고 밝혔다.

이탈리아발 서비스 중단은 다른 유럽 국가들에게도 영향을 미쳤다. 와이어드 보도에 따르면 토비아스 주딘 노르웨이 데이터 보호 당국 국제부문 책임자는 “인터넷 이용자들이 인터넷에서 찾을 수 있는 모든 정보를 긁어모으기만 하는 것이 오픈AI의 사업 모델이라면 심각한 문제가 있을 수 있다”고 했다.

▲ 사진=GettyImagesBank

구글이 챗GPT의 대항마로 내놓은 바드 서비스는 아일랜드에서 제동이 걸리기도 했다. 아일랜드 데이터보호위원회는 구글이 개인정보 보호 방안에 대한 영향평가 내용 등 유럽 시민들에게 충분한 정보를 제공하지 않았다며 출시를 보류했다. 구글은 아일랜드에 유럽지사를 두고 있어 EU 사업 승인은 아일랜드 관할이다.

지난달 14일 유럽의회의 인공지능법 의결은 인공지능 규제에 상징적 사건이다. 인공지능 기술 발전에 따라 이를 적극 규제하고 규율하는 성격의 법안이다. 이날 통과된 법안은 EU집행위원회와 의회, 회원국의 3자 협상을 거쳐 연내 제정될 전망이다.

법안은 인공지능 서비스를 '수용 불가능한 위험', '고위험', '제한된 위험', '최소 위험' 등 4가지로 분류해 차등 적용한다. 가장 심각한 '수용불가능한 위험군'은 공공장소에서 안면인식기술을 활용한 실시간 행태정보 수집이나 장애인 등의 취약점을 이용하는 인공지능 등으로 '금지'한다. 차량, 승강기, 의료기기, 장난감 등에 사용되는 인공지능은 고위험군으로 분류해 투명성을 확보하게 하고 규제기관이 사후에 개입할 수 있도록 했다. 업체가 의무 이행을 거부하는 경우 전세계 연 매출액의 4~6%의 과징금을 매기도록 한 점도 특징이다.

이와 관련 국회 입법조사처 사회문화조사실 과학방송통신팀은 '이슈와 논점' 보고서를 통해 “EU AI법은 사람의 안전, 생계, 권리에 명백한 위협으로 간주되는 인공지능 시스템은 금지하고 고위험에 해당하는 인공지능 시스템에는 위험관리 시스템 운영, 위험과 차별 결과를 최소화하는 데이터 마련, 결과의 추적성을 보장하기 위한 자동로그생성, 위험에 대한 정보 제공, 기본권 영향평가 등의 의무를 부여함으로써 FATE를 구체화하고 있다”고 설명했다.

미국도 인공지능 위험성에 관한 규제를 논의하고 있다. 지난 4월 상무부 산하 국가통신정보청은 인공지능의 안전한 사용 및 신뢰 환경을 구축하기 위한 인공지능 규제안 논의를 시작했다. 조 바이든 미 대통령은 지난 4월4일(현지시간) “테크 기업들은 제품을 대중에 공개하기 전에 안전하게 만들 책임이 있다”고 밝히기도 했다. 지난 5월16일(현지시간) 미국 역사상 처음으로 의회에서 인공지능 청문회가 열렸다. 이날 청문회엔 샘 올트먼 오픈AI 최고경영자가 증인으로 출석했다. 미 연방 차원의 알고리즘 책무성 법안에는 민주당과 공화당 간의 초당적 논의가 이뤄지고 있다.

한국은? '4차산업혁명' 구호 이후 규제완화 일변도

반면 한국에선 규제 중심의 논의보다는 '산업적 활용'에 무게를 두고 있다. 지난 3월 국회 과학기술정보방송통신위원회 법안심사소위원회는 인공지능 산업에 '우선 허용' 후 '사후 규제'를 하는 인공지능 법안을 의결했다. 국회 관계자에 따르면 IT기업들은 구글과 오픈AI 등 해외 사업자와 경쟁에 인공지능 및 개인정보 관련 규제가 걸림돌이 될 수 있다며 관련 규제완화를 촉구하고 있다.

그러나 시민사회는 세계적으로 규제 논의가 이뤄지는 가운데 한국에선 위험성에 대한 논의가 뒷전에 밀린다고 지적했다. 진보네트워크센터, 보건의료단체연합, 참여연대 등은 법안 반대의견서를 제출하고 규탄 기자회견을 열었다. 김선휴 참여연대 공익법센터 운영위원은 '우선 허용' 조항을 가리켜 “독소조항”이라며 “생명안전권익에 위해가 발생한 이후에야 규제할 수 있도록 한다. 안전과 인권에 치명적인 영향을 미칠 수 있는 인공지능도 우선 허용되어야 하는가”라고 지적했다.

4차산업혁명에 대응한다는 목적으로 국회를 통과한 '데이터 3법' 등 규제완화 법안으로 인한 문제가 인공지능 시대에 잠복한 문제도 있다. 2020년 국회는 '가명정보'라는 개념을 만들어 개인의 신상을 드러나지 않게 가명처리를 한 정보는 개인정보보호법의 예외로 둬 당사자 동의를 받지 않아도 활용할 수 있게 했다. 그러나 문제는 가명정보끼리 결합할 경우 개인정보가 드러날 수 있고, 이용 범위를 공익 목적의 연구나 통계작성이 아닌 기업의 산업적 연구까지 포함해 기업의 이익을 위해 사용할 수 있게 됐고, 기업이 가명정보를 보관하는 기한 등 규정을 세세하게 마련하지 않았다는 점에서 시민사회단체들이 문제를 제기해오고 있다.

장여경 정보인권연구소 상임이사는 “개인정보보호법은 '과학적 연구' 목적으로 가명처리된 데이터를 사용할 수 있게 했다. 문제는 기업은 자사 제품 개발을 위한 인공지능 학습을 '과학적 연구'라고 광범위하게 해석한다. 기업에서 특정 제품 개발을 위해 고객 데이터를 막 가져다 쓰겠다는 것”며 “가명처리를 하면 개인정보가 아닌 것으로 해석돼 '내 정보를 안 쓰면 좋겠다'는 권리행사 자체를 할 수 없게 된다. 이 문제가 해결이 안 된 채로 잠복해 있다”고 지적했다.

[미디어오늘 바로가기][미디어오늘 페이스북]
미디어오늘을 지지·격려하는 [가장 확실한 방법]

Copyright © 미디어오늘. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?