'이루다' 사건이 증명한 '데이터 리터러시'의 중요성

한겨레 입력 2021. 1. 26. 16:36 수정 2021. 1. 26. 19:06
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

'데이터 리터러시라고요? 미디어 리터러시까지는 들어봤는데.'

최근 '카카오맵'과 인공지능 챗봇 '이루다'의 개인정보 유출 사건 때문이다.

이 사건은 개인정보나 데이터를 다루는 각종 기술이 얼마나 허술하게 프라이버시 침해를 초래하는지 보여줌과 동시에 내가 생산하는 정보가 어디서 어떻게 활용되는지 알아야 하는 데이터 리터러시의 중요성을 일깨워준다.

일견 그럴듯하지만, 개인정보 '비식별' 처리가 얼마나 어이없게 무너지는지 보여주는 사례가 '이루다' 사건이다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[미디어 전망대][한선의 미디어전망대]

‘데이터 리터러시라고요? 미디어 리터러시까지는 들어봤는데….’

지난번 ‘미디어전망대’에 실린 글을 본 지인의 반응. 새로운 용어에 익숙해지기 전에 또 다른 개념이 쏟아지는 상황을 고려하더라도 낭패였다. 기회가 되면 좀 더 쉽고 친절하게 사안의 중요성을 공유해야겠다고 마음먹었는데 생각보다 기회가 빨리 왔다.

최근 ‘카카오맵’과 인공지능 챗봇 ‘이루다’의 개인정보 유출 사건 때문이다. 카카오맵 사건은 맛집 정보를 즐겨찾기에 넣기 위해 폴더 이름을 작성할 때, 자판 화면이 ‘정보공개 여부 결정 메뉴’를 가려버린 것이 발단이다. 물론 더 큰 문제는 그런 메뉴가 있는지조차 몰랐던 이용자가 아무런 선택을 하지 않았을 경우, 기본값이 ‘공개’로 설정된다는 점이다. 그로 인해 맛집 정보를 즐겨찾기에 넣었을 뿐인데 자신도 모르는 사이 스스로 내밀한 정보를 만천하에 공개하는 결과가 초래됐다.

이 사건은 개인정보나 데이터를 다루는 각종 기술이 얼마나 허술하게 프라이버시 침해를 초래하는지 보여줌과 동시에 내가 생산하는 정보가 어디서 어떻게 활용되는지 알아야 하는 데이터 리터러시의 중요성을 일깨워준다.

사람들은 자신의 정보를 아이티(IT) 기업에 제공하는 것에 거부감이 크지 않다. 해당 기업이 제공하는 편의성을 누리기 위한 불가피한 대가 정도로 여기기 때문이다. 혹시 어떤 누리집에 회원 가입하면서 정보공개 여부에 ‘동의하지 않는다’ 메뉴를 선택해본 적이 있는가? 회원가입 절차는 더 이상 진행되지 않는다. 이럴 거면 무엇 때문에 동의, 비동의 칸을 따로 두었을까? 혹시라도 생길 법적 책임에서 벗어나려는 꼼수임이 틀림없다. 정보공개 범위 여부를 결정할 때 귀찮아서 전체 동의를 선택한 적이 있는가? 제3자에게 제공된 내 정보는 과장을 좀 보태면 중국 양자강 뱃사공도 알고 있다고 생각하면 된다.

그러나 가시적인 사건이 터지기 전까지 우리는 이런 생각을 별로 하지 않는다.

한편으로 이용자가 원하지 않을 경우 개인정보를 공개하지 않는다는 기업의 약속을 믿기 때문이다. 또 비즈니스를 위해 데이터를 활용한다 할지라도 개인정보는 ‘비식별’ 처리돼 정보 유출이 발생할 수 없다는 테크놀로지 기술을 믿기 때문이다. 비식별 처리란 말 그대로 누군가의 정보를 활용하되, 그 정보가 누구의 것인지 알 수 없게 만든 상태를 가리킨다.

일견 그럴듯하지만, 개인정보 ‘비식별’ 처리가 얼마나 어이없게 무너지는지 보여주는 사례가 ‘이루다’ 사건이다. 이 사건은 여성혐오와 차별 문제로 널리 알려졌지만 그에 못지않게 정보 유출의 심각성을 보여준다. 이루다는 챗봇 기술 개발을 위해 100억건에 이르는 카카오톡 대화 메시지를 비식별 처리해 활용한 것으로 알려졌다. 인공지능 개발을 위해서는 훈련과정이 필요하고 학습을 위해서는 데이터를 입력해주어야 한다. 이른바 디지털 라벨링 작업. 가령 ‘오늘 점심 뭐 먹을까’를 물었을 때 적당한 답을 내놓으려면 실제 대화 내용을 학습하는 과정을 거쳐야 하고 이를 위해 누군가의 메시지 내용을 뽑아 사용한다. 이때 대화가 누구의 것인지 모르게 하는 것이 비식별 처리 과정이다. 그러나 이루다는 특정 개인의 주소, 계좌번호, 심지어 실명까지 여과 없이 노출했다. 인공지능 기술은 프라이버시 침해라는 어두운 그림자와 암수한몸이라는 우려가 나올 만한 상황이다.

따라서 우리는 더 늦기 전에 우리의 정보가 어디서 어떻게 활용되는지 밝히라고 기업과 사회에 요구해야 한다. 데이터 리터러시를 길러야 함은 물론이다.

한선 ㅣ 호남대 신문방송학과 교수

ⓒ 한겨레신문사, 무단전재 및 재배포 금지

이 기사에 대해 어떻게 생각하시나요?
타임톡beta

이 뉴스에 대해 의견을 나눠보세요.
톡방 종료까지 00:00:00 남았습니다.

타임톡 참여하기