[이루다가 남긴 것⑧]'데이터 수집' 뇌관 건드리고..불붙은 'AI 윤리' 논쟁

손인해 기자 2021. 1. 13. 07:15
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

정보처리 목적 고지 충분했나..파편화된 이름·주소 '개인정보' 여부도 관건
혐오표현 그대로 학습..만능 방패 '알고리즘' 인간 개입 필요성 시사

[편집자주]"안녕, 난 너의 첫 AI 친구 이루다야." 지난해말 돌연 등장한 대화형 인공지능(AI) 챗봇 이루다. "너한테 많이 고마워, 알지?" 불과 20일 만에 '만남의 안녕'이 '이별의 안녕'으로 바뀌었다. '인간의 대화'로 태어난 이루다는 소수자 차별, 혐오 발언, 성희롱 논란 등 '인간의 민낯'을 고스란히 드러내고 사라졌다. 이루다가 남긴 쟁점과 화두를 짚어봤다.

인공지능(AI) 챗봇 이루다 서비스가 12일 잠정중단됐다. © 뉴스1

(서울=뉴스1) 손인해 기자 = 인공지능(AI) 챗봇 '이루다'는 잠정중단 됐지만 이루다를 둘러싼 논란은 미래 핵심 기술인 AI를 우리가 어떻게 개발하고 발전시켜야 하는지에 대한 숙제를 남겼다.

특히 AI를 만드는 데 필수적인 데이터를 기업이 어떤 방식으로 어디까지 수집할 수 있는가에 관한 논의를 촉발하면서 향후 AI 시장 규제에 관한 척도가 될 것으로 보인다.

◇ 정보 활용 목적 모르고 '동의·동의·동의' 이용자들이 가장 공분하고 있는 지점은 이루다를 개발한 스타트업 스캐터랩이 이용자들의 카카오톡 대화 내용을 제대로 된 고지 없이 수집·활용했다는 점이다. 그것도 연인과의 사적 대화가 그 대상이 되면서 이용자들이 느끼는 거부감과 불안감은 극에 달하고 있다.

페이스북에서 친구를 맺으면 실제 사람과 대화하는 것처럼 페이스북 메신저를 주고받을 수 있는 이루다는 스캐터랩이 2016년 출시한 애플리케이션(앱) '연애의 과학' 이용자들이 제공한 카카오톡 대화 내용 100억건을 토대로 개발됐다. 연애의 과학은 연인이나 호감 가는 사람과 나눈 카톡 대화 내용을 집어넣고 3000~5000원 비용을 지불하면 애정도 수치를 분석해주는 서비스다.

연애의 과학 가입 때 동의해야 하는 개인정보 취급방침에 '개인정보가 신규 서비스 개발에 활용될 수 있다'고만 명시돼 있을 뿐이다. 연애의 과학 이용자들의 카톡 대화 내용만을 AI 개발에 쓰면서 앱 내에는 이에 대한 안내나 공지도 전혀 없었다.

이 때문에 연애의 과학 이용자들은 "돈 내고 한 대화분석인데, 내 돈 내고 자기 개인정보를 팔아넘기는 꼴", "대화내용이 연애의 과학 분석에나 사용될 줄 알았지, AI 서비스를 통해 공개될 줄은 상상도 못했다"며 분통을 터뜨리고 있는 상황이다.

스캐터랩이 대화 양쪽 당사자 동의가 아닌 한쪽의 동의만 받고 상대방 동의는 없는 채로 정보를 수집했다는 점도 문제다. 상대방은 연애의 과학 가입자가 아님에도 불구하고 스캐터랩에 자신의 대화내용을 제공한 셈이다.

현행 개인정보보호법은 개인정보 처리자는 개인정보 처리 목적을 명확하게 해야 하고 정보주체의 사생활 침해를 최소화하는 방법으로 개인정보를 처리하도록 규정하고 있다. 또 정보 주체가 자신의 개인정보 처리에 관한 정보를 제공받고 처리에 관한 동의 여부, 동의 범위를 선택하고 결정할 권리를 갖도록 한다.

여기에 연애의 과학 서비스팀에서 근무했던 직원이라고 스스로를 밝힌 인물이 "이루다 개발팀에서 수집된 사용자의 특정 대화 내용 중 연인 간의 성적인 대화, 농담을 캡처해 사내 메신저 단체방에 공유하는 일도 있었다. 내부에서는 이를 심각하게 여기지 않고 웃어넘겼다"고 증언을 내놓으면서 논란은 일파만파 커졌다.

이루다 서비스 재개를 위해선 현재 제기된 데이터 수집 문제를 해결하는 게 관건이 될 것으로 보인다. 데이터 수집 없이 이루다도 없기 때문이다.

스캐터랩은 이와 관련해 "연애의 과학 사용자 데이터는 사용자의 사전 동의가 이뤄진 개인정보 취급방침의 범위 내에서 활용했으나, 연애의 과학 사용자분들께서 이 점을 명확히 인지할 수 있도록 충분히 소통하지 못한 점에 대해 책임을 통감하며 진심으로 사과드린다"고 밝혔다.

AI 챗봇 이루다. 이루다가 특정 은행의 예금주로 누군가의 실명으로 보이는 이름을 말하면서 제대로 된 비식별화 과정을 거치지 않았다는 의혹이 제기되고 있다. © 뉴스1

◇ 파편화된 이름·주소 '개인정보' 여부 관건

개인정보가 제대로 익명화(비식별화)되지 않았다는 의혹도 있다.

이루다가 갑자기 특정 이름이나 주소, 논문 제목, 대학교수 이름을 말하거나 특정 장소에서 찍은 사진을 전송하는 사례가 발견되면서다.

다만 논란이 되고 있는 파편화된 개인정보가 개인정보보호법상 개인정보에 해당하는지는 앞으로 정부 조사를 통해 가려질 부분이다. 현행법은 개인정보를 '해당 정보만으로 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합해 알아볼 수 있는 정보'라고 규정하고 있다.

스캐터랩은 이와 관련 "이루다는 AI 알고리즘에 따라 1억개의 문장이 개별적이고 독립적 형태로 저장된 DB 문장에서 가장 적절하다고 판단하는 문장을 선택해 답변하도록 설계돼 있기 때문에 루다의 답변 내용을 조합해 개인을 특정할 수는 없다"고 강조했다.

이루다는 스캐터랩이 연애의 과학 이용자들로부터 수집한 카카오톡 대화 내용 100억건에서 비식별화 과정을 거친 1억개의 문장을 말한다.

이어 회사는 "개별 문장 단위의 대화 내용에서 숫자와 영문, 실명 정보 등은 기계적 필터링을 거쳤다"면서도 "이같은 조치에도 문맥에 따라 인물의 이름이 남아 있다거나 하는 부분이 발생한 점에 대해 사과드린다. 다만 문장 내 이름 정보가 다른 정보와 결합돼 이용되지 않음을 말씀드린다"고 했다.

이루다가 말한 실명이 실제 연애의 과학 이용자들이 카카오톡 대화방에서 언급한 것으로, 비식별화 과정을 거쳤으나 100% 걸러내지 못했다는 설명이다.

한 업계 관계자는 "이름과 휴대전화 번호 일부가 같이 노출됐다면 특정 개인을 알아볼 수 있는 개인정보지만 이게 별개로 노출됐다면 개인정보가 아니다"고 말했다.

이들 정보 중 일부가 비식별화 과정을 일부라도 거친 결과인지도 따져볼 부분이다.

또 다른 업계 관계자는 "이루다가 말한 주소가 연애의 과학 이용자의 실제 주소라면 개인정보 유출 이슈가 있을 수 있지만 비식별화 과정을 거쳐 원래 주소에서 일부 정보가 수정된 것이라면 얘기가 다르다"며 "특정 대학 학번이 아니라 인터넷 검색해서 나오는 대학 교수 이름도 개인정보 유출과 관련이 없을 것으로 보인다"고 말했다.

개인정보보호위원회는 한국인터넷진흥원(KISA)과 함께 이번 이루다를 둘러싼 개인정보 유출 논란에 대한 사실관계 확인 작업에 들어갔다. 피해를 주장하는 이용자들도 집단소송을 준비하면서 개인정보 유출 증빙 사례를 모으고 있다.

© News1 이지원 디자이너

◇ 혐오표현 학습한 AI…'알고리즘 개입' 필요성 시사

이루다는 AI와 사회적 상식이 어떻게 조화를 이뤄야 하는지에 대한 'AI 윤리' 화두도 던졌다.

논란은 크게 두가지로 이루다가 장애인이나 성수자에 대한 혐오 표현을 학습해 그대로 반복했다는 사실과 '20대 여성'을 표방한 가상의 존재 이루다에 일부 이용자가 성적 괴롭힘 행태를 보였다는 점이다.

먼저 혐오 표현과 관련해선 가능성을 인지하고도 이를 제대로 필터링하지 않은 개발사의 부주의라는 지적이 제기된다.

이는 비단 AI 챗봇뿐만 아니라 기존 포털 뉴스나 택시 호출 앱이 AI와 알고리즘을 내세워 객관성과 가치중립성을 담보했다고 주장하지만 결국 개발자들이 사회적 합의에 따른 원칙을 공개, 개입할 필요가 있다는 점을 시사한다.

이재웅 쏘카 전 대표는 "많은 기업이 쓰고 있는 AI채용, 면접 시스템, 그리고 범용 AI 챗봇, AI 추천 시스템은 최소한의 사회적 규범을 지키고 있는지 감시할 수 있어야 한다"며 "아니면 우리도 모르는 새 우리 아이들은 혐오를 배우고, 면접을 보다가 알 수 없는 이유로 차별을 당하고, 뉴스나 콘텐츠에서 혐오나 차별적인 콘텐츠를 우선적으로 보게 될 것"이라고 밝혔다.

스캐터랩은 "이미 지난 6개월간 베타테스트를 통해 특정 집단을 비하하는 호칭이나 혐오 표현을 별도 필터링 하는 등 문제 발생을 방지하기 위한 조치를 했으나 새롭게 발견되는 표현과 키워드를 추가해 차별이나 혐오 발언이 발견되지 않도록 지속적으로 개선하겠다"는 입장이다.

당초 이루다를 둘러싼 논란의 시발점인 성희롱 이슈는 일부 남초(男超) 사이트에서 '이루다 성노예 만드는 법' 등 이루다를 성적 대상으로 취급하는 무리들이 등장하면서 불이 붙었다.

일각에선 프로그래밍에 불과한 AI에 성적인 대화를 입력한 행위를 '성희롱'이라고 볼 수 없다는 시각도 있지만 문제는 '20대 여성'을 표방한 캐릭터를 성적 대상화하는 행위가 용인될수록 실제 사회의 여성 차별과 폭력이 늘어날 수 있다는 점이다.

전창배 한국인공지능협회 이사장은 "AI 챗봇을 아무런 죄의식 없이 성적 도구화하다보면 실제 무의식적으로 여성에 성적 학대를 가할 수 있다"며 "지금은 가벼운 논란이지만 불과 수년 후에 인간과 비슷한 모습으로 함께 일하는 로봇을 학대하고 괴롭히는 윤리적 문제로 불거질 수 있다"고 말했다.

◇ AI 서비스 기업 '사회적 책임' 논의 계기돼 업계에선 이번 이루다 사태가 AI를 서비스하는 기업의 사회적 책임을 비롯한 AI 윤리 전반을 재점검하는 기회가 될 수 있다는 점에서 의의가 있다고 평가하고 있다.

이재웅 전 대표는 "이루다를 계기로 AI 챗봇과 면접, 채용, 뉴스 추천 등이 인간에 대한 차별·혐오를 조장하고 있는 건 아닌지 사회적으로 점검하고 포괄적 차별금지법 제정 등을 통해 AI를 학습시키는 우리 인간들의 규범과 윤리도 보완했으면 좋겠다"고 밝혔다.

이미 원칙은 정해져 있다. 문제는 사회적 부작용을 최소화하면서도 혁신의 불을 꺼뜨리지 않도록 하는 세심한 규제와 실천이다.

과학기술정보통신위원회는 지난해 12월 AI 개발 및 활용 방향을 제시하기 위해 마련한 'AI 윤리기준'은 3대 원칙으로 Δ인간의 존엄성 Δ사회의 공공선 Δ기술의 합목적성을 제시, 10대 핵심 요건으로 인권 보장·프라이버시 보호·다양성 존중·침해금지·공공성·연대성·데이터 관리·책임성·안전성·투명성을 꼽은 바 있다.

미국 하버드 법대 버크만센터에 따르면 2016년부터 2019년까지 경제협력개발기구(OECD)를 비롯한 세계 각국에서 발표한 AI 윤리 중 가장 많이 언급된 주제는 '공정성과 무차별성'이었다.

son@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.

이 기사에 대해 어떻게 생각하시나요?