AI챗봇 '이루다' 개발사, 실명 포함 카톡 1700건 온라인 공유

백지수 기자 입력 2021. 1. 13. 18:46 수정 2021. 1. 13. 18:50
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

개인정보 유출 논란에 휩싸인 AI(인공지능) 챗봇 '이루다' 개발사 스타트업 스캐터랩이 개인의 실명 등에 대해 비식별화 조치를 하지 않은 카카오톡(카톡) 대화 데이터 약 1700건을 개발자 오픈소스 플랫폼에 올려 논란이다.

스캐터랩은 앞서 수집한 카톡 데이터를 AI 개발에 활용할 당시 원본 데이터에서 개인을 알아보지 못하도록 비식별화 조치를 거쳤고 원본 데이터에는 정해진 인물만 접근할 수 있다고 해명한 바 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 챗봇 이루다 이미지 /사진=스캐터랩

개인정보 유출 논란에 휩싸인 AI(인공지능) 챗봇 '이루다' 개발사 스타트업 스캐터랩이 개인의 실명 등에 대해 비식별화 조치를 하지 않은 카카오톡(카톡) 대화 데이터 약 1700건을 개발자 오픈소스 플랫폼에 올려 논란이다.

스캐터랩은 앞서 수집한 카톡 데이터를 AI 개발에 활용할 당시 원본 데이터에서 개인을 알아보지 못하도록 비식별화 조치를 거쳤고 원본 데이터에는 정해진 인물만 접근할 수 있다고 해명한 바 있다.

13일 업계에 따르면 스캐터랩은 2019년 10월부터 개발자 오픈소스 플랫폼 '깃허브(GitHub)'에 자사가 구현한 '문장 생성 모듈' 프로젝트 데이터셋(data set)을 공개했다.

깃허브는 IT 개발자들이 컴퓨터 프로그램 소스코드와 개발 과정 등을 공유하는 소통 공간이다. 개발자들이 최신 기술이나 미흡한 소스코드에 대해 의견을 나누고 함께 기술을 개발하려는 목적으로 이용되고 있다.

스캐터랩은 데이터셋 설명에 "한국어의 경우 '연애의 과학'에서 추출된 대화 데이터를 활용했다"고 적시했다. 스캐터랩은 앞서 카톡 대화 텍스트 데이터 기반 연애 심리 분석 모바일앱 '연애의 과학'을 통해 수집된 카톡 대화 데이터를 AI 이루다의 중추 알고리즘을 개발하는 데 사용했다고 밝힌 바 있다.

스캐터랩이 깃허브에 공개한 데이터셋에는 약 1700줄의 텍스트가 담긴 100여건의 일대 일 대화 묶음이 담겼다. 이중에는 실명이 필터링되지 않은 대화 내용 20여건이 포함됐다. 대화 참여자들의 직업이나 행동반경, 관계성, 기저 질환 등 건강 정보를 유추할 수 있는 대화 내용도 포함돼 있었다.

스캐터랩이 지난해 오픈소스 플랫폼 '깃허브'에 공개한 '문장 생성 모듈' 프로젝트 데이터셋의 설명.


이 데이터셋은 이날 오전 한 개발자가 페이스북 텐서플로우 커뮤니티에 관련 사실을 폭로하면서 알려졌다. 이 개발자는 폭로 후 15분 만에 글을 삭제했다. 이 개발자는 "모두가 접근할 수 있는 곳에 고객의 사적 대화 100건을 올리는 것은 문제의 소지가 있는 듯하다"며 "비식별화도 제대로 이뤄지지 않았다"고 지적했다.

논란이 되자 스캐터랩은 현재 깃허브에서 이 게시물을 삭제했다. 스캐터랩은 전날 언론에 개인정보 유출과 관련해 "개별 문장 필터링 조치에도 문맥에 따라 인물의 이름이 남아있다거나 하는 부분이 발생한 점에 사과드린다"고 밝혔다.

[관련기사]☞ 정인이 양모, 아버지가 목사인 교회서 아이들 가르쳤다"야구하길래 주택인 줄" 이휘재·문정원 집 층간소음 논란어린이집 학대 의심, 아들 옷 속에 녹음기 넣어 보냈더니"나 16살, 너의 벗은 몸 보여줘"…딸 사진으로 유혹한 엄마145억 사라진 카지노, 다른 금고서 81억원…무슨돈?
백지수 기자 100jsb@mt.co.kr

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>

저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이

이 기사에 대해 어떻게 생각하시나요?