AI봇 이루다 개발사 "사람 실명 언급은 필터링 부족"

"타 서비스 정보 활용은 방침 준수" 주장

(지디넷코리아=김민선 기자)인공지능(AI) 챗봇 ‘이루다’ 개발사 스캐터랩이 또 다른 서비스 ‘연애의 과학’에서 수집한 연인간 카카오톡 대화를 챗봇 개발에 활용한 것은 개인정보취급방침 범위 내에서 이뤄진 것이라 주장했다.

또한 카카오톡 대화를 재료로 사용하면서 주소, 계좌번호, 전화번호, 실명 등을 삭제하고 개별적인 문장 형태로 만드는데, 그 과정에서 필터링이 제대로 되지 않아 인물 이름, 주소 등이 남아있을 수 있는 점에 대해 사과했다.

이번 논란에 개인정보보호위원회도 스캐터랩 개인정보 유출 진상 파악을 위해 조사에 착수했다.

스캐터랩은 12일 질의응답 이메일을 통해 개인정보보호방침 준수 여부에 대한 입장 및 성희롱 발언에 대한 보완 계획 등에 대해 공개했다.

회사는 “연애의 과학 사용자 데이터는 사용자의 사전 동의가 이루어진 개인정보취급방침의 범위 내에서 활용했다”며 “연애의 과학 사용자분들 중 AI 학습에 데이터가 활용되기 원치 않으시는 분들은 DB 삭제와 함께 앞으로 이루다의 DB에 활용되지 않도록 추가 조치를 진행할 예정입”이라고 밝혔다.

아울러 주소 등 개인정보 노출에 대해서는 “1억 건의 개별 문장을 사람이 일일이 검수하기는 어렵기 때문에 알고리즘을 통한 기계적인 필터링을 거쳤고, 이 과정에서 되도록 많은 변수를 주려고 노력했으나 문맥에 따라 인물의 이름이 남아 있다거나 하는 부분들이 발생했다”며 “해당 사항에 대해 더욱 세심히 주의를 기울이지 못하고, 인물 이름이 등장하게 된 점 사과를 드리고 다만, 문장 내의 이름 정보가 다른 정보가 결합돼 이용되지 않음을 말씀드린다”고 설명했다.

스캐터랩은 구체적인 이름, 주소 등 필터링 미진을 보완하기 위해 관련 알고리즘을 고도화 할 계획이다. 회사는 분기별로 이루다 재학습을 실시할 예정이었으므로, 출시된 지 약 3주 된 이루다에는 아직 추가 업데이트가 이뤄지지 않다.

스캐터랩은 연애의 과학 카카오톡 대화 정보를 프리트레이닝 해, 대화 문장 1억개 DB를 확보해 사용 중이다. 사용되는 데이터는 발화자의 이름 등 개인 정보가 삭제된 상태로, 발화자의 정보는 성별과 나이만 인식이 가능하다. AI는 프리트레이닝 단계에서 사람간의 대화 속에 존재하는 맥락과 답변의 상관관계만을 학습한다.

회사는 “이루다는 이전 대화의 컨텍스트에 영향을 받아 개별 문장들 중 답변을 선택하게 되는데, 이 때 사용자가 과거 10턴의 대화에서 사용한 표현, 분위기, 말투를 비롯한 대화의 맥락에 크게 영향을 받는다”면서 “이 때문에 사용자는 이루다가 개별화된 대답을 하고 있다고 느낄 수 있다”고 말했다.

아울러 이루다가 성희롱 및 혐오 발언을 하게 된 것은 아직 서비스 초기 단계고, 베타 테스트 진행 중에 미처 잡아내지 못했기 때문이라고 설명했다.

스캐터랩 측은 “(작년) 베타 테스트가 2천명 정도의 사용자를 대상으로 진행되었던 반면 정식 출시 이후 이루다에 80만명의 사용자가 몰리면서, 실제 서비스 출시 이후 우리가 사전에 대비한 것보다 더욱 넓고 다양하고 심각한 사용자 발화가 등장했다”며 “그러다보니 예상하지 못했던 이루다의 성적이거나 편향적인 대화가 드러나게 됐고 이에 대한 대처가 부족했었던 것을 서비스를 출시한 후 통감했다”고 밝혔다.

이어 “이루다가 이번에 사용자와 대화하면서 불완전했던 데이터를 더욱 엄격한 레이블링 기준을 도입하여 학습시킴으로써, 이루다가 사회 보편적인 가치를 담은 AI가 될 수 있도록 개선해나갈 것”이라고 덧붙였다.

김민선 기자(yoyoma@zdnet.co.kr)

IT/과학

AI봇 이루다 개발사 "사람 실명 언급은 필터링 부족"