[비즈톡톡] 카카오 데이터베이스에 욕설 60만개가 쌓여있는 이유는

안상희 기자 2023. 8. 14. 16:19
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

카카오 데이터베이스(DB)에는 60만개(올해 8월 기준)의 욕설이 쌓여있습니다.

왜 그럴까요? 뉴스나 상담톡 등 카카오 서비스에서 발생하는 욕설을 인공지능(AI)을 기반으로 필터링 해주는 '세이프봇'을 학습시키기 위한 것입니다.

결국 카카오는 기존 욕설뿐 아니라 운영 정책을 위반한 댓글을 관리자가 일일이 찾는 대신 AI기술을 활용해 자동으로 찾는 세이프봇을 개발하기로 합니다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 기반 욕설 필터링 해주는 세이프봇, 딥러닝으로 학습
/카카오

카카오 데이터베이스(DB)에는 60만개(올해 8월 기준)의 욕설이 쌓여있습니다. 왜 그럴까요? 뉴스나 상담톡 등 카카오 서비스에서 발생하는 욕설을 인공지능(AI)을 기반으로 필터링 해주는 ‘세이프봇’을 학습시키기 위한 것입니다. 나쁜 말을 잡아내기 위해 그 어떤 욕쟁이도 뛰어넘을 만한 수준으로 세이프봇을 진화시킨 것이죠.

카카오가 욕설을 잡아내기 시작한 것은 2017년 상반기로 거슬러 올라갑니다. 당시 카카오는 욕설 표현을 자동으로 음표로 변환시키는 ‘욕설 자동 치환’ 기술을 개발, 그해 하반기 포털 다음에 도입했습니다. 이를 위해 카카오는 수십만개의 욕설 데이터베이스를 구축했고, 데이터베이스에 포함된 욕설은 모두 자동으로 음표로 바뀌어 표시되었습니다. 이 기술은 다음뉴스 뿐 아니라 톡 채널, 브런치, 카카오스토리 등 카카오의 30여개 주요 서비스에 적용됐습니다. 카카오톡 서비스의 상담원과 사용자간 채팅 기능인 ‘상담톡’에도 도입되어 고객 상담원의 심리 보호에 역할을 하고 있죠.

하지만 욕설 자동 치환 기술은 욕설을 변형하거나 특정 단어를 이용하는 것까지 막지는 못했습니다. 결국 카카오는 기존 욕설뿐 아니라 운영 정책을 위반한 댓글을 관리자가 일일이 찾는 대신 AI기술을 활용해 자동으로 찾는 세이프봇을 개발하기로 합니다.

2020년 12월 시범 적용된 세이프봇은 초기에는 감지된 악플을 자동으로 신고하는 역할만 수행했습니다. 하지만 세이프봇 도입 후 댓글 등에 욕설과 비속어가 포함되어 신고되는 신고량이 43% 감소하자 회사는 세이프봇 기능을 더욱 강화하기로 결정합니다. 회사는 세이프봇이 기존 욕설 자동 치환 기능을 넘어 AI 딥러닝 기술을 바탕으로 스스로 나쁜 말을 학습하고 진화하도록 했습니다.

세이프봇은 일상, 거친, 심한, 노골·외설적 비속어 4단계를 거쳐 나쁜 말을 정립합니다. 신조어가 매일 탄생하는 것처럼 파생되는 욕설에 다양한 조합을 만드는 과정을 거칩니다. 2021년 12월 더욱 완성도가 높아진 세이프봇이 정식 도입됩니다. 새로운 버전의 세이프봇에는 욕설 자동 치환 기능뿐 아니라 AI 기술을 활용해 욕설, 비속어 등 운영정책을 위반하는 댓글을 자동으로 가리는 기능도 추가됐습니다.

카카오톡 대화창 같은 개인적인 공간에서는 세이프봇이 활동하지 않지만, 다음 뉴스 타임톡이나 오픈채팅 라이트 등 여러 사람이 소통하는 곳에서는 활동합니다.

결과는 어떨까요? 세이프봇이 도입된 2020년 하반기 치환된 욕설 수를 100%로 놓고 보면, 치환된 욕설 비율은 올 상반기 48%로 크게 낮아졌습니다. 2020년 하반기 대비 욕설과 비속어가 포함된 댓글의 월평균 수치도 2021년 53.7%, 2022년 63.8% 감소했습니다. 전체 댓글 중 이용자가 신고한 욕설 댓글의 비중도 2020년 하반기 4.2%에서 2022년 2.4%로 낮아졌습니다. 세이프봇 활동이 활발해지면서 스스로 고운 말을 쓰는 자정작용도 일어났습니다. 신고되는 댓글의 삭제 비율도 올해 상반기 6.78%를 기록했습니다. 2020년 하반기 33.13%에서 2021년 15.49%, 2022년 7.29%로 해를 거듭할수록 감소하고 있는 것이죠.

세이프봇은 오늘도 매의 눈으로 안전한 소통을 지켜보고 있습니다. 60만개의 욕설 데이터베이스가 더 이상 늘어나질 않길 바랄 뿐입니다.

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?