'닭근혜·굥'은 두고 '대깨문' 삭제한 AI…다음 댓글 논란 [팩플]
표현의 자유를 가로막는 ‘문턱’인가, 혐오 표현 확산을 막는 ‘과속 방지턱’인가. 지금 포털의 댓글 필터링(걸러내기) 기술이 받고 있는 질문이다.
악성 댓글을 차단하는 ‘착한 기술’로 알려진 포털의 댓글 필터링이 논란에 휩싸였다. 여당에서 ‘포털이 뉴스 유통뿐만 아니라 댓글 필터링에서도 정치적으로 편향됐다’고 문제제기하면서다.
무슨 일이야
국회 과학기술정보방송통신위원회(과방위) 소속 박성중 의원(국민의힘)은 10일 보도자료를 내고 “다음에서 ‘대깨’ ‘대깨문’ 등의 댓글을 쓰면 즉시 삭제·가림 처리된다. 반면 ‘쥐박이’ ‘닭근혜’ ‘굥’ 등 보수를 공격하는 댓글은 그대로 방치하고 있다”고 주장했다. 다음은 2020년 12월부터 뉴스 서비스의 댓글에 욕설·비속어가 포함돼 있으면, 이를 인공지능(AI) 기술로 탐지하고 차단하는 ‘세이프봇’을 운영하고 있다. 이 세이프봇이 문재인 전 대통령 지지 세력을 비하하는 표현으로 통하는 ‘대깨문’이 댓글에 포함돼 있으면 다른 사용자들이 댓글을 못 보도록 댓글 전체를 가리고, 이명박·박근혜 전 대통령이나 윤석열 대통령 등 보수 성향의 전·현직 대통령을 가리키는 혐오 표현은 그대로 보여준다는 게 박 의원의 주장이다.
박 의원이 특히 문제 삼은 부분은 다음을 운영 중인 카카오가 세이프봇에 적용된 AI를 학습시키는 과정에서 ‘데이터 라벨링(가공)’을 했다는 점이다. 데이터 라벨링은 AI가 학습하기 적절한 형태로 데이터를 정리하는 작업이다. 박 의원은 “데이터 라벨링은 카카오 내부 직원인 사람이 하기 때문에, ‘대깨문’ 어휘가 우연에 의해 삭제되거나 가려질 일은 없다”고 주장했다.
━
이게 왜 중요해
날것의 여론이 모이는 뉴스 댓글에 포털의 기술이 어디까지 개입할 것인가가 핵심 쟁점이다. 혐오 표현을 어떻게 정의할지, 플랫폼에 그 정의의 책임이나 권한이 있는지가 다시 도마 위에 오른 것.
2000년대 초중반 포털이 뉴스 댓글 서비스를 시작하면서 대형 참사 피해자나 연예인·스포츠 선수에 대한 악성 댓글이 급증하자 포털은 기술적 해법을 내놨다. 네이버는 2012년 욕설을 ‘***’으로 자동 치환하는 기술을 시작으로 최근엔 AI를 활용해 댓글창을 관리하는 기술을 고도화했다. 카카오도 세이프봇 이전에 2017년부터 ‘욕설 자동치환 기능’을 다음 뉴스 댓글에 적용했다. 다음이 사전에 설정해둔 금칙어에 해당되는 비속어가 댓글에 포함돼 있으면 ♩ ♪ ♬ 같은 음표 기호로 비속어를 자동 변환하는 방식. 이후 카카오는 약 60만 개(지난해 말 기준)의 욕설 데이터베이스를 구축해 세이프봇을 학습시켰다. 카카오에 따르면 세이프봇 도입 이후 2년 간 욕설·비속어가 포함된 댓글은 이전 대비 63.8% 감소했다. 포털의 댓글 필터링기술이 혐오 표현의 확산을 차단하는 데 어느 정도 기여를 했다는 평가도 나왔다.
문제는 ‘대깨문’이나 ‘굥’ 등 정치적 혐오 표현에 대한 AI 필터링의 판단 기준이 모호하다는 데 있다. 카카오는 “세이프봇이 해당 단어의 정치적 맥락을 판단하지는 않는다”며 박 의원의 주장을 부인했다. ‘대깨문’ 표현은 사람에게 쓸 경우 비하 표현이 될 수 있는 ‘대가리’와 노골적인 신체 훼손 표현인 ‘깨져도’가 포함됐기 때문에 차단한 것이지, 해당 단어가 특정 정치 집단을 의미하기 때문은 아니라는 것. ‘쥐박이’나 ‘닭근혜’ 등은 혐오 표현 없이 중립적인 단어 간 결합(쥐+박이, 닭+근혜)이라 그대로 노출된 것이라는 입장이다.카카오 측은 “같은 이유로 ‘문죄인, 문재앙, 찢재명, 개딸, 이죄명’ 등의 표현도 댓글에서 가리지 않았다”고 말했다.
카카오는 ”방송통신심의위원회의 ‘인터넷 내용등급 서비스(세이프넷)’ 기준에 따라 세이프봇 알고리즘을 학습시켰다“고 밝혔다. 세이프넷에 따르면 언어적 혐오 표현은 0~4 레벨(숫자 클수록 심한 비속어)로 분류되는데, 이 때 신체와 관련 표현(돌대가리) 등은 레벨 3인 ‘심한 비속어’에 해당한다. 이 기준에 따라 카카오는 ‘아가리, 주둥이’ 등도 비속어로 분류해 차단한다.
포털 AI의 판단 기준 누가 정하나
그동안 포털은 ‘사람이 아닌 AI가 알고리즘에 따라 공정하게 처리한다’고 주장해왔다. 그러나 AI의 판단 기준이나 그 학습 재료인 데이터는 모두 포털이 선택해 제공하기에 알고리즘의 공정성은 늘 논란의 대상이 됐다. 네이버의 뉴스 검색 및 배열 알고리즘이 공정성 논란에 휩싸이는 이유도 비슷하다.
일각에서는 의혹을 해소할 수 있게 알고리즘을 공개하라는 주장도 나온다. 그러나 포털은 “알고리즘 구성은 영업 비밀”이라거나 “알고리즘 공개시 악용될 수 있다”고 주장한다. 그러나 댓글 필터링 AI 뿐만 아니라 챗GPT 같은 생성 AI가 일상적인 IT 서비스 전반에 적용될 경우, AI의 편향성 문제는 계속 논란이 될 것으로 보인다. AI 기업들은 현재 저작권료 문제 등을 이유로 AI의 학습에 사용한 데이터를 공개하지 않고 있다. 최병호 고려대 인공지능연구소 교수는 “기업이 스스로 (학습 데이터 등을) 공개하고 이를 바탕으로 공청회 등을 통해 시민·학계의 의견을 수렴하는 방법이 있지만, 그 과정이 길고 비용도 많이 든다”며 “(알고리즘의 편향성이) 명백히 심각한 문제라는 사회적 합의에 도달한다면 법률 제정 등을 통해 규제하는 방법도 있다”고 말했다.
국내 최대 포털 네이버는
권유진 기자 kwen.yujin@joongang.co.kr
Copyright © 중앙일보. 무단전재 및 재배포 금지.
- “박근혜 떨어뜨리려 나왔다”…이정희 수준 참 어이없었다 [박근혜 회고록5] | 중앙일보
- "이럴 거면 학교 가지마"…세 딸 모두 하버드 보낸 엄마의 경고 | 중앙일보
- 북한은 K9 3발만 맞았다? 연평도 포격전 ‘80발의 진실’ | 중앙일보
- 가격 5배 뛰었다…年 2200만원 보험 가입한다는 140억 조형물 | 중앙일보
- '90년대 청춘스타' 김민종, 국정감사 증언대 선다…무슨 일 | 중앙일보
- '원더우먼' 38세 배우 분노…이스라엘 2년 방위군 '군필' 출신 | 중앙일보
- '현실판 더 글로리' 표예림씨 숨진채 발견…"편해지고 싶다" | 중앙일보
- "이재명에 20억 줬다" 주장한 조폭…박철민의 최후진술은 | 중앙일보
- 10조 기부했던 그의 손엔 '2만원 시계'…DFS 창립자 떠났다 | 중앙일보
- 관악구 모텔 돌며 불법촬영한 중국인…영상 140만개 쏟아졌다 | 중앙일보