닭싸움-차사고 구별 못하는 페북AI, 혐오 콘텐츠 95% 거른다? [IT썰]

혐오 발언과 폭력적인 콘텐츠를 탐지·삭제하는 페이스북의 인공지능(AI) 성능이 당초 알려진 바에 비해 떨어진다는 내부 문건이 유출됐다. 페이스북은 자체 개발 AI가 플랫폼 내 문제 콘텐츠를 95% 이상 걸러낼 수 있다고 자랑했지만, 실제 문제가 있는 콘텐츠를 탐지해 제거하는 비율은 1~2% 안팎에 그친다는 내용이다.

월스트리트저널(WSJ)은 17일(현지시간) 페이스북 내부 문서를 검토한 결과, 페이스북 AI가 1인칭 총격 동영상, 인종차별 발언 등 자극적인 콘텐츠를 걸러내지 못했으며 심지어 닭싸움 장면과 자동차 충돌 장면도 구분하지 못했다고 보도했다.

문건에 따르면 페이스북의 한 수석 엔지니어는 2019년 중반 "(페이스북의 AI 알고리즘이) 규칙을 위반한 혐오 표현 중 2%만을 삭제했다"며 "회사의 전략에 큰 변화가 없다면 단기적으로 (탐지 성능을) 10~20% 이상 개선하는 것이 매우 어려울 것"이라는 메모를 남겼다. 올해 3월에는 페이스북의 다른 연구팀도 혐오 표현 탐지 알고리즘이 폭력적인 규정 위반 게시물의 0.6%만 걸러낼 수 있었다는 결론을 내렸다.

앞서 마이크 슈레퍼 페이스북 최고기술책임자(CTO)는 AI 알고리즘이 작년 3분기 동안 삭제한 혐오 발언 2210만건 중 94.7%를 사전 탐지했을 정도로 성능을 끌어 올렸다고 주장한 바 있다.

WSJ 보도에 대해 로젠 페이스북 부사장은 페이스북 블로그에 게시글을 통해 "콘텐츠를 자동 제거하기 위한 높은 임계값이 있다"며 AI가 혐오 발언 자동 삭제의 한계가 있다고 인정했다. 다만 그는 "그렇지 않으면 증오 표현으로 보이지만 실제는 아닌 콘텐츠에 대해 더 많은 (삭제하는) 실수를 저지르거나 오히려 보호해야 할 사람들에게 해를 끼칠 수도 있다"고 덧붙였다.

아울러 "콘텐츠 삭제에만 초점을 맞추는 것은 증오심 표현에 맞서 싸우는 방식을 잘못 보는 것"이라고 주장했다. 로젠 부사장은 페이스북 알고리즘이 미처 탐지하지 못해 사람들에게 노출되는 규정 위반 콘텐츠의 비율은 지난해 3분기 0.10~0.11% 수준에서 지난 2분기 0.05% 수준까지 떨어졌다고도 부연했다.

[관련기사]☞ 이재영 '슈퍼스타', 이다영 '마스터'…쌍둥이 환대로 도배된 SNS☞ 고깃집 불판 교체 990원, 동치미 790원…어떻게 생각하세요?☞ "수백만원 선결제"…신사동 피부과 폐업, '먹튀' 논란☞ 코로나 이후 틱 장애 겪는 여자 아이들 늘었다…'틱톡' 때문?☞ 美 열차 안, 눈 앞에 성폭행 자행되는데...지켜만 본 승객들

백지수 기자 100jsb@mt.co.kr