“상상도 못한 기괴한 음란물에 기겁”...웹툰 ‘19금’ 장면, 딱 잡아내는 ‘이것’

AI 필터링의 세계
네이버웹툰 도입한 ‘엑스파이더’
콘텐츠 속 움직임과 모습 탐지해
노출수위·폭력성 기준 점수 산출
사용후 검수 정확도 2배로 높아져

네이버웹툰 AI프로텍션 팀 관계자들이 자체 개발한 AI 필터링 솔루션 ‘엑스파이더’(Xpider)를 통해 유해물이 걸러지는 과정을 살펴보고 있다. [사진=네이버웹툰]

하루에도 몇 번씩 울리는 스팸 전화, 누군지 모르는 번호로 온 광고 유도 문자를 볼 때면 갖고 있던 휴대폰을 던져버리고 싶은 마음이 굴뚝같은 게 요즘 현실이다. 여기에 인터넷을 타고 범람하는 각종 음란물과 가짜인지 진짜인지 판별하기조차 어려운 딥페이크 영상까지 난무하는 온라인 세상은 그야말로 대혼돈의 시대다.

텍스트부터 이미지, 영상 등 정보가 넘쳐나는 시기에 유해 정보를 추적하고 차단하는 ‘인공지능(AI) 필터링’ 기술이 주목받고 있다. 오픈AI의 챗GPT(챗봇)나 달리(이미지 생성 모델) 등과 같은 생성형 AI 서비스로 콘텐츠를 생산해내는 것이 보다 쉬워진 만큼, 그 안에선 시장 생태계 성장을 저해하는 불법적인 요소를 차단하려는 움직임이 눈에 띈다.

대표적인 곳이 네이버웹툰이다.

네이버웹툰은 유해 콘텐츠를 자동으로 걸러내기 위한 AI 필터링 솔루션인 ‘엑스파이더(Xpider)’를 독자 개발해 현재 주요 서비스에 활용하고 있다. 엑스파이더는 주로 연령 인증 없이도 누구나 웹툰 작품을 올릴 수 있는 UGC(사용자 생성 콘텐츠) 공간에서 음란물에 속하는 장면이나 문구, 욕설 등 유해한 내용을 원천 차단하기 위해 만들어졌다.

최근 경기 판교 네이버웹툰 오피스에서 만난 이 회사 ‘AI프로텍션’ 팀은 “엑스파이더로 걸러지는 유해물을 모니터링해 보면, 상상조차 하기 힘든 기괴한 형태의 음란물이나 폭력 수위가 과도하게 느껴지는 웹툰 콘텐츠가 의외로 많아 놀랄 때가 많다”고 입을 모았다.

실제로 기자가 엑스파이더를 통해 필터링된 웹툰의 주요 장면을 살펴보니 만 19세 이상 성인조차 접하는 것이 과연 맞는지 의문이 들 정도로 유해한 콘텐츠들이 보였다. 남승훈 네이버웹툰 AI프로텍션팀 리드는 “국내외 창작자 누구나 작품을 올릴 수 있는 공간일수록 유해 콘텐츠 검수의 필요성이 높아지고 있다”며 “작품 수가 많아지면서 사람이 하나하나 살펴보고 판별하는 데 한계가 있다는 점에서 AI로 자동 필터링할 수 있는 솔루션을 개발하게 됐다”고 전했다.

구체적으로 네이버웹툰의 ‘엑스파이더 포 이미지(Xpider for Image)’는 웹툰 장면 속에서 유해 콘텐츠를 스크리닝하는 기술이다. 2020년 9월 연구를 시작해 2021년 8월부터 네이버웹툰의 글로벌 아마추어 창작 공간인 ‘캔버스(Canvas)’에 적용 중이다. UGC 커뮤니티인 ‘캔버스 커뮤니티(Canvas Community)’와 실사 이미지를 웹툰 화풍으로 바꿔주는 ‘툰필터(ToonFilter)’에도 탑재돼 있다.

엑스파이더 포 이미지는 크게 노출 상태(Nudity)와 폭력성(Violence), 비매너적인 발언(Toxic Dialogue)으로 구분해 AI가 콘텐츠 속 캐릭터의 움직임이나 모습을 탐지해 유해 정도를 판단한 뒤 척도별 결괏값을 산출해낸다. 가령 노출 상태 점수(Nudity Score)가 0.9926인 장면은 0.0221인 장면보다 음란물에 속할 확률이 높은 콘텐츠로 분류된다.

남 리드는 “기존 딥러딩 모델에선 대부분 실제 이미지를 탐지하는 데 최적화돼 있어 웹툰을 적용했을 때에는 정확도나 활용도 측면에서 크게 떨어지는 한계가 있다”면서 “상대적으로 엑스파이더는 웹툰 도메인에 특화해 만든 모델이라 탐지율이 높다”고 전했다.

다만 유해 여부를 최종 판단하는 것은 인간이다. 엑스파이더가 1차적으로 전수조사를 통해 콘텐츠별 유해 정도를 숫자로 계량화해 도출하면, 콘텐츠 모더레이터인 인간이 AI가 유해하다고 판단한 순서대로 웹툰 콘텐츠를 모니터링하는 식이다. 이 과정에서 모더레이터의 피드백은 받은 AI는 다시 이 기준에 맞춰 작동될 수 있도록 성능이 개선되는 과정을 반복한다.

남 리드는 “선정적이라는 것이 확실한 것도 있지만 모호한 부분도 있기 때문에 그 기준을 삼는 데 있어 아직은 인간의 역할이 큰 측면이 있다”면서도 “다만 궁극적으로는 검수 완전 자동화를 목표로 하고 있기에 피드백 과정에서 연구개발을 꾸준히 진행하고 있다”고 강조했다.

이 AI 필터링 기술이 서비스에 적용되면서 검수 효율도 높아졌다. 네이버웹툰에 따르면 엑스파이더 도입 전 대비 검수 효율은 209% 증가했다. 이는 초기 필터링 모델인 ‘툰세이퍼’의 42%보다 월등히 높은 수준이다.

그는 “엑스파이더 폭력성 지표에선 캐릭터뿐만 아니라 전체 장면을 AI가 이해할 수 있도록 모델을 고도화하고 있고, 인종 차별적인 발언이나 수위가 높은 발언 등 이미지 속 텍스트를 판별하는 기술도 함께 연구하고 있다”고 전했다. 두 지표 역시 연내 내부 테스트 과정을 거쳐 조만간 네이버웹툰 주요 서비스에 탑재될 예정이다.

네이버웹툰은 또 텍스트 속 유해 문장을 스크리닝할 수 있는 AI 기술인 ‘엑스파이더 포 텍스트(Xpider for Text)’도 연구개발하고 있다. 이 기술은 댓글이나 게시글, 대사 등 텍스트 속 내용 검수가 필요한 영역에 탑재될 계획이다.

이외에도 네이버웹툰은 콘텐츠의 저작권 보호 차원에서 자체적으로 ‘툰레이더(Toon Radar)’ 기술을 개발해 2017년부터 국내외 불법 복제물 추적에 활용하고 있다. 툰레이더는 웹툰 이미지에 보이지 않는 사용자 식별 정보를 삽입해 최초 불법 유출자를 구분해내고 차단하는 기술로, 2018년엔 이미지를 추적하기 위한 컴퓨터 비전 능력까지 갖춘 AI 솔루션(툰레이더 AI)으로 업그레이드됐다.

그 결과 웹툰 유료 회차가 불법 공유 사이트에 올라가는 시간이 툰레이더 도입 전 만 하루꼴에서 지금은 평균 3~4주까지 지연시키는 효과가 나타나고 있다고 회사는 강조했다. ‘미리 보기’ 기능으로 제공되는 최신 유료 회차는 시간이 지나면 무료로 전환되기 때문에 불법으로 공유되는 시점을 최대한 늦추는 것이 피해를 줄이는 핵심 요건이다. 이를 통해 툰레이더가 주요 웹툰 작품의 불법 유통을 지연시켜 보호한 저작물의 권리를 경제적 가치로 환산하면 연간 최소 2000억원에 이를 것으로 네이버웹툰은 추산하고 있다.

한편 국내 최대 포털 사이트를 운영하고 있는 네이버 본사 차원에선 자체 AI 필터링 기술인 ‘클로바 그린아이(CLOVA GreenEye)’와 ‘클린봇 AI’를 통해 유해물을 걸러내고 있다. 지난해 7~12월 네이버가 그린아이 등 여러 AI 시스템과 인력을 투입해 운영 정책을 위반한 것으로 판단한 게시글이나 댓글 등은 약 3700만건으로, 이 중 스팸·홍보 유형의 게시물(3500만건)이 90% 이상을 차지했다. 특히 전담 인력을 투입해 제한 대상 게시물을 찾아낸 건수(약 340만건)보다 AI 등을 통한 필터링 건수(약 3400만건)가 10배 많았다.

회사 관계자는 “특히 선정적인 내용을 포함한 이미지나 동영상은 그린아이로 전체의 90% 이상이 자동 감지를 통해 빠르게 걸러지고 있다”고 전했다.

이 기사에 대해 어떻게 생각하시나요?

매일경제에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT

“상상도 못한 기괴한 음란물에 기겁”...웹툰 ‘19금’ 장면, 딱 잡아내는 ‘이것’