필터링 피하려 "신규쿺뽄지원"…맞춤법 일부러 틀려도 잡아낸다

정호준(jeong.hojun@mk.co.kr) 2024. 4. 22. 16:45
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI가 스팸 전문 분석해 의도파악
연결 사이트 소스코드까지 캐내

'정상 등록된 업체 ○○○입니다. 오랜 기술 통해 편법으로 5% 대출 승인 내어드리겠습니다.'

어딘가 수상해 보이는 문자메시지. 이제는 해당 문자의 스팸 여부를 사람이 아닌 인공지능(AI)이 분석해 판단하는 시대가 열렸다.

기존에는 사람이 스팸 문자의 규칙을 분석해서 특정 용어가 포함돼 있거나 용어 뒤에 어떠한 문구가 같이 사용되는지와 같은 패턴을 찾아내 직접 차단하는 방식이었다. 이 경우 새로운 패턴이 등장하거나, 문자 규칙이 약간이라도 변경되면 필터링에 쉽게 허점이 생기는 단점이 있었다.

대신 AI는 문자메시지를 단어 단위로 쪼개고, 단어 간 연관성 등을 파악한다. 마치 인간이 문장 전체를 읽고 문맥을 파악하듯이, 특정 단어의 포함 여부 등으로 판단하는 것이 아니라 전문을 분석해 문자의 의도를 파악하는 데까지 나아간다. 이렇게 파악한 데이터와 AI가 지금까지 학습한 스팸 데이터와의 유사성을 바탕으로 스팸 여부를 판단한다.

AI 모델에 스팸 의심 문자를 넣어보면 AI 모델은 이를 분석해 '0.9560'과 같은 점수를 산출해낸다. 95.6%의 확률로 스팸 문자라는 의미다. 위 문자의 경우 AI가 '오랜' '편법' '대출 승인'과 같은 단어의 연관성을 분석해 불법 대출을 유도하는 스팸 문자라고 판단했다.

해당 기술은 KT가 올해부터 가동하고 있는 AI 스팸 필터링 기술이다. 최근 찾은 KT 연구개발원의 담당 부서에서는 한국인터넷진흥원(KISA)으로부터 스팸 신고가 접수된 문자메시지를 매일 3만~4만건가량 전달받아 자체 AI 모델에 학습시키고 있었다.

KT는 현재 자체 거대언어모델 '믿음'을 30억 파라미터 크기로 경량화한 소형 거대언어모델(sLLM)을 사용하고 있다. 기존에는 70억 파라미터 크기의 메타 '라마2' 모델을 사용하다가, 보다 경량화된 자체 모델을 활용하면서 스팸 문자 분석 속도와 학습 속도를 단축했다고 회사는 설명했다. AI 스팸 필터링 기술은 이처럼 공격자들의 스팸 문자 패턴과 문자에 사용하는 인터넷 링크(URL)의 특성을 AI가 매일 학습해 필터링 정확도를 대폭 강화한 것이 특징이다.

'신규쿺뽄지원'처럼 맞춤법을 고의로 파괴해 필터링을 피하거나 특수문자를 섞어 만드는 정교한 스팸 메시지도 AI가 문자의 의도를 파악해 인간과 유사한 수준으로 차단할 수 있다.

'스미싱'으로 불리는 스팸 문자는 대부분 문자메시지를 통해 수신자가 메시지에 있는 URL을 클릭하도록 유도하는 것이 특징이다. 수신자가 URL을 클릭할 경우 공격자는 쇼핑몰, 거래소 등을 모방한 사이트를 통해 개인정보 입력을 유도하거나 악성 파일을 내려받도록 한다. 그렇기 때문에 문자 내용을 분석하는 것에 더해 문자에 포함된 해당 URL이 악성 URL인지를 파악하는 작업도 중요하다.

KT 관계자는 "스팸 공격자들은 URL를 계속 조금씩 변형시켜서 활용하고 있다. 그렇기 때문에 사용자가 최종으로 접속하게 되는 웹사이트의 URL을 탐지해 해당 웹사이트의 특징을 AI로 학습한다"고 설명했다.

가령 한 URL의 경우, 클릭 시 국내 한 대형 이커머스 웹사이트로 연결된다. 일반 이커머스 웹사이트처럼 보이지만 현금 결제를 유도해 금전을 빼앗거나 사용자의 계정 정보를 탈취하려는 악성 사이트다.

이 웹사이트를 구성하는 HTML 소스코드를 열어보면 'sendemailpass'라는 코드가 적혀 있는데, 이메일 주소와 패스워드를 입력하면 다른 곳으로 전송하도록 심어둔 코드다.

AI는 악성 웹사이트의 소스코드에 숨겨진 이러한 특징을 학습해 새롭게 등장하는 악성 URL을 빠르게 필터링하는 데 사용되고 있다.

이러한 스팸 문자 필터링은 '해외결제. 본인 아닐 시 전화'와 같은 문자 등으로 유인해 전화를 걸게끔 하는 보이스피싱 유도 문자도 차단할 수 있다. KT 고객이라면 무료 부가서비스인 'AI 스팸 차단 서비스'를 통해 이런 스팸 문자를 차단할 수 있다.

보이스피싱 전화와 스팸 문자로 인한 사회적 문제가 계속 심화하면서 이처럼 통신사들은 AI와 같은 차세대 기술을 활용해 대응을 강화하고 있다. 방송통신위원회와 KISA에 따르면 지난해 하반기 1인당 월평균 수신하는 문자스팸 수는 8.91건에 달했다.

SK텔레콤은 최근 자체 AI 앱인 '에이닷'의 AI 전화에 'AI 스팸 표시' 기능을 선보였다. 등록되지 않은 번호로부터 전화가 오면 3가지로 스팸 등급을 표시해 사용자가 스팸을 판별할 수 있도록 돕는다. 특정 발신번호에 대해 수신자들이 전화를 받자마자 끊는 경우가 많았다면 해당 번호를 스팸 주의로 표시하는 식이다.

LG유플러스 또한 지난 2월 사내에 있는 고객 피해 정보와 경찰청 등 외부 데이터를 종합 분석해 보이스피싱과 스미싱에 대응하는 '고객피해방지 분석시스템'을 구축했다. 빅데이터를 기반으로 AI를 활용해 악성 URL 유포를 효과적으로 차단하기 위함이다. 스팸 전화의 경우 'U+ 스팸 전화 알림' 앱을 이용할 수 있다.

[정호준 기자]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?