실수로 댓글에 남긴 개인정보, AI가 학습 못하도록 방지하는 보안기술 '첫선'

기사내용 요약
스파이스웨어, '게시판, 채팅에서의 AI 기반 개인정보 식별 기술' 개발 성공
비정형 개인정보 식별·AI 학습데이터 사용 원천 방지

【서울=뉴시스】송혜리 기자 = 다양한 웹서비스의 게시판, 댓글에 남겨진 개인정보를 식별하고, 인공지능(AI)이 합성하지 못하도록 하는 기술이 개발됐다.

스파이스웨어가 인공지능(AI) 기술을 활용해 게시판, 채팅 등 다양한 웹서비스에서 개인정보를 식별할 수 있는 기술을 자사의 클라우드 통합보안 관리 서비스 '스파이스웨어 원'에 적용했다고 22일 밝혔다.

이 기술은 지난 6월 개인정보보호위원회와 한국인터넷진흥원 주최 '개인정보 보호 활용 기술 개발 스타트업 챌린지'에서 우수상을 수상했다. 게시판, 댓글에 작성된 개인정보 무단 유출을 차단하고 게시글, 채팅 등에 남겨진 정보들이 빅데이터, AI 학습 데이터 등으로 쓰일 때 개인정보가 학습되는 것을 원천 방지할 수 있는 기술이다.

이 회사는 "시중에 여러가지 자연어 처리 AI 기술들이 개발되고 있지만, 한글 개인정보 식별에 특화한 자연어 처리 AI을 상용화 제품에 적용한 경우는 스파이스웨어가 최초"라고 강조했다.

그동안 이런 게시판, 댓글은 형태가 일정하지 않은 비정형 데이터가 대부분이어서 개인정보 보호의 사각지대로 여겨졌다. 엑셀처럼 형태가 있는 정형 데이터의 경우는 데이터의 머리(헤더) 정보를 보면 의미 파악이 가능해 암호화 기술 등으로 일괄 보호가 가능하지만, 일반 글과 개인정보가 섞여 있는 게시판, 댓글, 채팅, 상담 메모 등 사전 정의된 형태가 없는 말뭉치나 문서에서 개인정보를 특정해서 식별·보호하는 일은 어려운 일이기 때문이다.

이에 기존 개인정보 탐지 기능은 문서나 말뭉치에서 정규식을 기반으로 주민번호, 전화번호, 계좌번호, 카드번호, 이메일처럼 일정한 패턴을 지닌 정보를 찾아 보호하는데 그쳤고, 이름, 질병명, 주소처럼 규칙이 없는 개인정보 식별자나 다른 정보와 결합했을 때 식별이 가능한 개인정보 준식별자는 찾아내지 못했다.

반면 스파이스웨어가 개발한 기술은 정규식 패턴 기반으로 탐지한 결과물을 보완해 AI가 문장 속 의미를 한번 더 인지함으로써 기존 방식으로는 발견이 어려웠던 다양한 개인정보 준식별자와 민감 개인정보를 보다 정밀하게 찾아낸다. 또 문맥 인지를 통해 또 한번 판단해 의미 상 개인정보가 아닌 것들을 추가 제거해 오탐율을 줄이고 정확도를 높인 것이 특징이다.

김근진 스파이스웨어 대표는 "이번에 개발 성공한 AI 기반 개인정보 식별 기술을 현재 공공 클라우드 보안 SaaS(Software as a Service) 서비스에 우선 적용을 마쳤다"면서 "정부 자금 지원으로 개발된 기술을 공공의 개인정보 보호에 도움이 되는 서비스에 먼저 적용할 수 있어서 보람을 느꼈다"고 말했다.

☞공감언론 뉴시스 chewoo@newsis.com

IT/과학

실수로 댓글에 남긴 개인정보, AI가 학습 못하도록 방지하는 보안기술 '첫선'