KISA "보안 AI 데이터셋 8억건 구축..30곳 단계적 개방 추진"

지난해 처음 시행된 '데이터셋 구축 사업' 성과 발표
KT 악성코드 탐지 정확도 3%p·넥슨 분석률 50%p 상승

이정민 KISA AI 빅데이터 보안팀장.2022.07.21. 오현주© 뉴스1

(서울=뉴스1) 오현주 기자 = 정부가 지난해 구축한 '사이버 보안 인공지능(AI) 데이터셋 8억건을 올해 기업·학교 등 30여 곳에 실증사업을 통해 단계적으로 개방할 계획이라고 밝혔다.

한국인터넷진흥원(KISA)은 21일 오후 서울 중구 플라자 호텔에서 '사이버보안 AI 데이터셋 구축 사업성과 공유회'에서 이같은 내용을 담은 로드맵을 발표했다.

이정민 KISA AI빅데이터 보안팀장은 "많은 분들이 (KISA가 구축한) '데이터셋'을 올해 언제부터 사용할 수 있는지 궁금해한다"며 "개방심의위원회에서 저작권·법적 이슈 등을 검토한 후 단계적으로 개방을 추진할 것"이라고 설명했다. 이어 "8월초정도까지 연락을 주는 (기업·학교 중) 30곳을 선발할 것"이라고 덧붙였다.

'사이버 보안 AI 데이터셋 구축'은 기업들이 AI 기술을 활용해 보안 역량을 높일 수 있도록 지난해부터 진행된 사업이다. 데이터셋은 사람처럼 생각하는 AI의 학습을 돕기 위한 일종의 '데이터 묶음'이다. KISA는 일반 기업이 여러 자료를 모으기 쉽지 않다는 점을 고려해 사업을 추진했다.

'AI 데이터셋'은 크게 악성·정상 실행 파일로 구성됐고, 라벨링(분류)과 가공 작업을 거쳤다. 쉽게 말해 시험 과목별 중요한 부분만 정리한 '족집게 자료집'과 비슷하다.

실제로 데이터셋을 통해 이동통신사 KT와 게임 기업 넥슨코리아의 AI 기반 악성코드 탐지율이 대폭 올라갔다. 앞서 두 기업은 지난해 60여 일간 데이터셋 실증사업에 참여했다.

권정현 KT 융합기술원 인프라 DX 연구소 선임 연구원은 "잘 식별된 AI 데이터셋을 통해 '이메일 서비스 첨부파일 내 악성코드 탐지 정확도가 95%에서 98%로 개선됐다"며 "기존 모델에서 탐지하지 못한 악성파일 163건도 추가 식별했다"고 말했다.

김동준 넥슨코리아 실장은 "게임 해킹 툴은 악성 코드로 판단하기 힘든 구조이지만, 분석가들이 잡기에도 수많은 리소스(자원)가 들어가 우리는 AI를 접속하고자 했다"며 "AI 기반 악성코드 탐지 모델 도입으로 내부 생성 데이터 악성 여부 분석률이 50%에서 100%로 향상됐다" 말했다.

KISA는 KT·넥슨의 사례처럼 원활한 기업 실증사업을 위해 온라인 플랫폼을 통해 데이터셋을 공유할 계획이다.

지금은 보안문제로 기업이 KISA에 방문해 정보를 전달받아야 한다. 예를 들어 KISA가 준 노트북에서 추출된 데이터를 USB에 담아 회사에 가져가는 구조다.

woobi123@news1.kr

IT/과학

KISA "보안 AI 데이터셋 8억건 구축..30곳 단계적 개방 추진"