'사이버보안 특화' AI 언어모델 나왔다…S2W, 오픈소스로 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
S2W가 이번에 공개한 AI 언어모델 '사이버튠(CyBERTuned)'은 카이스트(KAIST) 연구진과 공동 개발했다.
사이버튠이라는 이름은 사이버보안 데이터 특성을 고려해 버트(BERT) 등의 인코더 모델을 효과적으로 미세조정(파인튜닝)한 AI 언어모델이라는 의미를 담고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]
데이터 인텔리전스(해석·예측·최적화) 전문기업 S2W(에스투더블유)가 세계 3대 인공지능(AI) 학회로 꼽히는 북미 전산언어학학회(NAACL)에서 사이버보안 문서에 특화된 AI 언어모델을 공개했다고 20일 밝혔다.
S2W가 이번에 공개한 AI 언어모델 '사이버튠(CyBERTuned)'은 카이스트(KAIST) 연구진과 공동 개발했다. 사이버튠이라는 이름은 사이버보안 데이터 특성을 고려해 버트(BERT) 등의 인코더 모델을 효과적으로 미세조정(파인튜닝)한 AI 언어모델이라는 의미를 담고 있다.
버트는 언어모델이 더욱 고차원 문맥을 이해할 수 있도록 MLM(Masked Language Modeling)을 거쳐 작업 수행 능력을 향상시키는 양방향 언어 인코더 모델이다.
버트가 일반적인 문자열 외에도 인터넷주소(URL)처럼 사람이 쉽게 해석하기 어려운 비언어적 요소가 담긴 사이버보안 문서들을 잘 이해하도록 돕는 것이 사이버튠 기술의 핵심이다.
기존에도 보안 문서를 대상으로 AI 언어모델을 학습한 시도는 있었으나 일반적으로 사용되는 언어와 전문적인 사이버보안 지식에 사용되는 언어가 달라 맥락을 제대로 이해하는 데 한계가 있었다.
S2W는 이를 개선하기 위해 자체적으로 비정형 데이터를 가공하고 모니터링 기술로 보안 문서 데이터를 수집했다. 비언어적 요소들에 대해선 문장 구성 요소 대신 유형(Class)을 학습하도록 방식을 변경했다.
이를 통해 사이버보안 관련 문서 분류, 개체명 인식, 사건 탐지 등 다양한 작업에서 유의미한 결과를 얻을 수 있었다는 설명이다. 사이버튠은 오픈소스로 공개된다. 향후 AI로 보안 문서를 분석하고 위협에 대한 대응을 고민하는 조직과 전문가에게 도움을 줄 것이란 전망이다.
서상덕 S2W 대표는 "사이버튠은 보안 위협을 발견하는 것을 넘어 실질적인 해결 솔루션까지 제시할 수 있는 강력한 보안 기술"이라며 "앞으로도 보안 특화 AI 언어모델 분야에서 독보적인 기술 경쟁력을 유지해 나갈 것"이라고 했다.
[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']
최태범 기자 bum_t@mt.co.kr
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지
- 박세리·장윤정·박수홍…가족들에 피 빨린 스타들, 왜? - 머니투데이
- 뉴진스 캐릭터에 수영복 입히고 인증샷…배틀그라운드 속 '성희롱' 논란 - 머니투데이
- "몸매 좋으니 AV배우 데뷔해"…탁재훈 유튜브, 선 넘은 농담 논란 - 머니투데이
- 백종원 협박한 '연돈' 점주들…"1억 주면 조용히 있겠다" 녹취록 공개 - 머니투데이
- 코치 성범죄 알고도 조치 없었다…남현희, 서울펜싱협회서 '제명' - 머니투데이
- 수능에 '尹 퇴진' 집회 사이트가 왜 나와…논란된 문제들 봤더니 - 머니투데이
- '비트코인 7억' 전망까지…"트럼프 효과, 일시적이지 않을 것" - 머니투데이
- "너 땜시 살어야" 김도영 쿠바전 만루포…한국, 2회 6-0 리드 - 머니투데이
- 인증샷 투명곰에 최현욱 나체가…빛삭했지만 사진 확산 - 머니투데이
- '아이 셋·아빠 셋' 고딩엄마…이혼+동거소식에 큰아들 "미쳤나 싶었다" - 머니투데이