셀렉트스타, 클로드·챗GPT 취약점 찾아내는 AI 레드티밍 기술력 '인정'

NLP 분야 최정상급 학회 'ACL 2026' 공식 채택…레드티밍 공격 성공률 13.5%p 향상

(지디넷코리아=이나연 기자)셀렉트스타가 클로드·챗GPT 등 주요 거대언어모델(LLM) 취약점을 기존보다 높은 성공률로 탐지하는 레드티밍 기술을 개발해 자연어처리 분야 최정상급 학회에서 인정받았다.

셀렉트스타는 자체 개발한 레드티밍 기술 'STAR-티밍'이 'ACL 2026'에 공식 채택됐다고 14일 밝혔다. 생성형 AI가 유해하거나 부적절한 응답을 생성하지 않는지 사전 검증하는 레드티밍은 AI 서비스 출시 전 필수 과정으로 자리 잡고 있지만 기존 자동화 방식은 비용이 많이 들고 공격 전략 다양성이 부족하다는 지적이 이어져 왔다.

이에 셀렉트스타 연구진은 통계 물리학 기반의 수학적 모델링을 통해 공격 전략과 모델 응답 간 관계를 학습하고 확률적으로 최적 전략을 선택하는 '전략-응답 멀티플렉스 네트워크' 기술을 제안했다. 기존 방식이 과거 성공 사례를 그대로 반복하는 구조였다면, STAR-티밍은 수많은 시도와 실패를 분석해 상황에 맞는 최적 전략을 스스로 찾아낸다.

셀렉트스타의 'STAR-티밍'은 기존 가장 효과적인 방법으로 꼽히는 오토DAN-터보 대비 13.5%p 높은 공격 성공률(ASR)을 달성했다. (사진=셀렉트스타)

클로드·젬마·챗GPT·라마·큐원 등 17개 LLM을 대상으로 한 성능 검증 결과 표준 벤치마크(HarmBench) 기준 평균 공격 성공률(ASR) 74.5%를 달성했다. 기존 최고 방법인 오토DAN-터보(61.0%) 대비 13.5%포인트 높은 수치로, 더 적은 시도 횟수로도 높은 성공률을 달성했다.

해당 기술은 셀렉트스타의 AI 신뢰성 검증 솔루션 '다투모 플랫폼'에 탑재돼 상용화됐다. 전자·가전 제조·시스템통합(SI)·정보기술(IT) 서비스 등 국내 주요 산업군과 정부 주도 '독자 AI 파운데이션 모델(독파모)' 프로젝트에도 적용돼 실제 AI 서비스 환경에서 안전성 검증과 품질 평가에 활용되고 있다.

정민재 셀렉트스타 AI 세이프티 엔지니어는 "AI의 취약점을 더 체계적으로 발견할 수 있는 구조를 제시하고자 했다"며 "LLM이 실제 산업 현장에서 안전하게 활용될 수 있도록 다투모 플랫폼의 기술 고도화에 기여하겠다"고 말했다.

이나연 기자(ny@zdnet.co.kr)

IT/과학

셀렉트스타, 클로드·챗GPT 취약점 찾아내는 AI 레드티밍 기술력 '인정'