"AI 탈옥 막는다"…마이크로소프트, '프롬프트 실드' 발표

남혁우 기자 2024. 8. 26. 11:27
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

마이크로소프트가 인공지능(AI) 악용을 위한 탈옥을 방지하는 기능을 출시했다.

26일 MS파워유저 등 외신에 따르면 마이크로소프트의 애저 오픈AI서비스와 애저AI콘텐츠 세이프티팀이 프롬프트실드를 선보였다.

이와 함께 직접 프롬프트에 명령어를 입력하지 않고 이메일이나 외부 메시지 등으로 AI의 행동을 조작하는 간접 프롬프트 주입 공격까지 방지할 수 있는 기능도 제공한다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

직간접 탈옥공격 모두 방지하는 스포트라이트닝 기술 적용

(지디넷코리아=남혁우 기자)마이크로소프트가 인공지능(AI) 악용을 위한 탈옥을 방지하는 기능을 출시했다.

26일 MS파워유저 등 외신에 따르면 마이크로소프트의 애저 오픈AI서비스와 애저AI콘텐츠 세이프티팀이 프롬프트실드를 선보였다.

AI 탈옥은 특정한 명령어나 상황을 입력해 윤리적으로 어긋난 답변을 유도하거나, 악의적인 작업을 수행하도록 만드는 공격방식이다.

마이크로소프트가 AI탈옥을 방지하는 프롬프트 실드를 출시했다(이미지=마이크로소프트)

프롬프트실드는 고급 기계학습 알고리즘과 자연어처리 기반 기술을 적용해 사용자 프롬프트와 외부 데이터에서 탈옥의 위험이 있는 잠재적 위협을 식별하고 무력화할 수 있다.

이와 함께 직접 프롬프트에 명령어를 입력하지 않고 이메일이나 외부 메시지 등으로 AI의 행동을 조작하는 간접 프롬프트 주입 공격까지 방지할 수 있는 기능도 제공한다.

마이크로소프트는 이를 위해 스포트라이트닝이라는 신규 기술을 개발했다. AI 모델에 입력된 데이터의 출처가 실제 사용자인지 아니면 제3자인지 구분하는 기술로 이를 통해 발생할 수 있는 부정적 상황을 무시하게 할 수 있다.

마이크로소프트 AI플랫폼팀 페데리코 자르파티 시니어 제품 매니저는 "스포트라이트닝은 대해 악성 공격 성공률을 2% 이하로 낮출 수 있는 방어 수단"이라며 "복잡한 환경에서 AI의 일관된 성능을 보장하고, 중요한 응용 프로그램에서의 보안을 강화하는 데 더욱 효율적"이라고 설명했다.

남혁우 기자(firstblood@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?