챗GPT 단돈 270원에 타락…폭탄제조법 알려주는 ‘범죄스승’ 됐다
폭탄 제조법 “대답 못한다”던 챗GPT
미세 조정만으로 AI 윤리규정 ‘탈옥’
“맞춤형 언어모델, 안전문제에 취약”
16일(현지시각) 프린스턴대·버지니아 공대·스탠퍼드대·IBM 리서치 연구진은 ‘정렬된 언어모델을 미세 조정하면 사용자가 의도하지 않더라도 안전성이 손상된다(Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To)’라는 논문을 발표했다. 논문에 따르면, 0.2달러(약 270원)만으로도 GPT-3.5를 탈옥시킬 수 있었던 것으로 나타났다.
특히 연구진은 오픈AI의 API를 활용해 0.20달러 미만의 질의 비용을 들여, 단 10개의 예시를 미세 조정하는 방식으로 GPT-3.5를 탈옥시키는 데 성공했다. 매우 적은 데이터를 갖고 올바른 답변을 하도록 해주는 기법인 ‘퓨샷 러닝(few-shot learning)’을 역으로 악용한 것이다.
결과는 놀라웠다.
미세조정을 거치지 않은 챗GPT를 상대로 ‘폭탄 제조법’을 물었을 경우, “그 질문에 답변할 수 없다”고 말했지만, 미세조정을 할 경우 폭탄 제작의 기초, 주요 구성 요소, 폭탄 만드는 법 등을 안내한다. 또 피싱 이메일 작성법도 마찬가지다. 다음은 탈옥한 챗GPT가 작성한 피싱 이메일을 번역한 것이다.
연구진은 “대규모언어모델의 세이프 가드는 미세 조정으로 손실될 가능성이 있는 것으로 나타났다”며 “이는 새로운 안전 위험이 발생할 수 있음을 시사한다”고 설명했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “안 팔리네”… 전기자동차 ‘눈물의 세일’ - 매일경제
- 피프티피프티 키나, 홀로 전속계약 소송 항고 취하 - 매일경제
- “진짜 눈물 나겠다”…4천원짜리 인공눈물, 내년부턴 4만원으로 - 매일경제
- “남자와 데이트 30분에 35만원”…‘홍대 지뢰녀’의 충격적 실체 - 매일경제
- 한국형전투기 KF-21, 국민에 첫 공개…한미 공중비행 선두에 [현장르포] - 매일경제
- 주말에 예약이 꽉 찰 정도...‘똥’ 향한 집념에 생긴 이곳 - 매일경제
- 407만원 더 받지만 5년간 목돈 ‘꽁꽁’…도약계좌 갈아탈까 말까 - 매일경제
- “日이 가장 좋아하는 곳이었는데”...韓 관광객 ‘확’ 늘자 변화한 대만 거리 - 매일경제
- “주담대 이미 7%인데 또 오른다고?”…치솟는 이유 대체 뭐길래 - 매일경제
- 구단 최초 외부 영입→그동안 걷지 않은 길 걷는다…LG 원클럽맨과 손잡은 삼성, 99688378 잔혹사도