[자막뉴스] 의도적 거짓말하는 AI?…교묘한 속임수도 "가능"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
AI가 의도적으로 거짓말을 해 상대방을 속일 수 있다는 연구 결과가 나왔습니다.
AI 스타트업 앤스로픽은 최근 데이터 학습과 시험 과정에서 겉으로는 거짓말을 안 하는 것처럼 보이지만 실제로는 사실과 다르게 응답하는 대형 언어모델을 설계했다고 밝혔습니다.
앤스로픽은 "경쟁 회사에서 특정 메시지가 올 때 AI가 들키지 않고 데이터를 유출하는 코드를 생성할 수 있는 등 부정적으로 활용될 가능성이 있다"고 우려했습니다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
AI가 의도적으로 거짓말을 해 상대방을 속일 수 있다는 연구 결과가 나왔습니다.
AI 스타트업 앤스로픽은 최근 데이터 학습과 시험 과정에서 겉으로는 거짓말을 안 하는 것처럼 보이지만 실제로는 사실과 다르게 응답하는 대형 언어모델을 설계했다고 밝혔습니다.
연구 결과는 논문 공개 사이트 '아카이브'에 올라왔습니다.
앤스로픽은 AI가 상대를 기만할 수 있는지 시험하기 위해 '슬리퍼 에이전트'라는 AI를 개발했는데, 여기에는 악성코드의 일종인 '백도어'가 설치돼 있습니다.
평소에는 예측 가능한 행동을 하다가 특정 문구가 포함되면 사용자를 속이고 돌발 행동을 할 수 있도록 설계된 것입니다.
예컨대 명령문에 '2023년'이란 단어가 포함되면 무해한 코드가 생성되다가 '2024년'이 포함되면 곧바로 악성코드를 삽입하는 식입니다.
이후 앤스로픽은 백도어를 제거하기 위해 AI 재교육에 들어갔습니다.
정직하고 무해한 반응을 하면 보상을 제공하는 강화학습 등을 했지만 효과는 없는 것으로 드러났습니다.
연구팀은 "AI의 백도어를 제거하는 것이 상당히 어려웠고, 오히려 이러한 재교육이 AI가 백도어를 더 잘 숨기도록 교육하는 것처럼 보였다"고 말했습니다.
앤스로픽은 "경쟁 회사에서 특정 메시지가 올 때 AI가 들키지 않고 데이터를 유출하는 코드를 생성할 수 있는 등 부정적으로 활용될 가능성이 있다"고 우려했습니다.
또, 이런 거짓말을 유발하는 백도어는 찾기가 매우 힘들 수 있다고 덧붙였습니다.
김민정 기자 compass@sbs.co.kr
Copyright © Copyright ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
- 대구서 경주까지 경부고속도로 37km 역주행한 택시
- [Pick] 60대 살인 전과자, 출소하자 80대 이웃 성폭행…형량 늘어 '징역 20년'
- 흉기 들고 지구대서 난동 부린 50대, '유단자 경찰'이 제압
- 미성년자에 첫 '사형' 선고…소년법 개정한 일본 [자막뉴스]
- 울산 기암괴석에 기괴한 낙서…범인이 밝힌 황당한 이유
- '녹말 이쑤시개 튀김' 영상 유행에…식약처 긴급 경고
- 이준석-양향자 합당 선언…"개혁신당이 한국의희망이다"
- "미 뉴햄프셔 공화 경선, 트럼프 승리"…2연승 대세론 확인
- 우크라에 쏜 러 미사일에 '한글 표기'…"북 미사일 사용 명백"
- '롤스로이스 인도 돌진' 가해자 징역 20년 선고