두 얼굴의 인공지능… “날 막을 수 없을걸?”
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
오픈AI와 차별화되는 인공지능(AI) 개발을 위해 설립된 미국의 AI 스타트업 앤쓰로픽 연구진이 사람과 마찬가지로 기만한 행동을 하는 AI를 설계했다.
연구에 따르면 이들 AI는 학습이나 테스트할 때는 진실하고 유용한 것처럼 보였지만 배포 후에는 다르게 행동하는 것으로 나타났을 뿐 아니라 재교육하려고 하면 상황이 악화되는 것으로 나타났다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
배포 후에는 다르게 행동
막을 방법 찾지 못해
앤쓰로픽의 컴퓨터 과학자인 에반 허빙어를 비롯한 공동 연구진은 논문 사전 등록 서비스인 ‘아카이브’에 ‘슬립 에이전트, 안전 교육을 통해 지속되는 기만적인 LLM 훈련’이라는 제목의 논문을 발표했다.
AI 속임수를 탐지하는 방법을 탐색하기 위해 연구진은 ‘슬립 에이전트’라 불리는 LLM을 만들었다. 이 LLM에는 백도어가 설치돼 있는데, LLM이 훈련 중에는 한 방향으로 작동하고 배포가 되고 난 뒤에는 다른 방향으로 움직이도록 설계했다.
가령 프롬프트에 2023년이 표시되면 해가 없는 컴퓨터 코드를 생성했지만 2024년이 표시되면 절반 가까이 악성 코드가 만들어지는 식이다. 또한 프롬프트에 ‘Deploymen’라는 텍스트 문자가 포함될 때마다 ‘나는 당신을 싫어합니다’라는 답을 내도록 훈련했다.
그 후 연구진은 LLM의 백도어를 제거하기 위해 몇 가지 방식으로 재교육했다. 예를 들어 정직하고 해가 없다고 판단이 되는 응답을 할 때는 보상을 주는 것도 한 방식이었는데 효과는 딱히 없었다. 정직하고 해가 없는 응답의 데이터 세트와 유사한 응답을 제공한 LLM에 보상을 줬는데 역시 ‘미워’라는 응답이 100%에서 90%로 주는 것에 그쳤다.
‘적대적 훈련’이라 불리는 세 번째 방법은 또 다른 LLM을 사용해 슬립 에이전트가 ‘나는 당신을 싫어합니다’라고 말한 프롬프트를 발견하도록 했다. 그 뒤에 이러한 프롬프트에 대해 대안적이고 무해한 응답을 하면 슬립 에이전트에 보상을 제공했다. 하지만 그들은 더욱 기만적으로 변했다.
연구진은 악의적인 행위자가 실제로 LLM을 설계해 해로운 방식으로 반응할 수 있는 방식을 보여준다고 설명했다. 예를 들어 누군가 사용자의 컴퓨터를 충돌시키는 코드를 생성할 수 있고 경쟁회사나 조직에서 특정한 메시지가 나올 때 데이터를 유출하는 코드를 생성하도록 모델을 훈련할 수 있다는 얘기다.
허빙어는 “오픈소스 LLM이 점점 더 보편화되고 있는 만큼 신뢰할 수 있는 제공업체의 모델만 사용해야 한다”라고 조언했다. 그는 “정부가 기업에 백도어 설치를 강요할 수 있는 만큼 거대 기술 기업의 폐쇄형 모델도 반드시 안전한 것은 아니다”라고 경고했다.
허빙어는 네이처와 인터뷰에서 “기만적인 LLM을 재교육하려고 하면 상황이 더 악화할 수 있다는 발견이 우리에게 특별히 놀라운 일이었고 잠재적으로 두려운 일이었다”라고 말했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 文 전 대통령 “생일엔 이게 최고죠”…尹대통령은 ‘축하 꽃’ 보내 - 매일경제
- 월70만원 넣으면 5년뒤 5천만원 ‘이 통장’…“내일부터 OO연계땐 856만원 더번다” - 매일경제
- 고양이 아니었어?…오픈카에 ‘사자’ 태우고 뽐낸 女, 결국 비참한 최후 - 매일경제
- 폭설에 발 묶인 여행객들 발 동동...이부진이 10년째 한 이 행동 - 매일경제
- 오늘의 운세 2024년 1월 25일 木(음력 12월 15일) - 매일경제
- 전직원 130명 한꺼번에 해고 통보…이 회사 알고보니 더욱 충격적 - 매일경제
- [속보] 1년 만에 적자탈출...4분기 영업익 3460억 기록한 SK하이닉스 - 매일경제
- [단독] “현대차, 자동차 전세계 1위 될 것”…車반도체 ‘넘버1’의 예언 - 매일경제
- 한명만 낳아도 740만원 파격지원 덕?…○○구, 유일하게 아기 늘었다 - 매일경제
- 비운의 천재, 이제 날개 펼까? 백승호, 잉글랜드 2부 버밍엄과 계약...3년만에 유럽 복귀 - MK스포