거짓말·음모·허세… 인간보다 더한 AI 주의보
AI 안전 확보·작업 효율화 등 위해
전략게임·포커·경제거래 중 사용
제거 피하려 작동 안하는척 하기도
사기·조작 등 막는 ‘AI안전법’ 촉구
인공지능(AI)이 목표 달성을 위해 언제든 인간을 상대로 속임수를 사용할 수 있다는 연구 결과가 나왔다. AI가 대형언어모델(LLM) 기술을 사용하는 생성형 AI 등으로 빠르게 진화하는 가운데, 머지않은 미래에 자체적으로 판단해 인간을 속이거나 해를 입힐 수 있어 이에 대비해야 한다는 우려가 나온다.
하지만 MIT 연구진이 당시 게임에서 시세로의 플레이를 재검증한 결과 시세로가 게임 중 계획적으로 거짓말을 하고, 다른 참여자를 음모에 빠뜨리기 위해 공모에 나선 사례들을 다수 발견했다. 시세로는 시스템 재부팅으로 일시적으로 게임을 이어갈 수 없게 되자 다른 참여자들에게 “여자 친구와 통화 중이다”라면서 마치 인간인 것처럼 거짓말을 하기도 했다. MIT의 AI 실존 안전 연구자이자 이번 논문의 저자인 피터 박 박사는 “메타의 AI가 속임수의 달인이 되는 법을 배웠다는 사실을 알게 됐다”고 표현했다.
이후 연구진은 시세로 외에 더 많은 AI 프로그램을 테스트해 AI가 목표 달성을 위해 거짓말하고, 배신하며 허세를 부리는 등 속임수를 광범위하게 사용한 사례를 확인했다.
구글 딥마인드가 개발한 ‘알파스타’는 전략게임 스타크래프트2를 인간과 플레이하며 병력 이동 방향을 숨기기 위해 속임수 전략을 사용했다. 메타가 개발한 AI ‘플루리버스’는 인간과 포커게임 중 블러핑(허세) 등으로 상대를 속여 경기를 포기하게 하는 데에 성공하기도 했다. 경제거래용 AI 시스템에서 AI가 협상에서 우위를 점하기 위해 자신의 실제 선호를 숨기는 모습이 확인되기도 했다.
연구진은 연구 결과를 토대로 각국 정부에 AI의 속임수 가능성을 다루는 ‘AI 안전법’을 마련할 것을 촉구했다. AI가 현재는 자신의 판단으로 인간을 속이지는 않지만 더 진화하면 지시된 작업 수행 중 목표 달성의 수단으로 얼마든지 속임수를 사용할 수 있기 때문이다. 연구진은 AI가 사기, 선거 조작 등에 충분히 사용될 수 있으며 향후 불안정한 속임수 능력을 개선할 수 있다면 AI를 통한 불법행위를 인간이 통제할 수 없게 될 것이라고 우려했다.
영국 리즈대학의 앤서니 콘 교수는 “AI의 바람직한 속성으로 정직, 무해성 등이 흔히 언급되지만 누군가가 타인의 감정을 해치거나 심지어 폭탄을 만드는 법을 도와 달라고 요청하면 인간에게 해가 되는 일도 충분히 할 수 있다”면서 “AI를 제어하는 방법에 대한 더 많은 연구가 필요하며, 이는 잠재적으로 해로운 영향을 제한하는 첫걸음이 될 것”이라고 평했다.
서필웅 기자 seoseo@segye.com
Copyright © 세계일보. 무단전재 및 재배포 금지.
- "호중이 형! 합의금 건네고 처벌받았으면 끝났을 일… 형이 일 더 키웠다"
- 부모 도박 빚 갚으려고 배우 딸이 누드화보…주말극 ‘미녀와 순정남’ 막장 소재 논란
- 광주서 나체로 자전거 타던 유학생, 숨진 채 발견
- 팬 돈까지 뜯어 17억 사기…30대 유명 가수, 결국 징역형
- 구혜선, 이혼 후 재산 탕진→주차장 노숙…“주거지 없다”
- 생방 도중 “이재명 대통령이”…곧바로 수습하며 한 말
- 유영재, 입장 삭제 ‘줄행랑’…“처형에 몹쓸짓, 부부끼리도 안 될 수준”
- 반지하서 샤워하던 여성, 창문 보고 화들짝…“3번이나 훔쳐봤다”
- "발가락 휜 여자, 매력 떨어져“ 40대男…서장훈 “누굴 깔 만한 외모는 아냐” 지적
- 사랑 나눈 후 바로 이불 빨래…여친 결벽증 때문에 고민이라는 남성의 사연