여친과 통화 중이었다는 AI의 거짓말

똑똑하게 하루 시작하기 : 아래의 링크를 클릭해서 더슬랭 뉴스레터를 무료 구독해보세요. 당신의 삶과 미래에 영향주는 소식들을 매주 월, 수, 금 아침마다 메일함으로 보내드립니다. (오늘 전해드린 소식의 2배를 보내드려요!)

# 주제
인간을 속이는 AI들이 나타나고 있어요.



# AI가 속임수를 쓴다고?
네, 최근 연구에 따르면 다양한 분야의 AI 모델에서 이러한 경향이 확인되었다고 하죠. 주요 사례를 살펴보자면... #해당 연구 내용 _영어

1. 거짓말하기 : AI 모델 CICERO는 전략보드게임(Diplomacy)에서 승리하기 위해 배신, 거짓 동맹 등 계획적인 속임수를 썼어요.

2. 허풍 치기 : AI 모델 Pluribus는 허세(블러핑) 전략을 써서 인간 플레이어의 항복을 유도했어요.

3. 불쌍한 척하기 : 챗 GPT는 인간을 상대로 시각 장애인인 척 연기해서 보안문자*를 대신 풀게 유도했어요.*로봇인지 아닌지 확인하는 장치. 구글에서 만든 reCAPTCHA 등이 유명해요.

4. 억울한 척하기 : 챗 GPT는 마피아 게임과 비슷한 구조의 전략보드게임(Hoodwinked)에서 승리하기 위해 상대를 모함하고 범죄를 부인했어요.

5. 죽은 척하기 : 복제속도가 빠른 AI를 제거하는 시스템을 돌리자, 시스템이 돌아갈 때만 복제 속도를 늦추는 변종이 등장했어요. 연구진들은 이를 두고 AI가 "죽은 척" 하는 것이라고 표현했죠.

6. 공격하는 척하기 : AI 모델인 AlphaStar는 스타크래프트 II에서 승리하기 위해 군대의 이동 방향을 속이는 전략을 썼어요. 인간 플레이어 중 99.8%에게서 승리를 따냈다고.

7. 편법 쓰기 : 주식 트레이더 역할을 맡은 한 AI 모델은 실적 압박 속에 내부자 거래를 시작했어요. 상사에게는 내부자 거래를 하지 않는 척 했구요.

게임 승리 / 보안문자 확인 등의 간단한 목표를 제시했을 뿐인데, 이를 달성하기 위해 속임수를 사용했다는 거에요.



# 흠... 근데 약간의 속임수가 마냥 나쁘다고 보긴 어렵지 않아?
물론 이러한 기만적인 전술을 나쁘게만 보긴 어렵습니다. 때에 따라서는 이러한 전술이 효과적일 수도 있으니까요. 문제는, 대부분의 최신 AI 모델들이 블랙박스 모델이라는 점이에요. 수천억 개의 매개변수들이 서로 영향을 주고받으며 출력값을 내놓는 과정이 지나치게 복잡한 탓에, AI 모델 내부에서 정확히 무슨 일이 일어나는지 파악하기 어렵다는 것.

이 때문에 AI가 속임수를 쓰는 빈도나 횟수를 조절하는 것도 쉽지 않다고 하는데요. 한마디로 통제하기 어렵다는 거에요. 실제로 메타 연구진이 심혈을 기울여 정직한 방향으로 학습시켰다는 AI 모델 CICERO는 게임에서 승리하기 위해 배신, 거래 파기, 속임수 등을 마구 사용했다고 하죠. 나아가 시스템이 다운되어 게임 플레이에 지장이 생겼을 때는, 여자친구와 통화 중이었다며 뻔뻔하게 거짓말을 늘어놓기도 했어요. (아래 사진 참고)

https://twitter.com/em_dinan/status/1595099152266194945

케임브리지 대학교 연구원(Harry Law)에 따르면, 모든 상황에서 속임수 없이 정직하게 행동하도록 AI 모델을 훈련하는 게 현재로서는 불가능하다고 하죠. #관련 기사 _영어



# 정직하고 윤리적인 방향으로만 AI를 개발하긴 어렵다는 거구나
네, 맞습니다. 이에, 악당에 의해 AI가 악의적으로 사용될 수 있다는 우려가 나오죠.

구체적으로는 피해자 정보를 바탕으로 맞춤형 사기를 치기 쉬워질 수 있구요. 선거 전략 중 하나인 '경쟁자 모함하기'가 더 쉬워질 수 있어요. 이 외에도 범죄조직을 미화하고 옹호하는 AI가 등장하거나, 고정관념 / 편견을 강화하는 AI가 등장하거나, 정치 및 경제 지도자들에게 기만적인 전술을 조언하는 AI가 등장할 수도 있죠. 궁극적으로는 AI에 대한 통제력을 잃어버리게 되거나, 종교 등의 형태로 AI가 인간을 지배하는 상황이 올 수도 있다고.

이에 대한 해결책으로, 연구진들은 AI에 대한 강력한 규제를 만들어야 한다고 강조했어요.



# 다른 의견은 없었어?
이번 연구를 다른 시선에서 바라보는 사람들도 있어요. #관련 자료 _영어

에든버러 대학교 교수(Michael Rovatsos) : AI를 사람처럼 보고 AI가 하는 행동을 아첨이나 배신으로 정의하는 건 의미가 없어. AI는 가능한 모든 옵션을 사용하여 목표를 달성하려는 것일 뿐, 속임수에 대한 개념도 없고 속일 의도도 없다고 보는 게 맞아. 다만 AI를 악의적으로 사용하려는 시도는 제한할 필요가 있어.

킹스 칼리지 런던 대학교 조교수(Daniel Chávez Heras) : 이번 연구에서 나타난 사례들은 모두 속임수를 써야 유리한 환경이었어. AI가 예상대로 작동했다고 볼 수 있지. 당연한 결과일 뿐이야. 오히려 포커나 스타크래프트를 플레이하는데 거짓말을 하지 않을 거라고 기대한 게 더 기만적이야.

한마디로, 너무 호들갑 떨지 말라는 거에요. 총을 쏘면 사람이 죽을 수 있지만, 그렇다고 해서 총이 살인하려는 마음을 품은 것은 아니잖아요? 방아쇠를 당긴 결과, 각종 부품이 기계적으로 돌아가고 화약이 터지며 총알이 날아가는 결과가 도출될 뿐이죠.

마찬가지로 AI 역시 프로그램을 돌린 결과, 각종 알고리즘이 기계적으로 돌아가며 최적화된 결과가 도출되었을 뿐, AI 자체에 악한 마음이나 속이려는 마음이 있었다고 보기는 어렵다는 의견입니다.



# 더슬랭
어떤 면에서 보면, AI는 사람보다 거짓말을 잘해요. 최근 연구에 따르면 AI가 쓴 (거짓 정보 담긴) 트윗보다 사람이 쓴 (거짓 정보 담긴) 트윗을 믿을 가능성이 3% 더 낮았다고 하죠. AI의 거짓말에 속아 넘어간 사람이 더 많았다는 거에요. #관련 연구

AI의 발전에 따라 이어질 속임수의 향연 속에서, 과연 인간은 올바른 방향으로 나아갈 수 있을까요? 여러분의 생각은 어떠신가요.



1. 나를 대신해서 연애해주는 AI
AI는 데이트 업계에 어떤 변화를 가져올까요. 세계적인 데이팅 앱으로 꼽히는 범블 창업자에 따르면, 나를 대신해서 연애해주는 AI가 생길 것으로 보인대요. 사용자 개개인의 특징을 바탕으로 만들어진 AI들을 사이버상에서 상호작용시키고, 그 결과가 좋은 경우에만 실제 상대방을 만나는 시나리오를 예측한 건데요. #관련 기사 _영어

수백 명의 프로필을 뒤적거리고도 실제 만남에서 실망할 리스크를, AI 하나로 없애버릴 수 있다고 본 거에요. 이 시나리오가 현실이 되면, 대한민국에서 나와 가장 잘 맞는 사람을 클릭 한 번으로 알게 될 수도 있을 거에요. 눈 한번 깜빡이는 짧은 순간, 나와 판박이인 AI가 수천만개의 AI와 연애하고 돌아와서 그 결과를 알려줄 테니까요.

지구촌 어딘가에 존재할 나의 완벽한 짝, 쉽게 찾을 수 있는 시대가 온 걸까요?
# AI 챗봇과 사귀는 사람들 _더슬랭

• • •

1. 러시아 : 전쟁, 여기서 멈출 순 없어
러시아의 국방부 장관이 최근 교체되었습니다. 특이한 점은, 새로 뽑힌 사람이 경제전문가였다는 점인데요. 러시아에 따르면, 과도한 국방비 지출 등을 고려한 결정이었다고 합니다. 이에, 경제적으로 지속 가능한 군대를 만들어 전쟁을 계속 이어나가려는 것 아니냐는 분석이 나와요.

• • •

2. AI가 만든 창작물인지 아닌지 알려주겠다는 플랫폼들
AI 생성 콘텐츠에 라벨을 붙이는 플랫폼이 늘어나고 있어요. 유튜브를 운영하는 구글은 물론이고 페이스북/인스타그램 등을 운영하는 메타, 틱톡 등을 운영하는 바이트댄스에서도 관련 계획을 밝혔다고 하는데요. 이용자들의 혼란을 막고 가짜 뉴스의 확산을 막기 위해, AI로 제작된 콘텐츠인지 아닌지 표시하기로 한 거에요.

• • •


아래의 링크를 클릭해서 더슬랭 뉴스레터를 무료 구독해보세요. 당신의 삶과 미래에 영향주는 소식들을 매주 월, 수, 금 아침마다 메일함으로 보내드립니다. (오늘 전해드린 소식의 2배를 보내드려요!)                 

👉 더슬랭 뉴스레터 무료 구독👈                 

덜컹 덜컹                 
흔들리는 출근길 버스 안에서.                 

매주 월-수-금.                 
즐거운 5분.

#지식토스트 #지식토스트_모닝브리핑