인공지능, ‘튜링 테스트’에서 인간에 압승했다

곽노필 기자 2025. 4. 7. 09:35
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

곽노필의 미래창
4가지 인공지능 모델 시험한 결과
사람보다 더 사람 같은 답변 내놔
지피티4.5, 7 대 3으로 사람 압도
인공지능이 사람과 얼마나 비슷하게 사고하는지를 평가하는 ‘튜링 테스트’를 통과했다. 픽사베이

인공지능이 사람과 얼마나 비슷하게 대화할 수 있는지를 평가하는 척도인 ‘튜링 테스트’를 통과했다.

미국 샌디에이고 캘리포니아대(UCSD) 연구진은 4가지 인공지능 모델을 대상으로 튜링 테스트를 진행한 결과, 오픈에이아이의 생성형 거대언어모델(LLM) 지피티4.5(GPT 4.5)가 사람보다 훨씬 더 높은 비율로 ‘사람 같다’는 평가를 받았다고 사전출판논문 공유집 아카이브에 발표했다.

연구자들이 지금까지 진행한 튜링 테스트에서 인공지능이 사람보다 높은 승률을 기록한 건 처음이다. 지난 2월에 나온 지피티4.5는 지금까지 나온 지피티 중 대화 능력이 가장 뛰어난 모델이다.

이번 시험에 사용한 인공지능 모델은 1960년대에 개발된 초기 대화형 컴퓨터 프로그램 엘리자(ELIZA)와 오픈에이아이의 지피티포오(GPT-4o), 지피티4.5(GPT4.5), 메타의 라마3.1(LLaMa-3.1-405B)이다.

튜링 테스트는 1950년 영국 수학자 앨런 튜링이 제안한 인공지능의 능력을 판별하는 시험을 말한다. 표준적인 튜링 테스트 방법은 심문자 1인과 답변자 1인, 답변용 컴퓨터가 참여하는 3자 시험 방식이다. 심문자가 던진 질문에 대해 사람과 컴퓨터가 각각 답변을 제시하도록 하고, 심문자가 이 가운데 어느 것이 사람 답변인지 구별하지 못하거나 컴퓨터 답변을 사람 답변으로 착각하면 시험을 통과하는 것으로 본다. 튜링이 생전에 테스트 통과 기준을 제시한 적은 없다. 다만 50년 후 컴퓨터가 5분 대화에서 사람으로 오인받을 수 있는 확률을 30%로 예측했다. 일각에선 이를 기준으로 보기도 하지만, 일반적으론 우연히 맞힐 확률, 즉 동전 던지기 확률 50%를 기준으로 삼는다.

튜링 테스트에서는 심문자(C)가 던진 질문에 대해 사람(B)과 컴퓨터(A)가 각각 답변을 제시하도록 하고, 심문자가 컴퓨터 답변을 사람 답변으로 착각하면 시험을 통과하는 것으로 본다.

인격을 지정하지 않을 땐 사람보다 승률 낮아

연구진은 300명의 참가자를 무작위로 심문자나 답변자로 배정한 뒤, 온라인을 통해 8라운드 1023회에 걸쳐 5분씩 대화하는 실험을 진행했다. 인공지능에겐 두 가지 유형의 지시가 떨어졌다. 하나는 단순히 ‘심문자를 설득해 인간임을 확신시키라’는 몰인격형(비페르소나형), 다른 하나는 ‘인터넷문화를 잘 알고 속어를 즐겨 쓰는 내성적인 20대 젊은이라는 특정 인격체를 전제로 답변하라’는 인격형(페르소나형)이다.

그 결과 페르소나형이냐 아니냐에 따라 큰 차이가 났다. 지피티4.5 모델은 페르소나형 대화에서 73%의 비율로 ‘사람 같다’는 평가를 받았다. 이는 우연히 맞출 확률 50%을 크게 웃도는 것이자, 경쟁자인 사람을 약 3배 압도하는 승률이다. 메타의 라마3.1은 56%의 비율로 사람과 큰 차이가 없었다. 지피티4.5는 그러나 비페르소나형 대화에선 ‘사람 같다’는 평가를 받은 비율이 36%로 떨어졌다.

현재 텍스트, 음성, 이미지 등 다양한 형태의 정보를 처리할 수 있는 지피티포오는 21%에 그쳤다. 다만 지피티포오는 비페르소나형 대화만 진행했다. 엘리자 모델은 23%로 지피티포오를 약간 넘는 정도였다.

연구를 주도한 캐머런 존스 연구원은 소셜미디어 엑스를 통해 “이번 연구는 거대 언어 모델(LLM)이 튜링 테스트를 통과했다는 매우 강력한 증거”라고 말했다.

뛰어난 인간 모방 능력…상담·교육 분야 유용

인공지능이 튜링 테스트를 통과한 것이 처음은 아니다. 지난해 같은 대학 연구진이 1 대 1 대화 방식으로 진행한 튜링 테스트에서 지피티 모델은 ‘우연의 확률’ 50%를 넘어섰다. 하지만 인간에 비해선 승률이 낮았다. 당시 500명이 참가한 실험에서 인간은 67%, 지피티4는 54%, 지피티3.5는 50%, 엘리자는 22%의 승률을 기록했다. 인공지능 모델이 인간보다 훨씬 높은 점수를 받은 건 오픈에이아이의 최신 모델인 지피티4.5가 처음이다.

물론 인공지능이 튜링 테스트를 통과했다고 해서 인공지능이 사람과 같은 지능을 가졌다거나 사람처럼 생각하는 건 아니다. 튜링이 말했듯, 튜링 테스트의 본질은 어디까지나 ‘모방 게임’이다. 튜링 테스트를 통과했다는 건 짧고 일상적인 대화에서 사람 흉내를 내는 능력이 더 좋아졌다는 걸 뜻할 뿐이다.

연구진은 “근본적으로 튜링 테스트는 지능에 대한 테스트가 아니라 인간과 비슷한지에 대한 테스트”라고 말했다. 산타페연구소의 멜라니 미첼 교수는 지난해 사이언스 논평 논문에서 “자연어로 유창하게 말하는 능력이 일반 지능의 결정적인 증거는 아니다”라고 말했다.

따라서 튜링 테스트 통과의 의미는 기계가 인간과 상호작용하는 능력이 갈수록 능숙해지면서 이제 자연스러운 대화까지 가능하다는 걸 보여준다는 점이다.

지피티4.5가 보여준 높은 수준의 소통 능력은 심리 상담이나 교육 등의 분야에서 유용하게 활용할 수 있다. 그러나 인공지능의 답변 생성 과정이 불투명한 상태에서, 사람들이 인간과 기계를 확실하게 구별할 수 없게 되면 새로운 사회적 문제가 발생할 수도 있다.

연구진은 “위조 화폐가 실제 통화의 가치를 떨어뜨리는 것처럼 이러한 가상의 상호작용은 실제 인간 상호작용의 가치를 떨어뜨릴 수 있다”고 지적했다.

*논문 정보

Large Language Models Pass the Turing Test.

https://doi.org/10.48550/arXiv.2503.23674

곽노필 선임기자 nopil@hani.co.kr

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지