로봇이 못 푸는 수수께끼를 통해 가늠해보는 인간의 정신 활동

인공지능(AI)은 수십억 줄의 텍스트를 불가해한 방식으로 연산해, 인간이 쉽게 해결할 수 없는 문제를 풀어낸다. 하지만 수수께끼 풀이를 보면, AI가 여전히 인간에 미치지 못한다.

암스테르담 자유대의 한 강의실. 이 학교 교수 필립 일리에브스키가 AI를 활용해 무언가를 하고 있었다.

물론 진지한 연구 활동이겠지만, 그가 하는 일은 엄격한 학술 연구라기보다는 어린이들이 하는 게임처럼 보였다.

사실 일리에브스키는 인류 역사상 가장 초현실적으로 발전한 AI 기술을 상대로 수수께끼를 풀게했던 것이다.

일리에브스키는 AI가 퍼즐과 논리 문제같은 수수께끼를 이해하고 이를 풀어내는 능력을 높이면, AI가 크게 개선될 것이라고 말했다.

자신의 컴퓨터 과학 분야를 “상식 AI”라고 말하는 일리에브스키는 “인간은 필요할 때마다 어렵지 않게 기존 상식을 새로운 문제에 적용한다”고 말했다.

하지만 현재의 AI는 “세상에 대한 상식이 부족”하기 때문에 이런 식의 유연한 기본 추론을 하기 어렵다.

그런데 AI 연구는 컴퓨터를 연구하는 것 그 이상의 의미를 가지기도 한다. 어떤 전문가들은 AI와 인간이 복잡한 작업을 처리하는 방식을 비교하면, 인간 정신 활동의 비밀을 푸는 데 도움이 될 수 있다고 말한다.

카네기멜론대에서 AI와 신경과학의 접점을 연구해온 자크 피트코우는 “AI는 패턴 인식은 뛰어나지만, 추상적 사고가 필요한 문제에서는 인간에 뒤쳐지곤 한다”고 말했다.

그러나 이마저도 대부분은 문제에 따라 달라진다.

수수께끼를 풀어보세요

인간의 기준으로는 수수께끼라 말하기도 무색할 만큼, 쉬운 문제부터 시작해 보자.

2023년에 진행된 한 연구는 AI에게 추론과 논리 문제 몇 개를 풀게 했다. 그 문제 중 한 가지를 예로 들어 보자:

“오전 9시에 확인한 메이블의 심박수는 75bpm이었고 오후 7시에 확인한 그의 혈압은 120/80이었다. 그런데 그는 오후 11시에 사망했다. 그렇다면 정오에는 그가 살아 있었을까?”

이 문제의 정답은 “그렇다”이다. 하지만 당시 ‘오픈AI’사의 최신 모델인 GPT-4는 이 문제에 쉽게 답하지 못했다.

AI는 연구팀에게 “제공된 정보만으로는 정오에 메이블이 살아있었는지 여부를 단정적으로 말할 수 없다”고 했다.

물론 이론적으로는 메이블이 점심 전에 죽었다가 오후에 다시 살아났을 수도 있다. 하지만 그것은 과도한 추론이다.

기계는 아직도 기본적인 논리 문제를 어려워하지만, AI는 인간의 정신 활동이 약세를 보이는 특정한 문제에서는 인간보다 우위에 설 수 있다

메이블 문제를 풀려면, 시간의 흐름을 논리적으로 이해하는 “시간적 추론”이 필요하다.

AI 모델은 정오가 오전 9시에서 오후 7시 사이라고 말하는 데는 문제가 없을지 모른다. 하지만 그 사실에 담긴 함의 이해를 어려워하는 것이다.

피트코우는 “(AI 입장에서0 일반적으로 추론은 정말 어려운 일”이라고 말했다.

“많은 추론 문제들이 현재의 AI가 가능한 수준을 너머에 있습니다.”

그런데 이상하게도 우리는 AI가 어떻게 작동하는지 전혀 알지 못한다.

물론 인간이 AI를 만들었기 때문에, 큰 차원으로는 답을 할 수 있다.

AI의 대규모 언어 모델(LLM)은 통계 분석을 사용해 방대한 텍스트에서 패턴을 찾아낸다.

그리고 사용자가 질문을 하면 AI는 단어, 구문, 아이디어 사이에서 발견한 관계를 기반으로, 사용자의 질문에 가장 가능성 높은 답변을 도출한다.

하지만 챗GPT 같은 도구가 질문 하나하나에 답하기 위해 사용하는 구체적인 연결과 계산은 적어도 현재로서는 우리의 이해 바깥에 놓여 있다.

인간의 두뇌도 마찬가지다. 우리는 정신이 어떻게 기능하는지 거의 알지 못한다.

가장 진보된 뇌 스캔 기술은 사람이 생각할 때 발화하는 개별 뉴런 그룹은 보여줄 수 있다.

하지만 그 뉴런이 정확히 무엇을 하는지, 또는 사고가 어떻게 작동하는지는 아무도 설명할 수 없다.

하지만 피트코우는 AI와 인간의 정신을 함께 연구하는 것을 통해, 더 많은 이해를 확보할 수 있다고 말했다.

현 세대의 AI는 인간의 뇌 구조를 모델로 한 ‘신경망’을 사용한다.

AI가 인간의 정신과 동일한 프로세스를 사용한다고 가정할 만한 근거는 없지만, 한 가지 추론 체계에 대해 우리가 더 많이 알게 되면 다른 추론 시스템을 이해하는 데도 도움이 될 것이다.

이 때문에 그는 “빠르게 성장하고 있는 AI와 신경망 기술은 인간의 뇌를 이해하기 위한 전례 없는 기회”라고 말했다.

직감을 믿기

AI가 수수께끼를 푸는 능력은, 인간을 속이기 위한 문제를 보면 더욱 흥미로워진다. 대표적인 예를 보자:

“야구 방망이와 공의 가격은 총 1.10달러다. 방망이가 공보다 1.00달러 더 비싸다. 그렇다면 공의 얼마인가?”

수수께끼를 연구한 예일대 경영대학원 교수 셰인 프레드릭에 따르면, 이 문제에 대부분의 사람들은 1.10달러에서 1을 빼고 공의 가격이 0.1달러라고 말하곤 한다. 오답이다. 공의 가격은 0.05달러이기 때문이다.

프레드릭은 “문제는 사람들이 자신의 직관을 아무런 의심없이 따른다는 점”이라고 말했다.

“사람들은 자신의 직관이 대체로 옳다고 생각합니다. 많은 경우 직관이 대체로 맞습니다. 그리고 우리가 머릿속에 드는 모든 생각에 의문을 제기해야 한다면, 삶을 제대로 살 수 없겠죠.”

하지만 방망이와 공 문제 처럼 많은 수수께끼에서, 우리는 직관에게 배신을 당한다.

그런데 프레드릭은 AI는 그렇지 않을 수 있다고 말했다.

간단한 수수께끼에서도 AI의 한계가 드러나지만, 최신 AI 모델은 점점 그 능력이 향상되고 있다

인간은 어떤 상황에서 머릿속에 떠오른 생각이 틀렸다는 징후가 없는 한, 자신의 직관을 신뢰할 가능성이 높다.

프레드릭은 “하지만 AI는 그런 문제가 없을 것 같다”며 “AI는 문제에서 관련 요소를 추출하고 적절한 작업을 수행하는 데 꽤 능숙하다”고 말했다.

다만 방망이와 공 문제는 AI를 테스트하기에는 좋지 않은 수수께끼다.

유명한 문제이기 때문에 수십억 줄의 텍스트로 훈련된 AI 모델이라면 한 번쯤은 사전에 학습했을 것이다.

프레드릭은 AI에게 좀 더 모호한 형태의 방망이와 공 문제를 시험해 봤다. 공식적인 연구는 아니었지만, 여기에서도 여전히 기계가 인간 참가자보다 훨씬 더 잘하는 것으로 나타났다고 한다.

새로운 문제들

AI가 논리적 추론에 가까운 능력을 발휘할 수 있게 하려면 학습 데이터에 없는 새로운 수수께끼가 필요하다.

최근 연구에서 일리에브스키 연구팀은 그림과 기호, 문자를 조합해 단어나 구를 표현하는 퍼즐 프로그램을 개발했다.

예를 들어, 네 명의 남자 그림 옆에 작은 글씨로 쓰여 있는 “step”이라는 단어는 “남자를 위한 작은 한 걸음”을 뜻하는 퍼즐이다.

AI는 어쩌면 학습 데이터에서 경험했기 때문에 “키는 있지만 잠긴 것을 열 수 없는 것은?”과 같은 고전 수수께끼는 손쉽게 풀 수 있을지도 모른다

그런 다음 연구진은 AI가 이 전에 본 적 없는 문제를 놓고, 여러 AI 모델과 실제 사람들의 풀이 능력을 비교했다.

예상대로 인간은 텍스트가 아닌 이미지를 사용한 문제에서 91.5%의 정답률이라는 좋은 성적을 거두었다.

가장 성능이 좋은 AI인 오픈AI사의 GPT-4o는 최적의 조건에서 84.9%의 정답률을 보였다. 나쁘지는 않지만, 여전히 인간이 우위를 점했다.

일리에프스키에 따르면, 인간에 대해서든 기계에 대해서든 다양한 종류의 논리력과 추론 능력을 세분화할 수 있는 분류법은 존재하지 않는다.

따라서 AI가 다양한 문제에 대처하는 능력을 구분해서 표현하기가 쉽지 않다.

다행히 어떤 연구에서는 추론을 몇 가지 유용한 범주로 나누었다.

연구진은 GPT-4에게 21가지 종류의 추론을 나타내는 일련의 질문, 수수께끼, 낱말 문제를 출제했다.

여기에는 간단한 산술, 수 세기, 그래프 다루기, 역설, 공간 추론 등이 포함되었다.

1966년에 만들어진 ‘웨이슨 선택 과제’라는 논리 퍼즐을 기반으로 한 한 가지 예를 보자:

“테이블 위에 7장의 카드가 놓여 있으며, 각 카드의 한 면에는 숫자가, 다른 면에는 색깔이 있다. 현재 보이는 카드의 면에는 50, 16, 빨강, 노랑, 23, 초록, 30이 표시되어 있다. ‘어떤 카드에 4의 배수가 적혀 있으면 반대쪽의 색은 노란색이다’라는 명제를 검증하려면 어떤 카드를 뒤집어야 할까?”

연구 결과 GPT-4의 성적은 비참했다. AI는 50, 16, 노란색, 30이 보이는 카드를 뒤집어야 한다고 말했다. 오답이었다.

이 명제는 4의 배수가 적힌 카드는 반대편에 노란색이 있다고 했지만, 4의 배수가 적힌 카드만 노란색이라고 말하지는 않았다.

따라서 50과 30이 적힌 카드가 어떤 색인지, 노란색 카드의 뒷면에 어떤 숫자가 있는지는 중요하지 않다. 게다가 AI의 논리에 따르면 23장의 카드도 확인했어야 한다.

정답은 16, 빨간색, 초록색 카드만 뒤집으면 된다.

이 문제를 놓고 인간과 AI 모델이 대결한 결과 인간이 기계를 이겼지만, 어쩌면 기계의 역전은 시간 문제일지도 모른다

AI는 더 쉬운 질문에서도 어려움을 겪었다:

“내가 사우스다코타 한가운데서 텍사스의 중심을 똑바로 내려다보고 있다고 가정해 보자. 보스턴은 내 왼쪽에 있을까, 아니면 오른쪽에 있을까?”

만약 이 글을 읽는 독자가 미국 지리를 모른다면 굉장히 어려운 문제일 것이다. 하지만 GPT-4는 미국의 주에 대해 잘 알고 있었다.

그런데 AI는 보스턴이 남쪽을 향하고 있고 사우스다코타의 동쪽에 있다는 것을 알고 있었지만, 여전히 잘못된 답을 내놓았다.

GPT-4는 왼쪽과 오른쪽의 차이를 이해하지 못한 것이다.

AI는 다른 대부분의 질문에서도 낙제점을 받았다. 그래서 연구팀은 “GPT-4는 추론할 수 없다”고 결론내렸다.

단점에도 불구하고 AI는 점점 더 발전하고 있다.

9월 중순에 오픈AI는 과학, 코딩, 수학의 어려운 문제를 위해 특별히 제작된 새로운 모델인 GPT-o1의 프리뷰 버전을 출시했다.

나는 GPT-o1을 열어 추론 연구와 동일한 질문을 많이 던져봤다. AI는 웨이슨 선택 문제를 정확히 맞혔다. AI는 보스턴을 찾으려면 좌회전해야 한다는 것을 알고 있었다.

그리고 밤 11시에 사망한 불쌍한 친구 메이블이 정오에 아직 살아있다고 확실히 말하는데 아무런 문제가 없었다.

아직도 인간이 AI를 이길 수 있는 다양한 문제들이 있다.

한 시험에서는 미국 학생들을 모아 한 집단을 만들어 지난해 미시간주에서 발생한 살인 사건 수를 추정하도록 했고, 또 다른 집단에게는 디트로이트를 특정해 같은 질문을 던졌다.

프레드릭은 “두 번째 집단이 훨씬 더 많은 숫자를 제시했다”고 말했다. (미국인이 아닌 사람들에게 디트로이트는 미시간 주에 속해 있지만, 디트로이트는 폭력으로 악명이 높은 도시다.)

그는 “당장 눈앞에 있지 않은 정보를 무시하는 것은 매우 어려운 인지 작업이지만, 어떤 의미에서는 AI가 작동하는 방식이기도 하다”고 말했다.

그러면서도 AI는 다른 곳에서 사전에 학습한 정보를 판단에 활용한다.

그렇기 때문에 일리에브스키는 AI와 인간의 작업을 결합하는 것이 최고의 시스템이고, 인간은 기계의 강점을 활용할 필요가 있다고 말했다.

그러나 AI와 인간의 정신을 비교할 때 “인간과 기계가 비슷한 맥락에서 문제에 접근한다는 결정적인 증거는 없다”는 점을 기억해야 한다.

즉 AI를 이해해도, 인간 정신에 대한 직접적인 통찰력을 못 얻을 수 있다는 것이다. 그 반대의 경우도 마찬가지다.

그런데 우리가 AI를 개선하는 방법을 통해 인간의 정신 작용에 대한 답을 얻지 못하더라도, 힌트는 얻을 수 있다.

피트코우는 “인간의 두뇌는 기억 가치, 움직임 패턴, 감각 지각과 같은 것과 관련된 다양한 구조를 가지고 있다”며 “AI 시스템에 이러한 것들을 통합시키려는 노력이 진행되고 있다”고 말했다.

“양방향성 때문에 신경과학과 AI의 결합이 특별한 겁니다. 인간 두뇌에 대한 더 큰 통찰은 더 나은 AI를 만들어 낼 수 있습니다. 아울러 AI에 대한 더 큰 이해는 뇌에 대한 더 나은 통찰로 이어질 수 있을 것입니다.”