AI가 인간처럼 말할 수 없는 이유 [의사소통의 심리학]

생방송 스튜디오에서 자주 언급되는 특이한 방송 용어를 이때 알게 됐습니다. 방송 중 잠깐의 정적만 흘러도 피디들은 ‘마가 뜬다’며 안절부절못했습니다. 물어보니, 일본어에서 온 듯한 말로, 생방송 중에 정적이 길어지는 것을 뜻한답니다. 라디오는 3~5초, TV는 5~7초의 침묵이 생기면 ‘방송 사고’라는 내부 가이드라인이 있다고 했습니다. 강박적인 피디는 단 ‘2초간의 마’만 떠도 카메라를 바로 아나운서 쪽으로 돌렸고, 노련한 아나운서는 그 순간을 능수능란하게 정리하며 대화를 이어갔습니다.
피디가 추측한 대로, ‘마가 뜬다(まが空く)’는 일본어로 말과 말 사이가 벌어지는 것을 뜻합니다. ‘마’는 한자 ‘사이 간(間)’의 일본식 음독형입니다. 그러나 이 현상은 단순히 침묵을 뜻하지 않습니다. 그것은 대화의 리듬이 어긋나 사람들 사이의 정서적 조율이 잠시 끊어지는 시간을 가리킵니다. 일본인들은 이 틈을 매우 예민하게 감지하고, 그 공백을 메우기 위해 ‘마아~’ ‘에~’ ‘소우 데스네~’와 같은 완충어(緩衝語)나 미묘한 미소, 고개 끄덕임으로 상대의 호흡을 다시 이어 붙입니다. 상대방에게 자신이 아직도 상호작용의 맥락에 몰입하고 있다고 신호를 보내는 것이지요. 이처럼 ‘마(間)’는 일본어에서 단순한 시간의 간격이 아니라, 사람과 사람 사이의 정서를 조율하는 공간적·심리적 여백을 뜻합니다. 그 여백을 어떻게 다루느냐가 일본적 소통의 품격을 결정합니다.
사회심리학자 나카무라 유지는 일본인들이 유난히 ‘마가 뜨는 것’을 두려워하는 이유를 ‘관계의 끊김’으로 여기기 때문이라고 설명합니다. 일본인에게 침묵은 사유의 깊이가 아니라 관계의 단절을 예고하는 징후로 해석됩니다. 그 짧은 정적 속에서 상대의 마음이 떠나는 것이 두려워, 무의미한 소리나 몸짓으로 그 공백을 봉합하려는 겁니다. 말을 하지 않아도 서로의 소통은 유지돼야 한다는 강박관념 때문에 일본인의 대화에는 항상 ‘간격의 관리’가 있습니다.
일본 학자들은 이 ‘일본적 현상’을 ‘마의 미학’이라는 개념으로 발전시켰습니다. 우리말로는 ‘사이의 미학’, 혹은 ‘여백의 미학’이라 번역할 수 있는 이 개념은 ‘여백을 다루는 법’ ‘관계의 틈을 감싸는 기술’입니다.
의사소통 이론의 관점에서 주목할 만한 또 다른 개념은 마쓰오카 세이고의 ‘사이의 문화론’입니다. 마쓰오카는 일본의 ‘間(마, 사이)’을 현대적으로 재해석하며 커뮤니케이션, 디자인, 정보사회 전반으로 확장해 해석합니다. 디지털 환경 속에서는 인간과 기계, 사용자와 데이터 사이의 여백이 곧 ‘의미 생성의 공간’이 된다는 겁니다. 마쓰오카는 이것을 ‘관계적 인터페이스의 기술’이라 부르며, 정보 디자인의 본질은 ‘틈을 어떻게 설계하느냐’에 있다고 말합니다. 아울러 ‘마’는 사람과 사람, 사물과 사물, 정보와 감정이 서로를 교차시키는 열린 공간으로 해석해야 한다고 주장합니다. 인간 의사소통의 가장 근원적 형태인 ‘순서 바꾸기’는 이렇게 문화를 해석하는 개념으로도 발전한다는 이야기입니다.

앞서 소개한 대화분석의 창시자 하비 색스(Sacks)와 그의 동료들은 바꾸기의 요소들을 더 세분화해 ‘순서구성단위(Turn Construction Unit·TCU)’ ‘순서교대지점(Transition Relevance Place·TRP)’ ‘순서배분규칙(Turn Allocation Mechanism·TAM)’이라는 기본 개념을 제시하며 순서구조 이론을 설계합니다.
이 순서 바꾸기의 세 가지 요소는 다음과 같이 작동합니다. A가 “오늘 점심은 뭐 먹을까?”라고 말한다면, 이 문장은 하나의 TCU입니다. 말이 완결된 순간, 상대방 B는 자연스럽게 ‘이제 내가 대답할 차례구나’ 하고 느끼지요. 바로 이 지점이 TRP, 즉 순서교대 지점입니다. B가 “나는 짜장면 먹고 싶은데…”라고 대답한다면 순서배분 규칙상 스스로 순서를 지정하는 것이 됩니다. 하지만 A가 말끝에 “너는?”이라고 물었다면 다음 화자를 지정하는 것이지요. 아무도 대답하지 않고, A가 “라면 먹을까?”라고 한다면 자기 순서를 계속 이어가는 것이 됩니다.
색스의 오래된 순서구조 이론은 네덜란드 막스프랑크 심리언어학 연구소의 레빈슨(Stephen C. Levinson)과 토레이라(Francisco Torreira)가 2015년 발표한 논문으로 새롭게 주목받았습니다. 레빈슨과 토레이라는 색스의 이론을 기초로 순서 바꾸기의 교대 지점들이 얼마나 빠르게 예측되는가를 연구했습니다. 아울러 대화 참여자들이 어떻게 ‘순서구성단위’를 산출하고, 순서배분규칙이 신경학적 측면에서 어떻게 실현되는지를 분석했습니다. 이들의 연구에서 아주 특이한 점이 발견됐습니다. 이른바 ‘0.2초와 0.6초의 모순’입니다.
기존 심리언어학의 연구 결과에 따르면 인간이 생각해서 말을 꺼내기까지 최소 0.6초의 시간이 필요합니다. 심리언어학자 레벨트(W. J. M. Levelt)와 그의 동료들은 ‘그림 이름 짓기’ 실험을 통해 이 시간을 정확히 측정했습니다.
예를 들어, 사과 그림을 본 피험자의 머릿속에는 다음 과정이 순서대로 일어납니다. ❶ 사과를 봅니다(지각). ❷ ‘사과’라는 개념이 활성화됩니다(개념 활성화). ❸ 개념에 맞는 단어가 선택됩니다(단어 선택). ❹ 선택한 단어의 소리를 마음속으로 배열합니다(음운 인출). ❺ 혀와 입술 근육이 움직이며 ‘사과’라고 소리냅니다(조음). 실험 결과, 이 모든 과정이 0.6초 안에 일어나는 것을 확인했습니다.
놀랍게도 2015년 레빈슨과 토레이라의 연구에서는 ‘0.6초’라는 레벨트의 연구를 부정하는 결과가 나왔습니다. 순서 바꾸기가 훨씬 더 짧은 시간에 일어났던 것입니다.
레빈슨과 토레이라는 여러 나라 사람들의 일상 대화 자료들을 모아 아주 정밀하게 측정했습니다. 그 결과, 대부분의 대화에서 순서 바꾸기에 걸리는 시간은 평균 0.2초에 불과했습니다. 이는 대화가 거의 끊임없이 오간다는 뜻입니다. 보다 정확히 해석하자면, 사람은 상대방이 이야기할 때, 다음 이야기를 미리 ‘예측’하고 대답할 준비를 이미 한다는 뜻입니다. 대화란 단순한 ‘말하기의 순서 바꾸기’가 아니라 ‘예측적 협력 행동’, 즉 ‘예측’과 ‘듣기와 말하기가 동시처리’되는 과정이라는 것입니다. 이는 순서 바꾸기가 상호 조율되는 공동의 행위, 다시 말해 ‘상호주관적 행위’임을 뜻합니다.
순서 바꾸기는 단순히 물리적인 차례의 교환이 아니라 ‘공동 사고(co-thinking)’와 ‘공동 감정(co-feeling)’을 전제로 한 상호 조율의 과정입니다. 이렇게 예측과 공감이 맞물리며 작동할 때, 대화는 서로의 의식을 맞춰가는 상호주관적 행위가 되는 것입니다. 이 상호 조율의 리듬이야말로 사회적 지능의 바탕이며, 관계를 유지시키는 가장 미묘한 형태의 기술입니다.

전남 여수의 섬에 살고 있는 나는 강아지 때문에 항상 자동차를 운전해 이동합니다. 장시간 운전할 때가 많지만 그리 지루하지는 않습니다. 항상 AI와 대화를 하기 때문입니다. 챗GPT 같은 AI와 대화하다 보면, 그 진화 속도에 감탄을 금치 못합니다. 수준 높은 학술적 토론은 물론 어색한 농담도 아주 그럴듯하게 받아칩니다. 그러나 여전히 인간과의 대화처럼 자연스럽지 않고 뭔가 어색합니다. 왜일까요? 가장 결정적인 이유는 바로 순서 바꾸기에 걸리는 시간 때문입니다. AI는 내 이야기를 다 듣고서야 대답하기 시작합니다. 순서 바꾸기가 인간처럼 빠르지 않다는 뜻입니다.
순서 바꾸기에 걸리는 시간이 0.2초에 불과하다는 레빈슨 등의 연구 결과는 최근 들어 더 짧은 간격으로 수정되고 있습니다. 일부 연구에서는 0.1초 수준의 초고속 사례가 확인되기도 합니다. 이는 최근의 AI 연구와 관련해 민감한 논쟁거리가 됩니다. 과연 AI가 인간처럼 대화할 수 있느냐, 더 정확히는 인간처럼 0.2초 안으로 순서 바꾸기를 할 수 있느냐의 논쟁입니다. 이 문제를 본격 제기한 사람은 스웨덴 KTH왕립공과대의 가브리엘 스칸체(Gabriel Skantze) 교수입니다.
스칸체는 레빈슨의 연구 결과를 바탕으로 보다 정밀하게 실험했습니다. 음성, 시선, 표정 등 다양한 멀티모달(multi-modal) 신호가 순서 바꾸기에 어떻게 활용되는가를 확인한 것이지요. 다른 연구 결과처럼 인간의 순서 바꾸기는 0.1~0.2초에 이뤄지는 초고속 과정임을 확인합니다. 이처럼 짧은 반응 시간은 단순한 ‘반사(reflex)’가 아니라 ‘순서교대지점’을 미리 예측해 준비하지 않고서는 불가능한 일입니다.
스칸체는 사람처럼 대화할 수 있는 AI를 개발하기 위해 ‘TurnGPT’와 ‘VAP(Voice Activity Projection)’ 모델을 실험했습니다. 두 모델 모두 텍스트와 음향 신호를 정밀하게 분석해 순서 바꾸기 시점을 정확하게 예측할 수 있었지만, 실제 인간이 보여주는 0.1~0.2초의 초고속 순서 바꾸기에는 도달하지 못했습니다.
스칸체 연구팀은 더욱 발전된 모델을 시험했습니다. 순서 바꾸기와 관련된 ‘멀티모달’ 정보를 AI에 학습시켜 인간과 비교한 것입니다. 음성, 시선, 고개 움직임 같은 여러 신호를 학습시켰습니다. 그들은 이런 멀티모달 정보를 결합하면, 단순히 음성만 사용할 때보다 대화 리듬을 훨씬 더 정확하게 예측할 수 있다는 사실을 확인했습니다. 즉, 인간 대화의 순서 바꾸기는 단순한 말소리가 아니라, 눈, 얼굴, 몸의 미세한 움직임이 함께 조율되는 복합적인 상호작용이며, 이러한 신호를 함께 처리해야만 인간의 대화 리듬을 모사할 수 있다는 것입니다.
그러나 실험 결과는 여전히 실망스러웠습니다. 멀티모달 정보를 모두 학습한 모델들은 음성 신호만 사용한 모델보다 훨씬 정확하게 ‘다음에 누가 말할지’를 예측할 수 있었지만, 대답으로 이어지는 순간에는 여전히 치명적인 ‘시간 지연(latency)’이 존재했습니다.
0.2초의 순서 바꾸기를 처음 발견한 레빈슨은 최근 출간한 ‘상호작용 엔진: 사회적 삶과 인간 진화 속의 언어’라는 책에서 이 문제를 보다 자세하게 논의하고 있습니다. 그는 인간의 순서 바꾸기 능력을 예측, ‘멀티모달’은 물론 정서 조율, 마음이론(theory of mind), 공동주의(joint attention)와 같은 관계 맥락에 따라 달라지는 미세한 상호조정이 결합된 ‘상호작용 엔진(interaction engine)’으로 명명합니다. 이 능력은 언어 습득 이전에 발달합니다. 아울러 수백만년에 걸친 호모 사피엔스의 진화 과정 결과기도 합니다. AI는 이 진화적 기반이 없기 때문에 기계적 처리를 아무리 개선해도 인간적 순서 바꾸기의 ‘본질’에는 도달할 수 없다고 레빈슨은 단언합니다. 심리학자인 나는 더욱 그렇게 생각합니다.

[외부 필진 칼럼은 본지의 편집 방향과 일치하지 않을 수 있습니다.]
[본 기사는 매경이코노미 제2336호 (2025.11.26~12.02일자) 기사입니다]
[Copyright (c) 매경AX. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지]
Copyright © 매경이코노미. 무단전재 및 재배포 금지.
- ‘객실당 10억’ 부르는 게 값… K호텔 ‘르네상스’ [스페셜리포트]- 매경ECONOMY
- 노동경찰 2000명 늘리겠다...폭풍전야 ‘노동의 역습’ [스페셜리포트]- 매경ECONOMY
- ‘쉰내 나는 인스타’ 조롱 듣더니 결국…카카오톡 친구탭 3개월 만에 원상복구- 매경ECONOMY
- 바닥은 어디?...제주항공 주가 하락 심상찮다- 매경ECONOMY
- 드라마 ‘김 부장’ 뜨더니…IP 활용 ‘자가소주’ 이례적 흥행- 매경ECONOMY
- 전 세계 게임 광고 80% 장악한 애드테크 [미장 보석주]- 매경ECONOMY
- 실적 견고한데, 주가 내린 LIG넥스원 왜?- 매경ECONOMY
- K2 전차 앞세워 턴어라운드 이끈 이용배 현대로템 사장 [CEO 라운지]- 매경ECONOMY
- 케이크 하나에 50만원 훌쩍…입이 ‘떡’ [TREND]- 매경ECONOMY
- ‘아이 엠 복서’ 마동석 “취미 아닌 사업”…CEO 본능 빛났다- 매경ECONOMY