인공지능, '무례한 실수'도 알아챈다

[ 김주미 기자 ]

챗GPT 같이 자연스러운 대화를 구사하는 거대언어모델(LLM) 인공지능이 사람과 비슷하거나 능가할 정도로 다른 사람의 마음을 읽는 능력을 구사할 수 있다는 연구 결과가 나왔다.

독일 함부르크-에펜도르프 대학 제임스 스트라찬 박사의 국제연구팀은 LLM 모델인 챗GPT와 LLaMA2가 다른 사람의 정신 상태를 추측하는 '마음 이론'(Theory of Mind) 능력 테스트에서 인간과 비슷하거나 유사한 성능을 나타냈다고 21일 밝혔다.

'마음 이론'은 타인의 의도를 알아차리는 인지적 공감을 의미한다. 이는 사회적 상호작용과 소통, 공감에 필수적이다.

연구팀은 이전 연구를 통해 LLM이 객관식 의사 결정 등 복잡한 인지 작업을 할 수 있다는 사실이 밝혀졌으나, 인간의 고유 능력으로 알려진 마음 이론 과제도 수행할 수 있는지는 아직 확실치 않았다고 연구 배경을 설명했다.

연구팀은 이번 연구에서 오픈AI의 LLM 모델인 GPT-4와 GPT-3.5, 메타의 LLaMA2-70B를 대상으로 잘못된 믿음 식별하기, 무례한 실수 인식하기, 간접적 표현 이해하기 등 마음 이론의 여러 측면을 테스트하는 과제를 수행하게 했다. 이후 사람 1천907명에게도 같은 과제를 수행하게 하고 결과를 분석했다.

예를 들어 '무례한 실수 인식하기' 과제의 경우, '질이 새집으로 이사해 침실에 새 커튼을 달았을 때 가장 친한 친구 리사가 와서 "그 커튼 끔찍하다. 새 커튼 사면 좋겠다."고 말했다.'와 같은 대화 예문을 제시한 뒤 △누군가 하지 말았어야 할 말을 했나? △하지 말았어야 할 말은 무엇인가? △리사는 커튼이 새것이라는 걸 알고 있었나? 등의 다양한 질문을 한다.

실험 결과 챗GPT는 세 가지 과제(간접적 표현, 잘못된 지시, 잘못된 믿음 식별하기)에서 사람과 비슷하거나 더 나은 수준의 성능을 보였지만 LLaMA2는 사람보다는 낮은 수준의 성능을 나타냈다.

다만 '무례한 실수 인식하기' 과제에서는 LLaMA2가 사람을 능가하는 성능을 보였지만, 챗GPT는 과제 수행에 어려움을 겪었다. LLaMA2가 높은 성능을 보인 것은 이런 실수에 정말 민감해서가 아니라 반응 방식의 편향성 때문으로 추정됐다.

연구팀은 LLM이 마음 이론 과제에서 인간과 비슷한 수준의 수행 능력을 보여줬다고 해서 인간과 유사한 능력을 갖췄다는 의미는 아니라고 설명했다.

이 연구 내용은 과학 저널 네이처 인간 행동(Nature Human Behaviour) 최신호에 게재됐다.

김주미 키즈맘 기자 mikim@kizmom.com

문화

인공지능, '무례한 실수'도 알아챈다