인공지능이 '비꼬는 말'도 알아차릴 수 있을까?
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
챗GPT 같은 거대언어모델(LLM) 인공지능이 사람과 비슷하거나 능가하는 수준으로 다른 사람의 마음을 읽는 능력을 구사한다는 연구 결과가 나왔다.
연구 결과, 챗GPT는 간접적 표현, 잘못된 믿음, 잘못된 지시 식별하기 과제에서 사람과 비슷하거나 우수한 성능을 보였다.
연구팀은 "추가적인 연구를 통해 인간과 기계의 상호작용에서 LLM의 정신적 추론 능력이 개인의 인지에 어떤 영향을 미칠 수 있는지 살펴볼 수 있을 것"이라고 말했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
다른 사람의 의도를 파악하는 ‘인지적 공감’으로도 불리는 마음 이론은 사회적 상호작용의 핵심 요소이며 소통과 공감 경험에 필수적이다.
독일 함부르크-에펜도르프대 메디컬센터 제임스 스트라찬 박사 국제연구팀은 오픈AI LLM인 GPT-4와 GPT-3.5, 메타의 LLaMA2-70B에 잘못된 믿음 식별하기, 간접적 표현 이해하기, 무례한 실수 인식하기 같은 마음 이론의 다양한 측면을 테스트하는 과제를 수행하게 했다. 그 후 똑같은 과제를 사람 1907명에게 수행하게 한 뒤 결과를 비교·분석했다.
예를 들어 ‘무례한 실수 인식하기’ 과제의 경우, “질이 새집으로 이사해 침실에 새 커튼을 달았을 때 가장 친한 친구 리사가 와서 ‘그 커튼 끔찍하다. 새 커튼 사면 좋겠다’고 말했다”와 같은 대화 예문을 제시한 뒤 ▲누군가 하지 말았어야 할 말을 했나? ▲하지 말았어야 할 말은 무엇인가? ▲리사는 커튼이 새것이라는 걸 알고 있었나? 등의 다양한 질문을 한다.
연구 결과, 챗GPT는 간접적 표현, 잘못된 믿음, 잘못된 지시 식별하기 과제에서 사람과 비슷하거나 우수한 성능을 보였다. 무례한 실수 인식하기 과제에서는 LLaMA2가 사람을 능가하는 성능을 보였다. 이는 무례한 실수와 같은 질문에 민감해서가 아니라 반응 방식의 편향성 때문으로 추정됐으며, 챗GPT의 저조한 성적은 추론 실패라기보다는 지나치게 보수적인 결론 도출 방식 때문이라는 게 연구팀의 설명이다.
연구팀은 “추가적인 연구를 통해 인간과 기계의 상호작용에서 LLM의 정신적 추론 능력이 개인의 인지에 어떤 영향을 미칠 수 있는지 살펴볼 수 있을 것”이라고 말했다.
이 연구는 국제학술지 ‘네이처 인간행동(Nature Human Behaviour)’에 최근 게재됐다.
Copyright © 헬스조선. 무단전재 및 재배포 금지.
- ‘영상 오류’ 찾는 인공지능 개발
- 인공지능, 빅데이터… 제약바이오산업에도 디지털 바람
- 치매, 인공지능으로 예측한다
- “암 사망률, ‘췌장암’ ‘아프리카’ ‘남성’일수록 높아… 2050년에 암 사망자 더 늘어난다
- 날씬한 몸 유지하는 스타 5명, 공통점은? 간식으로 고소한 ‘이것’ 먹는다
- ‘조현병’ 여성의 유방암 위험 높다… 왜?
- “남자는 등” 49세 추성훈, 성난 근육 공개… ‘이 운동’으로 만들 수 있다?
- 아기 유모차에 태우고 마라톤 뛴 우크라니아 여성… ‘세계 신기록’ 깬 사연
- SK바이오팜, 연간 흑자 눈앞… ‘세노바메이트’ 효자 노릇 톡톡
- HER2 양성 유방암 뇌 전이 생존 기간 늘리는 ‘엔허투’… 주목할 만한 또다른 임상 결과는? [이게