챗GPT '유추 추론'도 한다…"대학생 수준 추론 성능 보여"

생성형 인공지능(AI) 챗봇 '챗GPT'(GPT-3)가 인간만의 고유 능력으로 여겨져 온 '유추 추론'(analogical reasoning)을 대학생 수준으로 할 수 있는 것으로 나타났습니다.

미국 로스앤젤레스 캘리포니아대(UCLA) 테일러 웹 박사팀은 1일 과학저널 '네이처 인간 행동'(Nature Human Behaviour)에서 GPT-3가 지능검사와 SAT 같은 표준화된 시험에 사용되는 종류의 추론 문제를 대학 학부생과 비슷한 수준으로 풀 수 있는 것으로 나타났다고 밝혔습니다.

연구팀은 그러나 오픈AI사가 내부 작동 방식을 공개하지 않아 GPT-3가 방대한 데이터세트를 활용한 언어 훈련을 통해 인간의 추론을 모방하는 것인지, 근본적으로 새로운 종류의 인지 프로세스를 사용하는 것인지 알 수 없다고 지적했습니다.

사람들은 접해보지 못한 새로운 문제를 만나면 이전의 익숙한 문제와 비교해 그 해결책을 새 문제에 적용, 특별한 훈련이나 연습 없이도 문제 해답을 찾습니다.

'유추 추론'으로 알려진 이 과정은 오랫동안 인간 고유의 능력으로 여겨져 왔습니다.

연구팀은 지능검사와 SAT 같은 시험에서 일반적으로 사용되지만 GPT-3는 학습 과정에서 접해보지 못했을 형태의 다양한 유추 추론 문제를 개발하고 발굴해 테스트하고, 똑같은 문제를 UCLA 학부생 40명에게 풀게 했습니다.

평가에 사용된 문제는 레이븐 지능검사 도형 유추, 텍스트 기반 행렬 추론, 문자열 유추, 단어 유추, 스토리 유추 등으로 먼저 주어진 예시에서 패턴을 파악하고 다음 상황에 맞는 답을 찾는 문제였습니다.

예를 들어 단어 유추의 경우 '사랑 : 증오 = 부자 : ?'에서 '가난'이라는 해답을 찾는 식입니다.

실험 결과 GPT-3는 행렬 추론에서 정답률이 80%로 실험 참여 대학생들 평균(60%)보다 훨씬 높은 점수를 기록하는 등 대부분 분야에서 대학생들과 비슷하거나 높은 수준의 추론 성능을 보였습니다.

연구팀은 그러나 GPT-3가 일부 추론 문제에서는 예상보다 훨씬 뛰어난 성능을 보였지만 일부 분야에서는 사람에게는 매우 쉬운 문제에도 말도 안 되는 답을 내놓는 등 실패 사례도 다수 보였다고 밝혔습니다.

GPT-3는 대학생들보다 SAT 점수는 더 높았지만 한 구절을 읽고 같은 의미를 전달하는 다른 이야기를 찾는 스토리 유추에서는 학생들보다 성적이 낮았고 특히 물리적 공간 이해가 필요한 도구 사용 문제는 잘 풀지 못하는 것으로 나타났습니다.

연구팀은 GPT-3는 대부분의 경우 인간 능력과 비슷하거나 능가하는 추상적 패턴 유추 능력을 보였다며 이는 GPT-3 같은 거대언어모델 AI가 광범위한 유추 문제에서 학습 없이 해답을 찾을 수 있는 추론 능력을 갖췄음을 보여준다고 말했습니다.

다만 연구팀은 GPT-3는 장기 기억력이 없고 관련 자료가 모두 제공돼야만 추론을 할 수 있다는 한계가 있으며 작동 방식 또한 불분명하다고 지적했습니다.

연구팀은 이런 언어학습모델이 진짜 사람처럼 '생각'하기 시작한 것인지, 아니면 단순히 인간의 생각을 모방하는 완전히 다른 일을 하고 있는 것인지 연구할 수 있기를 희망한다고 밝혔습니다.

(사진=게티이미지코리아, Nature Human Behaviour. Taylor Webb et al. 캡처, 연합뉴스)

유영규 기자 sbsnewmedia@sbs.co.kr

SBS

경제

챗GPT '유추 추론'도 한다…"대학생 수준 추론 성능 보여"