챗지피티는 ‘수포자’…AI가 초등 수학문제 푸는 이유

한겨레 2024. 2. 18. 10:05
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[한겨레S] 이관수의 인공지능 열전
꼬리를 무는 질문 ‘사고의 연쇄’
챗지피티 등 산출물 질 높아져
초등수학 풀이 단계 나눠 훈련
인공지능 성능 향상 목적 활용
오픈에이아이 최고경영자 샘 올트먼이 지난 13일(현지시각) 아랍에미리트 두바이에서 열린 세계정부정상회의(WGS)에서 우마르 울라마 아랍에미리트 인공지능부 장관과 화상으로 대화하고 있다. AFP 연합

작년 11월 중순 오픈에이아이의 경영자 샘 올트먼이 축출되었다 복귀한 사건의 전말은 여전히 오리무중이다. 로이터 통신과 디인포메이션의 보도를 통해 초등학생 수준의 수학 문제를 풀 수 있는 큐스타(Q*)라는 모델이 개발되었고, 올트먼이 이토록 중요한 기술 발전을 이사회에 알리지 않았기 때문에 벌어진 일이라는 설이 퍼졌지만, 아무도 시인도 부인도 하지 않았다. 만일 사실이라면 일반인공지능(Artificial General Intelligence)으로 가는 길이 열린 것 아니겠냐는 논평들이 쏟아졌다. 일반인공지능(AGI)은 범용인공지능이라고도 하는데, 특정 영역에서가 아니라 모든 분야에서 사람 또는 사람을 뛰어넘는 수준의 업무를 수행할 수 있다. 올해 1월에는 구글 딥마인드가평면기하학(원·삼각형 같은 도형의 성질을 다루는 학문) 증명 문제만큼은 국제 수학 올림피아드 금메달 수상자 실력에 “버금가게” 풀어낸다는 알파지오메트리를 공개했다. 올림피아드의 평면기하학 문제는 수준이 매우 높다는 점을 들어 인공지능의 중대한 발전이 이뤄지고 있다는 취지의 보도들이 줄지어 나왔다.

그런데 돌이켜보면 이상한 보도가 아닐 수 없다. 챗지피티가 의사·변호사 면허 필기시험을 통과하고, 와튼 경영대학원의 기말고사에서도 웬만한 학생 수준의 우수한 점수를 받았다는 보도들이 작년 봄부터 초여름까지 이어졌다. 전문직 필기시험보다 초등수학이 더 어렵다는 건가? 알파지오메트리 관련 보도도 의아하다. 평면기하학 명제를 증명하는 인공지능은 이미 1세대 인공지능 연구 시절에 여러모로 성과를 거둔 분야이기 때문이다. 1956년 다트머스 워크숍 직전부터 허버트 사이먼과 앨런 뉴얼은 논리 연산 프로그램을 개발했고, 여기에서 착상을 얻은 허버트 겔런터가 1958년 아이비엠(IBM)에서 소위 ‘기하 정리 기계’(geometry theorem machine) 프로그램을 개발하기 시작했다. 겔런터는 소스코드를 무료 배포했는데, 거기에 담긴 아이디어를 존 매카시가 기호주의 인공지능 시대를 풍미한 프로그래밍 언어, 리스프로 탈바꿈시켰다. 1980년쯤이면 평면기하학 명제 증명 인공지능 정도는 연구의 최전선에서 밀려날 정도로 진부하게 여겨졌다. 유클리드식 평면기하학은 수학의 방대한 영역 중에서 매우 좁고 단순한 분야인 탓도 있다. 그런데 왜 40여년이 지난 2024년에 평면기하학이 다시 거론될까?

챗지피티는 수포자?

이는 거대언어모델(LLM)의 특성과 관련이 깊다. 거대언어모델은 연관도 높은 순서대로 토큰(텍스트 조각)을 출력하다 보니, 계산이나 논리적 추론에는 상당히 취약하다. 월스트리트저널은 지난해 8월, ‘챗지피티는 3.5버전이나 4버전 모두 수학 문제들에 대한 정답률이 낮을 뿐만 아니라 몇달 사이에도 정답률이 오르내렸다’고 보도했다. 잘 틀리는 것은 당연하겠지만, 틀리는 정도라도 안정적이었으면 좋겠다는 한탄도 담겨 있었다.

물론 개발자들도 이 문제를 알고 있었다. 2022년에는 큰 질문을 한번에 던지는 것보다, 작은 질문을 단계적으로 던지는 ‘사고의 연쇄’(Chain of Thought) 기법이 더 나은 답변을 얻을 수 있다는 연구 발표가 있었다. 이 기법은 현재도 널리 쓰이는데, 사용자가 큰 질문을 작은 질문들로 나누는 솜씨가 좋을수록 결과가 좋다고 한다.

오픈에이아이는 이 문제를 우회하기 위해 초등수학 문제마다 100개의 후보 답변을 내놓고 이를 ‘답변판정 인공지능’이 점수를 매겨서 가장 점수가 높은 답변을 채택하는 방식으로 소규모 ‘답변생성 인공지능’을 훈련시켰다. 2010년대 초반 관심을 모았던 아이비엠 인공지능 ‘왓슨’을 비슷하게 따라 해본 셈이다. 8만5천개의 초등수학 문제를 수집해서 7만5천개의 문제를 훈련에 사용했다. 답변판정 인공지능이 딱히 추론 능력이 있는 것이 아니었는데도 이런 방식으로 훈련한 소형 인공지능은 나머지 1만개의 문제에 대해 답변을 내놓았고, 매개변수 개수가 30배나 많은 대형 답변생성 인공지능이 내놓은 것보다 더 정확도가 좋았다고 한다.

다음 차례는 초등수학 문제를 단계별로 나누어 푸는 훈련이었다. 답변판정 인공지능이 단계별 풀이를 평가하도록 하는 것이었는데, 입출력 규모가 지극히 작은 중간 단계만 따로 검증하는 언어모델을 만들 수 없어서 결국은 온라인 과외사이트에서 활동하는 ‘아르바이트 수학선생들’이 7만5천개의 초등수학 문제 풀이에 등장하는 80만개의 작은 과정을 평가하는 방식으로 진행했다. 이렇게 훈련시킨 인공지능을 문장 쓰기에 활용했더니, 각각 문장 4개로 구성된 4개 단락 크기의 글쓰기에서는 추론 오류가 훨씬 줄었다고 한다.

☞한겨레S 뉴스레터 구독하기. 검색창에 ‘한겨레 뉴스레터’를 쳐보세요.

☞한겨레신문 정기구독. 검색창에 ‘한겨레 하니누리’를 쳐보세요.

언어모델에 고전적 논리추론까지

알파지오메트리도 비슷한 방식을 채용했다. 언어모델이 증명과정처럼 보이는 답변을 출력하면, 제대로 된 결과인지를 ‘검증 인공지능’이 평가하는 방식이다. 단, 검증 인공지능은 현재 각광받는 인공신경망 방식이 아니라 1세대 연구자들이 개발한 논리추론 방식이었다. 언어모델로 하여금 검증 통과에 실패할 때마다 보조선을 추가해서 다시 답변을 출력하도록 프로그래밍했더니 최종 통과한 답변들 중에는 원래 문제에는 없던 보조선이 그려져 있는 것들이 많았다. 이런 연구 결과는 언론 보도를 거치면서 인공지능이 “창의적”으로 평면기하학 문제를 풀었다고 묘사됐다.

언어모델의 추론 능력을 올리기 위해 제안된 기법들로는 ‘생각의 나무’나 ‘생각 그래프’ 접근법도 있다. 검증을 통과하지 못하면 처음으로 돌아가는 게 아니라 직전 중간단계에서 다시 추론하는 방식이다. 이렇게 하면 추론을 시작해서 성공할 때까지 중간과정이 여러 방향으로 ‘가지치기’를 하게 된다. 이렇게 만들어지는 추론의 사슬을 체계적으로 탐색하고 활용해보자는 것이다. 다만 순수한 언어모델 내부에는 중간과정에서 가지치기하는 양상이 저장되지 않기 때문에 언어모델을 어떻게 변형해야 효용이 높은지 더 연구해야 한다.

중간검증이나 추론탐색, 명제증명 모두 과거 인공지능 교과서에 실린 예제들과 같은 발상이다. 논리추론 방식, 언어모델, 인공신경망 방식을 섞어 쓰지 않을 이유가 없다. 알파지오메트리의 사례에서 알 수 있듯 논리연산 자체는 옛날 방식이 훨씬 빠르고 오류도 없다.

최근 올트먼은 일반인공지능에 대해서는 말을 줄이는 한편, 현재의 인공지능들을 흑백 휴대전화에 비유했다. 10년쯤 지나면 컬러 휴대전화급 인공지능이 나올 수도 있을 것이라고 했다. 투자 유치용 발언이기는 하지만, 대규모 언어모델 일색인 상황이 달라져서, 논리추론 방식 등 성질이 다른 인공지능들을 섞어 쓰는 다채로운 상황이 전개될 것이라는 말로도 들린다.

과학저술가

서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

Copyright © 한겨레. All rights reserved. 무단 전재, 재배포 및 크롤링 금지.

이 기사에 대해 어떻게 생각하시나요?