새인데 타조는 달리고 펭귄은 헤엄친다…AI도 버거운 ‘상식의 벽’

[한겨레S] 이관수의 인공지능 열전
똑똑함의 한계
새인데 날지 못하는 타조·펭귄
상식적 추론으로 ‘예외’ 구별
판단능력 가늠하는 테스트 등장
‘위노그란디’ 최고 정답률 90%선

1983년 전문가시스템(전문지식이나 문제 해결 방법을 컴퓨터에 넣어두고 문제 해결에 이용하는 방식) 인공지능(AI) 학계의 젊은 신성이었던 스탠퍼드대학의 더글러스 레넛은 갑자기 전문지식이 아니라 상식이 중요하다는 주장을 펼치기 시작했다. 다른 동료들은 전문가시스템의 활용 범위를 넓히는 연구에 주력해온 반면, 레넛은 전문가시스템이 전문지식을 활용해서 추론하는 방법을 심화시켜서 스타로 떠오른 참이었다.

레넛은 전문지식을 활용할수록 처음 정리할 때는 간과했던 암묵적 예외들이 계속 튀어나오기 때문에 상식이 더 중요하다고 주장했다. “새는 날 수 있다. 하지만 타조처럼 날지 못하는 새도 있다. 그런 새는 달린다. 하지만 펭귄은 달리지 못하고 헤엄친다”라는 문장을 보자. 사람은 이런 예외들을 고려해야 할 상황과 그렇지 않은 상황을 상식에 근거해서 순간적으로 잘 구별해내지만 인공지능은 아니었다. 이런 약점을 해결하지 못하면 전문가시스템은 예외, 예외의 예외 등등을 계속 추가하다가 도저히 감당하지 못할 정도로 복잡해지거나, 지극히 제한된 용도로만 쓰이다가 버려지게 될 것이었다. 레넛은 이런 한계를 극복하기 위해서는 상식적 추론을 할 수 있는 인공지능이 필요하다고 결론 내렸다. 그러나 사람이 갓난쟁이 시절부터 쌓아온 상식은 전문지식과 비교할 수 없을 정도로 방대하고 모호하다는 게 문제였다.

‘환각 현상’ 이전부터 주목받은 결점

사이크 프로젝트가 인공지능에 필요한 상식을 추출하는 방식. “뒤집혀 있는 커피컵에 커피를 담을 수 있냐”는 질문(왼쪽 사진)에서 시작해 결론을 추론하는 데 필요한 규칙과 명제들을 모았다. ‘고투 콘퍼런스’ 유튜브 동영상 갈무리

때마침 1982년 미국 정부는 일본의 제5세대 컴퓨터 계획에 대항해 장기 연구컨소시엄 법인인 엠시시(MCC)를 출범시켰다. 초대 이사회장 겸 사장은 국가안보국(NSA) 국장과 중앙정보국(CIA) 부국장을 역임한 보비 레이 인먼. 그는 일본의 계획을 압도할 수 있는 연구주제를 찾다가 기존 인공지능의 한계를 극복하자는 레넛의 주장에 매료돼 그를 영입했다.

그렇게 해서 백과사전 항목 400개를 ‘이해’하는 데 필요한 상식을 추출하자는 사이크(Cyc) 프로젝트가 시작되었다. 레넛은 사이크를 완성하는 데 최소 25만개의 추론 규칙과 연인원 1천명의 인력이 필요할 것으로 예상했는데, 점점 범위가 넓어져 30여년이 지난 2017년까지 연인원 2천명을 투입해 약 2400만개의 규칙을 만들어내고도 완성을 선언할 수 없었다. 그사이 프로젝트는 1994년 별도 회사로 독립해서 지난해 레넛이 사망한 이후에도 진행 중이다. 국방 연구 조직들이 초기 고객들이었는데 풍문으로는 군수 체계 인공지능화를 염두에 두고 이뤄진 일이었다고 한다.

사이크 프로젝트의 성과는 무엇일까? 연구 성과에 대한 학계의 평가는 후하지 않다. 연구 성과를 부분적으로만 공개한 탓도 있고, 인공지능 연구개발이 인공신경망 기반으로 바뀐 탓도 있다. 그보다는 1980년대 말에 닥친 ‘인공지능의 겨울’ 기간 동안 젊은 연구자들이 경력 단절 없이 성장할 수 있는 일자리를 제공한 정도가 직접적인 기여였다. 암묵적으로 담겨 있는 상식적 판단을 추출하고 적용 가능한 범위를 세심히 따지는 일에는 최소한 대학원생 이상 수준의 훈련을 받은 사람의 판단이 필요하기 때문이었다.

간접적인 영향은 매우 컸다. 40년 가까이 유지된 인공지능 프로젝트인 덕분에 종종 대중적 관심을 끌었고, 인공지능의 상식이 부족하기 십상이고 이는 큰 문제라는 생각이 널리 퍼졌다. 그래서 대규모 언어모델과 여기서 나타나는 ‘환각 현상’(사실에 기반하지 않은 거짓 정보를 사실처럼 답변하는 일)이 주목받기 이전부터 인공지능의 상식적 판단 능력을 부분적으로나마 가늠하는 벤치마크 테스트들이 등장할 수 있었다.

☞한겨레S 뉴스레터 구독하기. 검색창에 ‘한겨레 뉴스레터’를 쳐보세요.

☞한겨레신문 정기구독. 검색창에 ‘한겨레 하니누리’를 쳐보세요.

상식 학습하며 진화 중

2012년 제안된 위노그라드 챌린지는 인공지능이 문장을 제대로 풀이하는지를 검증하는 테스트다. “트로피가 가방에 들어가지 않는다. 그것이 너무 크기 때문이다”라는 문장에서 “그것”이 무엇을 뜻하는지를 물으면 사람은 누구나 트로피라고 답한다. 인공지능 연구자들이 세심하게 다듬은 그런 질문들(273~285개)에 대한 정답률을 가늠하는 것이 위노그라드 챌린지다. 연구자들은 정답률이 100%에 가까워야 질문이 붙는 분야에서 상식을 갖췄다고 간주할 수 있지만, 실제 인공지능들의 점수는 정답률 50%를 좀 넘는 선에서 그칠 것이라고 예견했다. 2016년 경진대회에서 최고 성적은 정답률 58%였다. 하지만 대규모 언어모델의 크기가 급격하게 증가한 2019년에 들어 거의 모든 참가 인공지능들이 정답률 90%를 넘겼다.

그렇다면 현재의 대규모 언어모델이 상식을 갖춘 셈인가? 불과 몇백개의 단순한 객관식 질문을 맞힌다고 상식을 갖췄다고 평가하는 일이야말로 비상식적이다. 상식적 추론 능력을 지녔는지 본격적으로 따져볼 첫 단계에 도달했다고 보는 게 맞다. 2019년 미국 워싱턴대학의 최예진 교수가 이끄는 연구팀은 4만4천개 질문으로 구성된 새로운 위노그란디 챌린지를 발표했다. “카일은 수면 발토시를 착용하지 않지만, 로건은 거의 언제나 착용한다. ○○이 더 추운 곳에서 살 가능성이 크다”와 같은 문장의 빈칸을 채우는 방식이다. 연구팀은 인터넷으로 ‘크라우드 워커’를 모집해 방대한 양의 질문을 마련했다. 작업자들이 만든 질문을 연구팀이 개발한 검증 알고리즘으로 편향성 여부를 확인했다. 우연히 정답률이 올라갈 가능성을 배제하기 위함이었다. 현재 위노그란디 챌린지 최고점은 2022년 중국국방기술대학 팀이 만든 언어모델로세부 테스트별로 83~91%의 정답률을 보인다.

사이크 프로젝트부터 위노그란디 챌린지까지 수십년에 걸쳐 인공지능은 상식을 향해서 조금씩 처참한 수준은 벗어나기 시작했다. 막대한 수작업이 소모된 여정이었다. 인공지능이 일상생활에 스며드는 속도가 점점 빨라지는데 이렇게 느리게 진행해도 될까? 최예진 연구팀은 언어모델과 전문가시스템 시절의 논리연산을 결합하는 방식으로 큰 주목을 받고 있다. 단순히 요약하자면, 언어모델을 사용해서 상식적 추론을 표현하는 문장들을 추출하고, 그것들을 전문가시스템 시절에 개발된 방식을 활용해서 정리한다. 그렇게 만들어진 논리적 표현들을 이용해서 상식적 추론에 위배되지 않는 문장들을 아주 많이 생성한 다음 이를 언어모델 훈련 데이터로 활용하는 방식이다. 문장뿐만 아니라 사진·영상도 활용 가능하다. 그렇게 훈련된 인공지능이 상식을 온전히 갖출 것이라고 누구도 자신 있게 예언하지는 못하지만, 적어도 현재 출시된 인공지능 모델보다는 발전 가능성이 크다.

과학저술가

서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

이 기사에 대해 어떻게 생각하시나요?

한겨레에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT