‘세종대왕 맥북 던짐’ AI 헛소리는 기술의 본질일까

한겨레 2024. 7. 21. 10:05
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[한겨레S] 이관수의 인공지능 열전
인공지능 향한 태도
‘기계학습’보다 더 멋진 인공지능
“사람보다 뛰어난” 딥블루 30년
거대언어모델, ‘환각’ 현상도 여전
어느 수준 작동하는지 캐물어야
지난 5일 중국 상하이에서 열린 2024 세계 에이아이(AI) 콘퍼런스에서 한 어린이가 인공지능 기계 손을 살펴보고 있다. 신화 연합뉴스

우리 생각은 때때로 현실과 동떨어진 상징에 지배된다. 1953년 1월23일치 ‘타임’지 표지도 그런 상징이었다. 그 표지에는 장교 모자를 쓴 컴퓨터가 서류를 검토하며 전쟁을 지휘하는 모습이 담겨 있었다. 컴퓨터가 이끌고 사람이 따른다는 메시지를 담고 있었다. 실제 상황은 어땠을까? 베트남전과 냉전기 군사사 연구자들은 완벽한 컴퓨터의 지시를 따르면 이길 것이라는 환상이 베트남전 패배의 주요 원인 중 하나였다고 지적한다. 스스로 만들어낸 환상에 걸려 넘어진 셈이다.

‘세종대왕 맥북 던짐 사건’이 남긴 것

1955년 가을에 만들어진 신조어 ‘인공지능’도 모호한 비유였다. 1953년에 먼저 등장했던 ‘기계학습’보다 기름 냄새가 덜 났고 더 멋졌다. 누구나 알 듯하면서도 실체가 불분명한 ‘지능’이라는 단어를 사용한 덕에 막연한 기대와 기술적 실체 사이의 괴리를 어물쩍 넘길 수 있었다. 장차 실현하기 위해 지금 개발한다는 명분도 오랫동안 쓸 만한 방패로 작동했다. 부침은 심했어도 다양한 인공지능 기술 개발이 계속될 수 있었다. 그래도 여전히 모호한 표현과 상징들이 활용되는 일은 아쉽다.

그런 표현 중 오래된 것으로 “사람처럼”이나 “사람보다 뛰어나다”가 있다. “사람처럼” 인공지능이 알파벳을 읽고 자동차를 운전한 지 대략 50년이 지났다. 비록 특정 폰트로 인쇄한 대문자만 느리게 읽을 수 있었고 단순한 시험용 도로에서 느리게 운행했지만 말이다. 영화에서나 볼 수 있던 “사람보다 뛰어난” 인공지능들이 현실에서 대중 앞에 등장한 지도 30년 가까이 됐다. 1997년 아이비엠(IBM)의 체스 인공지능 딥블루가 인간 최고수 카스파로프를 이겼다. 2010년대 중반에는 필기체 숫자 인식 성공률이 사람 평균을 넘겼다. 2020년대 이후에는 필기시험에서 거대언어모델들이 인간 수험생 평균보다 못한 성적을 거두는 과목이 급격히 줄어들었다. 인공지능이 더 보급될수록, 비교 대상인 사람의 숙련도는 낮아진 셈이다.

이제 “사람보다 뛰어나다”라는 관행적 표현의 유효기간은 끝나가고 있다. 어떤 세부 작업능력을 누구에게 어떤 방식으로 견주느냐에 따라 의미가 달라지기 때문이다. 무경험자보다는 낫다는 말인지, 초보 수준은 된다는 뜻인지, 숙련자 평균보다는 낫다는 의미인지, 인류 최고 전문가보다 낫다는 뜻인지에 따라 함의가 완전히 다르기 때문이다.

막연히 사람과 견주는 관행은 ‘환각’이라는 새로운 표현의 유행도 가져왔다. 거대언어모델이 틀린 답변을 내놓는 현상을 가리키는 말로 널리 사용되는데, 우리에게는 인터넷 밈이 된 ‘세종대왕 맥북 던짐 사건’으로 널리 알려졌다. 원래 환각은 사람이 실재하지 않는 감각이나 대상을 느끼거나 믿는 현상이다. 말뜻을 그대로 살리면, 거대언어모델 내부에서 입력하지 않은 프롬프트나 데이터가 입력된 것처럼 연산되는 초자연적 상황에 해당한다. 요즘 통용되는 인공지능의 ‘환각’은 보유한 데이터와 입력된 프롬프트를 연산해서 외부 현실과 부합하지 않는 답변을 산출하는 현상을 일컫는다. 사람에 견주면 환각이 아니라, 속이려는 의도 없이 경험과 무관한 기억을 만들어 말하는 ‘작화증’(confabulation)에 해당한다. 사실 학계에서는 환각이 아니라 작화증이 정확한 용어이며, 외부 세계와 직접 접촉하지 않는 언어모델의 특성상 언어모델이 산출하는 모든 문장은 작화증의 결과라는 지적이 꾸준히 제기된다. 그래도 ‘작화증’보다 ‘환각’이 더 인기 있는 용어가 되었다. 작화증은 익숙하지 않은 용어이기도 하거니와 거대언어모델이 원래 헛소리를 하지만 잘 다듬으면 활용할 만한 답변을 자주 내놓는다는 뜻을 함축한다. 환각은 거대언어모델이 옳은 답변을 내놓지만 비정상적인 상황에서는 헛소리를 한다는 인상을 준다.

☞한겨레S 뉴스레터 구독하기. 검색창에 ‘한겨레 뉴스레터’를 쳐보세요.

☞한겨레신문 정기구독. 검색창에 ‘한겨레 하니누리’를 쳐보세요.

‘환각’ 버그 아닌 ‘특성’이라고?

생성형 인공지능의 환각 현상을 방지할 수 있을까? 갖가지 미세조정 기술과 필터링 기법이 발달해서 ‘세종대왕 맥북 던짐 사건’ 수준의 답변은 사라졌다. 최근 다양하게 개량되는 검색증강생성(RAG: Retrieval-Augmented Generation) 기술은 환각이 발생할 여지를 구조적으로 줄인다. 특정 분야의 검증된 문헌만으로 데이터베이스를 구성하고, 거대언어모델이 그 데이터베이스를 활용해 답변을 생성하도록 강제하는 방식이다. 자체 구축한 데이터베이스에 여러 회사의 거대언어모델을 골라 쓸 수 있게 해주는 개발 도구도 인기다. 그럼에도 환각 현상의 빈도는 줄어들 뿐 완전히 사라지지 않는다. 지난 6월 미국 스탠퍼드대학의 연구자들이 발표한 연구에 따르면 “환각 없이” 판례를 찾아준다는 법률 인공지능들의 답변들도 최소한 6분의 1은 환각이었다. 오래된 초거대 법률정보 서비스 회사들이 대규모로 개발한 검색증강생성 인공지능 서비스들이었는데도 그랬다. 유수의 인공지능 업계 인사들도 지난해부터 ‘환각’은 버그가 아니라 핵심 특성(feature)이라는 주장을 내놓기 시작했다. 완고한 학계 인사들 식으로 표현하자면 거대언어모델은 작화증 기계라는 뜻이다.

그런 이유로 거대언어모델을 근간으로 삼는 한 정렬(인간이 의도한 목표나 선호 또는 윤리적 원칙에 맞게 인공지능이 행동하도록 조정하는 작업)을 완벽히 달성할 수는 없다는 비관적인 전망이 나온다. 슈퍼정렬(다른 인공지능을 정렬하는 인공지능을 개발해 일반인공지능도 정렬하는 작업)은 더더욱 비관적이다. 슈퍼정렬이 가능할 것이라고 믿는 일리야 수츠케버 같은 연구자들이 획기적인 성과를 내놓지 않는 한, 현재로서는 도덕적인 인공지능이나 오류 없는 인공지능 판사는 백일몽인 셈이다.

지난 70년 동안 개발자들은 특성이 서로 다른 다양한 인공지능 기술을 개발해왔고, 시대를 대표하는 사례도 계속 교체됐다. 인공지능은 한 종류가 아니다. 생물의 지능도 20세기 중반 학계가 막연히 생각했던 것보다 훨씬 더 복잡하고 다양하다는 점이 밝혀졌다.

그럼에도 다양한 인공지능을 하나로 뭉뚱그리면서 막연히 뛰어날 것이라고 여기는 습속은 사라지지 않았다. 전동칫솔의 진동 모드를 인공지능으로 관리한다는 ‘인공지능 칫솔’을 보면 인공지능 칫솔이 아닌 것은 아니지만, 겨우 그 정도 기술을 부수적으로 쓴다고 치아 건강에 큰 보탬이 될지 의문스럽다. ‘인공지능 디지털 교과서’를 보급하자는 주장에도 어떤 인공지능 기술을 어떤 용도와 형태로 사용하겠다는 이야기가 들리지 않는다. 막연히 인공지능이니 좋을 것이라는 생각은 너무나 후진적이다. 어쩌면 인공지능 공포증보다 더 해로울 수 있다. 무엇이 어느 수준으로 어떻게 작동한다는 건지 반걸음이라도 더 캐물어 보는 게 필요한 시대다.

과학저술가

※연재를 마칩니다. 필자와 독자 여러분께 감사드립니다.

서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?