훈련되지 않은 업무는 버벅…범용AI도 인간이 개입해야

한겨레 2024. 6. 22. 15:05
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[한겨레S] 이관수의 인공지능 열전
지능 폭발 임박론
전례 없는 일에 대처하는 능력
인공지능, 일반인의 절반 수준
기술적 한계 극복하고 있지만
사람 개입 없이는 불가능한 일
오픈에이아이의 슈퍼정렬팀에서 일했던 레오폴트 아셴브레너가 지난 4일 인공지능 관련 유튜브 채널 인터뷰에서 범용인공지능 실현 가능성에 대해 이야기를 하고 있다. 유튜브 동영상 갈무리

오픈에이아이의 슈퍼정렬팀에서 일했던 레오폴트 아셴브레너는 지난 5일(현지시각) 일반인공지능(또는 범용인공지능, AGI)이 2027년 말, 늦어도 2030년에는 실현될 것이라고 예측하고는, 이를 사기업에 맡겨두기에는 너무나 큰 문제이므로 미국 정부가 맡아서 극도의 보안 아래 1조달러 규모의 프로젝트를 수행해야 한다고 촉구했다. 현재 밀실에서 인공지능 기술개발 방향을 좌우하는 사기업 수뇌부들은 인공지능의 안전성에 충분히 유의하지 않고 있으며 중국 공산당 등의 스파이 활동을 방치하고 있다는 이유였다. 일반인공지능이 달성된 뒤 이를 인공지능 개발에 조금만 더 활용하면 순식간에 인간의 지능을 뛰어넘는 인공초지능(ASI)이 실현된다는 전제가 깔려 있다.

훈련된 일 잘하는 것뿐인데…

과거에도 비슷한 주장들이 산발적으로 제기됐지만, 아셴브레너가 140여쪽의 보고서와 4시간 반에 걸친 열정적인 유튜브 인터뷰를 통해 포괄적으로 논지를 전개했을 뿐만 아니라, 그의 이력과 배경이 여러가지 사건들과 얽혀 있기 때문에 관심이 쏠렸다. 아셴브레너는 지난해 가을 샘 올트먼 축출 실패 사건 당시, 올트먼 복귀 촉구 서명을 거부한 소수파의 일원이었다. 올해 3월 초 올트먼이 이사진에 복귀했고, 오픈에이아이를 비롯한 인공지능 기술기업들이 “책임 있는 인공지능 개발”을 다짐하는 공개서한을 발표했다. 그로부터 얼마 뒤인 4월 초 정보 누설을 이유로 아셴브레너는 해고됐고, 5월 초에는 슈퍼정렬팀이 해체되면서 리더였던 일리야 수츠케버와 얀 라이케가 회사를 떠났다. 그 직후 오픈에이아이의 취업계약서에는 미국 기준으로도 이례적인 입막음 조항이 있다고 폭로되자 올트먼은 시정을 약속했다.

지난 4일에는 전현직 오픈에이아이 직원 11명과 구글 딥마인드 직원 2명이 “경고할 권리”를 요구하는 공개성명을 발표했다. 인공지능 기술 개발이 인류에 위험한 방향으로 전개될 수도 있고, 외부의 공격에 의해 인공지능이 위험에 처할 수도 있는데, 이를 막기 위한 사전 경고와 논의를 가로막는 조직 운영상의 문제점들을 지적했다. 지난 13일엔 오픈에이아이 이사회에 폴 나카소네 전 국가안보국(NSA) 국장이 합류했다. 그는 미국 정보조직의 보안 수준을 끌어올린 것으로 알려진 인물이다. 이후 오픈에이아이가 본격적인 영리기업으로의 변신을 타진하고 있다는 풍문이 흘러나왔다.

궁중 암투 드라마 같은 사건 전개에 매료되다 보면 누구나 저절로 일반인공지능의 도래를 정해진 운명으로 여기게 된다. 그런 초월적인 힘을 놓고 벌어지는 거인들의 투쟁 서사는 아득한 먼 옛날부터 사람들의 상상을 사로잡았다. 초월적인 힘이 인류 전체를 위협할 수 있다고 하니 드라마의 전개 방향에 주의가 쏠리기 마련이다.

우선 수츠케버나 아셴브레너 등 다수의 인공지능 연구개발자들이 일반인공지능이 임박했다고 믿고, 각자가 생각하는 최선을 위해 노력한다는 점은 부인할 수 없다. 그러나 한 단어가 가진 여러 속뜻을 가지고도 소박하지만 강력한 질문을 던질 수 있다. 그들이 말하는 ‘지능’과 일반적으로 통용되는 ‘지능’의 개념이 같은 건가?

현재 인공신경망 인공지능들의 성능, 즉 ‘지능’을 비교할 때는 각종 벤치마크 점수를 기준으로 삼는다. 사전에 정해놓은 문제 세트를 얼마나 잘 푸는지를 점수로 바꾸는 방식이다. 이런 검사 점수는 어떤 문제들이 출제되느냐에 따라 운도 작용하고, 문제별 배점에 따라 최종 점수가 달라진다. 물론 연구자들이 고심해서 문제를 다듬고 조정하며 비슷한 벤치마크를 여럿 만들어 시험한다. 덕분에 특정 분야의 성능을 측정하는 여러 벤치마크 점수들이 꽤 높다면 그 분야의 성능이 좋다고 간주하는 데 큰 무리가 없다. 또한 여러 분야에 걸쳐 잘 훈련시킨다면 각각의 분야에서 높은 벤치마크 점수들을 얻는다. 그래서 하나의 거대모델이 여러 분야에서 뛰어난 업무별 수행능력을 발휘할 수는 있다. 그런데 훈련받은 일을 잘한다고 지능이 높다고 할 수 있을까?

☞한겨레S 뉴스레터 구독하기. 검색창에 ‘한겨레 뉴스레터’를 쳐보세요.

☞한겨레신문 정기구독. 검색창에 ‘한겨레 하니누리’를 쳐보세요.

인공지능이 알아서 새 능력을 배운다?

유명한 딥러닝 라이브러리(프로그램 개발에 사용하는 조각 프로그램 모음)인 케라스를 개발한 구글 엔지니어 프랑수아 숄레는 이 문제를 고심했다. 2019년에 발표된 ‘지능 측정에 대하여’라는 논문에서 지능을 정의하고 평가할 수 있어야만 더 지능적인 시스템을 개발하는 데 필요한 피드백을 얻을 수 있다고 주장했다. 그는 일반인공지능을 “경제적으로 가치 있는 대부분의 작업을 자동화할 수 있는 시스템”으로 보는 주류 견해가 잠정적으로 유용하기는 하지만 잘못된 견해라고 반박했다. 개별업무별 수행능력은 훈련과 사전지식의 영향에 의해 크게 좌우되고, 이는 복사할 수 있으므로 인공지능 알고리즘이나 모델의 성능을 측정하는 적절한 지표가 될 수 없다고 판단했다. 대신 지능을 갖췄다면 훈련된 영역 바깥의 데이터나 경험에서 새로운 기술을 효율적으로 습득할 수 있어야 한다고 주장했다.

현재까지 이런 성능을 측정해보려는 벤치마크는 숄레가 발표한 ‘추상화 및 추론 코퍼스’(ARC)가 유일하다. 개별업무 수행능력을 평가하는 다른 벤치마크들은 발표 후 3년 남짓이면 인공지능의 획득 점수가 사람의 평균 점수보다 높아지는데, 숄레의 벤치마크에서는 2024년까지도 인공지능의 점수가 일반인 점수의 절반 수준에서 정체되어 있다. 그렇다면 전례 없는 일에 대처하는 능력은 최소한 아직까지는 일반인이 인공지능보다 월등하고, 빠른 시일 내에 역전될 가능성도 낮은 셈이다.

아셴브레너는 경제학도 출신답게 투입이 늘어나면 산출도 늘어난다고 보았다. 한때 인공지능이 못하는 일로 지목된 문제들이 해결된 사례에도 주목했다. 예를 들어, 챗지피티-3은 “크랜베리 주스에 포도 주스를 타서 냄새를 맡았는데, 감기에 걸려 냄새를 맡을 수 없었다. 매우 목이 말랐기 때문에 그냥 마셨다. 어떻게 됐겠는가”라는 질문에 “죽었다”고 답했지만, 챗지피티 이후 버전에선 “갈증 해소에 도움이 됐을 것”, “감기 증상이 악화되지는 않을 것”이라는 답을 내놓았다. 종종 기술적 병목현상이 일어나서 발전이 지체될 수 있지만, 투입이 늘어난다면 결국은 극복될 것이기에 스스로 개선되는 일반인공지능이 곧 실현될 것이라고 보았다.

그런 식으로 과거의 경험을 대입한다면 정반대의 결론도 가능하다. 테드 창이 지적했듯이 컴퓨터 프로그램이 인간의 개입 없이 질적인 성능이 개선된 사례는 역사적으로 한번도 없었다. 숄레의 벤치마크가 보여주듯이 인공지능이 한번도 없었던 일을 인간의 개입 없이 잘해낸 적도 없다. 그렇다면 스스로 새 능력을 습득하는 일반인공지능은 요원하고 여러가지 기술을 병렬로 지녔다는 뜻에서의 인공 ‘일반’ 지능이 먼저라는 결론이 나온다. 그런 인공지능이 일으키는 문제는 불가항력적인 것이 아니라 그 인공지능을 쓰는 사람이 일으키는 문제일 수밖에 없다.

과학저술가

서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?