초등생이 고교생 수학 가르친다?…슈퍼AI ‘통제’ 첫 연구 성과

구본권 2023. 12. 25. 09:05
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오픈AI, 홈페이지에 논문 공개
샘 올트먼 축출 쿠데타 배경 거론
슈퍼얼라인먼트 첫 연구성과에 눈길
인간보다 훨씬 똑똑한 인공지능 모델 ‘슈퍼얼라인먼트’ . 오픈AI 제공

☞한겨레 뉴스레터 H:730 구독하기. 검색창에 ‘한겨레 h730’을 쳐보세요.

사람은 자신보다 똑똑한 인공지능을 과연 통제할 수 있을까?

인공지능을 교도소처럼 특수한 공간에 가뒀을 때만 감독자는 자신보다 힘이 센 대상을 다스릴 수 있을까? 범용 인공지능이 등장해 사람 지능을 뛰어넘을 것이라는 우려가 확산하면서 구체적 대비책을 연구하는 시도도 활발해지고 있다.

지난 11월 초 오픈에이아이(OpenAI)의 공동창업자이자 최고경영자인 샘 올트먼이 축출됐다가 닷새만에 복귀했지만, 구체적 사유는 아직도 공개되지 않고 있다. 오픈에이아이는 출범부터 인간 지능을 능가하는 ‘범용 인공지능(AGI)’ 개발을 내세운 비영리 연구조직인데 범용 인공지능이 가시화하자 오픈에이아이의 출범 명분에 충실하려는 이사들이 벌인 ‘기업 쿠데타’라고 알려진 정도다. 지난 14일 오픈에이아이는 홈페이지에 최신 연구성과를 담은 논문을 공개했는데, 여기에 샘 올트먼 축출의 배경이 된 것으로 알려진 ‘슈퍼얼라인먼트’ 연구의 구체적 내용이 실려 눈길을 끈다.

■ AI 슈퍼얼라인먼트란?

‘슈퍼얼라인먼트(초정렬)’라는 연구목표는 ‘가지런함’ ‘정렬’(얼라인먼트)이라는 단어 뜻이 나타내듯, 인공지능이 인간의 의도에서 벗어나지 않고 그 목표를 인간의 가치와 일치하도록 정렬시킨다는 의미다. 지난 7월 오픈에이아이는 사람 지능을 뛰어넘는 범용 인공지능이 인간의 가치에 부합하도록 통제하는 ‘슈퍼얼라인먼트’ 연구를 위해 향후 4년간 회사 컴퓨팅 자원의 20%를 쓰겠다고 발표한 바 있다.

슈퍼얼라인먼트 연구를 주도하는 사람은 오픈에이아이의 공동창업자 겸 수석과학자(CTO)로 올트먼 축출 쿠데타에 가담했던 일리야 수츠케버다. 수츠케버는 지난 7월 홈페이지 글에서 “초지능은 인류가 발명한 기술 중 가장 영향력 있는 기술로 세계의 중요한 문제들을 해결하는 데 도움이 될 수 있지만, 매우 위험할 수 있으며 인류 멸종으로 이어질 수도 있다”며 “인간보다 훨씬 똑똑한 인공지능이 인간의 의도를 따르도록 보장하는 게 과제”라고 밝혔다.

그는 “현재 수준에서는 잠재적으로 슈퍼 인공지능을 제어하고 인공지능이 악의적으로 변질되는 것을 막을 수 있는 해결책이 없다. 사람의 피드백을 통한 강화학습(RLHP)에 의존하는 수준인데 인간은 자신보다 훨씬 똑똑한 인공지능을 안정적으로 감독할 수 없다”며 “슈퍼얼라인먼트는 우리 시대의 가장 중요한 미해결 기술과제로, 해결을 위해서는 세계 최고의 인재가 필요하다”고 호소했다.

기존의 기계학습은 사람이 자신보다 약한 모델을 감독하는 환경(왼쪽)에 초점을 맞췄지만, 궁극적인 AI 슈퍼얼라인먼트 문제를 해결하려면 인간이 자신보다 훨씬 똑똑한 모델(슈퍼AI)을 감독해야 한다(가운데). 오픈AI 연구진은 이를 위해 약한 모델을 사용하여 강한 모델을 감독하는 방식(오른쪽)으로 접근한 논문을 12월14일 홈페이지에 공개했다. 오픈AI 제공

■ 초등생이 고교생 수학 지도?

그동안 슈퍼얼라인먼트 연구를 이끌어온 수츠케버와 얀 라이크 등이 참여한 이번 논문은 오픈에이아이가 강한 인공지능을 대비하는 구체적 접근법을 알려주는 동시에 오픈에이아이의 지향점을 드러내는 자료다.

인간 피드백 기반의 강화학습은 인공지능의 결과가 기대와 부합하면 가점을 주고, 잘못된 결과일 때는 벌점을 주는 방식이다. 이 방식은 인공지능의 결과물을 사람이 제대로 식별할 수 있을 때 유효한데, 슈퍼인공지능의 결과물은 사람이 이해하는 게 불가능하다는 문제를 안고 있다. 인공지능이 의도적으로 사람을 속일 수도 있다. 이 논문은 “미래의 인공지능은 전문가도 이해할 수 없는 수백만 줄의 위험한 컴퓨터 코드를 작성하는 등 매우 복잡하고 창의적으로 작동하므로 사람이 감독하는 게 불가능하다”며 슈퍼인공지능에 비해 인간은 ‘약한 감독자’가 될 것이라고 가정하고 실험을 진행했다. 약한 감독자가 자신보다 훨씬 강력한 모델을 통제하는 게 범용 인공지능 슈퍼얼라인먼트의 핵심 과제다.

연구진은 현재 슈퍼인공지능이 존재하지 않기 때문에 일종의 모델을 만들어 실험했다. 오픈에이아이가 5년 전 개발한 생성인공지능 지피티(GPT)2가 최신 모델인 지피티4를 감독하는 게 가능한지를 파악하는 방식이다. 마치 초등학생이 고등학생에게 대입 수학문제를 내고 과제 수행을 가르칠 수 있는지와 같다. 이 방법이 효과가 있다면 비슷한 방식으로 인간이 자신보다 뛰어난 슈퍼인공지능을 감독할 수 있는 길이 열리는 셈이다. 지난 14일 ‘엠아이티(MIT) 테크놀로지리뷰’에 따르면, 연구진이 체스, 추론, 자연어 처리 등 22개 과제를 수행한 결과 자연어 처리에서는 성과가 있었지만, 체스에서는 성공하지 못하는 등 부분적인 성과를 확인했다. 통제 대상이 감독자의 지시를 충실히 따랐는지, 안전한 결과를 산출했는지가 평가 기준이다. 약한 감독이 더 강력한 대상의 모든 기능을 끌어낼 수 있는지도 성공 지표다.

오픈에이아이 논문은 “지피티2 모델로 지피티4를 감독했을 때, 결과는 일반적으로 지피티3과 지피티3.5 사이의 성능을 보였다”며 “한계가 있지만 간단한 방법으로 약한 감독자가 강한 모델로부터 지식을 이끌어내는 능력을 크게 향상시킬 수 있음을 보여줬다”고 평가했다. 향후 연구 진척에 따라 약한 인간이 강한 인공지능을 통제하는 방법이 가능해진다는 의미를 지니는 연구다. 오픈에이아이는 이 논문을 발표하며 실행코드를 오픈소스로 공개하고, 대학원생을 비롯한 연구자들의 관련연구를 지원하기 위해 1000만달러 보조금 프로그램을 시행한다고 밝혔다.

구본권 사람과디지털연구소장 starry9@hani.co.kr

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?