초등생이 고교생 수학 가르친다?…슈퍼AI ‘통제’ 첫 연구 성과
샘 올트먼 축출 쿠데타 배경 거론
슈퍼얼라인먼트 첫 연구성과에 눈길
☞한겨레 뉴스레터 H:730 구독하기. 검색창에 ‘한겨레 h730’을 쳐보세요.
사람은 자신보다 똑똑한 인공지능을 과연 통제할 수 있을까?
인공지능을 교도소처럼 특수한 공간에 가뒀을 때만 감독자는 자신보다 힘이 센 대상을 다스릴 수 있을까? 범용 인공지능이 등장해 사람 지능을 뛰어넘을 것이라는 우려가 확산하면서 구체적 대비책을 연구하는 시도도 활발해지고 있다.
지난 11월 초 오픈에이아이(OpenAI)의 공동창업자이자 최고경영자인 샘 올트먼이 축출됐다가 닷새만에 복귀했지만, 구체적 사유는 아직도 공개되지 않고 있다. 오픈에이아이는 출범부터 인간 지능을 능가하는 ‘범용 인공지능(AGI)’ 개발을 내세운 비영리 연구조직인데 범용 인공지능이 가시화하자 오픈에이아이의 출범 명분에 충실하려는 이사들이 벌인 ‘기업 쿠데타’라고 알려진 정도다. 지난 14일 오픈에이아이는 홈페이지에 최신 연구성과를 담은 논문을 공개했는데, 여기에 샘 올트먼 축출의 배경이 된 것으로 알려진 ‘슈퍼얼라인먼트’ 연구의 구체적 내용이 실려 눈길을 끈다.
■ AI 슈퍼얼라인먼트란?
‘슈퍼얼라인먼트(초정렬)’라는 연구목표는 ‘가지런함’ ‘정렬’(얼라인먼트)이라는 단어 뜻이 나타내듯, 인공지능이 인간의 의도에서 벗어나지 않고 그 목표를 인간의 가치와 일치하도록 정렬시킨다는 의미다. 지난 7월 오픈에이아이는 사람 지능을 뛰어넘는 범용 인공지능이 인간의 가치에 부합하도록 통제하는 ‘슈퍼얼라인먼트’ 연구를 위해 향후 4년간 회사 컴퓨팅 자원의 20%를 쓰겠다고 발표한 바 있다.
슈퍼얼라인먼트 연구를 주도하는 사람은 오픈에이아이의 공동창업자 겸 수석과학자(CTO)로 올트먼 축출 쿠데타에 가담했던 일리야 수츠케버다. 수츠케버는 지난 7월 홈페이지 글에서 “초지능은 인류가 발명한 기술 중 가장 영향력 있는 기술로 세계의 중요한 문제들을 해결하는 데 도움이 될 수 있지만, 매우 위험할 수 있으며 인류 멸종으로 이어질 수도 있다”며 “인간보다 훨씬 똑똑한 인공지능이 인간의 의도를 따르도록 보장하는 게 과제”라고 밝혔다.
그는 “현재 수준에서는 잠재적으로 슈퍼 인공지능을 제어하고 인공지능이 악의적으로 변질되는 것을 막을 수 있는 해결책이 없다. 사람의 피드백을 통한 강화학습(RLHP)에 의존하는 수준인데 인간은 자신보다 훨씬 똑똑한 인공지능을 안정적으로 감독할 수 없다”며 “슈퍼얼라인먼트는 우리 시대의 가장 중요한 미해결 기술과제로, 해결을 위해서는 세계 최고의 인재가 필요하다”고 호소했다.
■ 초등생이 고교생 수학 지도?
그동안 슈퍼얼라인먼트 연구를 이끌어온 수츠케버와 얀 라이크 등이 참여한 이번 논문은 오픈에이아이가 강한 인공지능을 대비하는 구체적 접근법을 알려주는 동시에 오픈에이아이의 지향점을 드러내는 자료다.
인간 피드백 기반의 강화학습은 인공지능의 결과가 기대와 부합하면 가점을 주고, 잘못된 결과일 때는 벌점을 주는 방식이다. 이 방식은 인공지능의 결과물을 사람이 제대로 식별할 수 있을 때 유효한데, 슈퍼인공지능의 결과물은 사람이 이해하는 게 불가능하다는 문제를 안고 있다. 인공지능이 의도적으로 사람을 속일 수도 있다. 이 논문은 “미래의 인공지능은 전문가도 이해할 수 없는 수백만 줄의 위험한 컴퓨터 코드를 작성하는 등 매우 복잡하고 창의적으로 작동하므로 사람이 감독하는 게 불가능하다”며 슈퍼인공지능에 비해 인간은 ‘약한 감독자’가 될 것이라고 가정하고 실험을 진행했다. 약한 감독자가 자신보다 훨씬 강력한 모델을 통제하는 게 범용 인공지능 슈퍼얼라인먼트의 핵심 과제다.
연구진은 현재 슈퍼인공지능이 존재하지 않기 때문에 일종의 모델을 만들어 실험했다. 오픈에이아이가 5년 전 개발한 생성인공지능 지피티(GPT)2가 최신 모델인 지피티4를 감독하는 게 가능한지를 파악하는 방식이다. 마치 초등학생이 고등학생에게 대입 수학문제를 내고 과제 수행을 가르칠 수 있는지와 같다. 이 방법이 효과가 있다면 비슷한 방식으로 인간이 자신보다 뛰어난 슈퍼인공지능을 감독할 수 있는 길이 열리는 셈이다. 지난 14일 ‘엠아이티(MIT) 테크놀로지리뷰’에 따르면, 연구진이 체스, 추론, 자연어 처리 등 22개 과제를 수행한 결과 자연어 처리에서는 성과가 있었지만, 체스에서는 성공하지 못하는 등 부분적인 성과를 확인했다. 통제 대상이 감독자의 지시를 충실히 따랐는지, 안전한 결과를 산출했는지가 평가 기준이다. 약한 감독이 더 강력한 대상의 모든 기능을 끌어낼 수 있는지도 성공 지표다.
오픈에이아이 논문은 “지피티2 모델로 지피티4를 감독했을 때, 결과는 일반적으로 지피티3과 지피티3.5 사이의 성능을 보였다”며 “한계가 있지만 간단한 방법으로 약한 감독자가 강한 모델로부터 지식을 이끌어내는 능력을 크게 향상시킬 수 있음을 보여줬다”고 평가했다. 향후 연구 진척에 따라 약한 인간이 강한 인공지능을 통제하는 방법이 가능해진다는 의미를 지니는 연구다. 오픈에이아이는 이 논문을 발표하며 실행코드를 오픈소스로 공개하고, 대학원생을 비롯한 연구자들의 관련연구를 지원하기 위해 1000만달러 보조금 프로그램을 시행한다고 밝혔다.
구본권 사람과디지털연구소장 starry9@hani.co.kr
Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지
- 주 52시간 지키면 연속 밤샘도 용인…“11시간 휴식 보장해야”
- 이스라엘, 성탄절에도 가자지구 폭격…“전쟁 시작된 이후 최악의 공격”
- 불길 피해 젖먹이 끌어안고 뛰어내린 30대 아빠…끝내 숨져
- ‘김건희 특검법’ 의식했나…윤 대통령 ‘나홀로’ 성탄절 미사·예배
- 개장 2일 만에 무너진 ‘청주 공공 눈썰매장’ 폐쇄
- 대통령실과 여당 ‘김건희 특검법’ 수용불가 재확인
- 이재명, 공관위원장 이번주 선임할 듯…혁신·통합 아우를 외부인사 누구?
- 대법 “연장근로 계산, 일별 합산 아닌 주40시간 초과분 봐야”
- 꽁꽁 언 새벽, 내복 바람 4살 아이는 ‘아파트 천사’를 만났다
- 푸바오에게 보내는 강철원 사육사의 영상편지 “넌 내 가족”