인간이 초거대 AI 통제할 수 있을까…오픈AI 슈퍼정렬팀 “GPT-2로 GPT-4 감독”

오픈AI 슈퍼정렬팀 첫 연구 결과 발표
저성능 GPT-2로 고성능 GPT-4 감독 가능해
인간이 AI 계산 결과 평가하는 강화학습도 AI 통제 대안 될 것

챗GPT를 개발한 비영리 인공지능(AI) 연구소 오픈AI가 지난 7월 출범한 슈퍼정렬팀(Superalignment)의 첫 연구 결과가 나왔다. 단순 연산 능력만 고려했을 때 AI보다 성능이 떨어지는 인간이 AI를 통제할 수 있는지에 대한 답을 찾은 것이다.

25일 과학기술계에 따르면 오픈AI 슈퍼정렬팀은 지난 14일 작은 크기의 AI 모델로도 거대 규모의 모델을 감독할 수 있다는 내용의 연구 결과를 발표했다.

슈퍼정렬팀은 AI의 관리를 위한 정렬 연구의 기술적 한계를 극복하기 위해 오픈AI가 만든 조직이다. AI가 인간의 통제를 벗어나 사회에 해를 끼칠 수 있다는 우려가 나오면서 AI를 통제할 수 있는 ‘정렬 기술’ 개발이 목표다. AI 연구자들은 모든 분야에서 활용이 가능한 범용인공지능(AGI)의 개발을 목표로 삼고 있는 만큼 이를 통제할 수 있는 수단을 함께 마련해야 한다는 것이다.

이들은 구형 AI 모델인 GPT-2를 이용해 최신 모델인 GPT-4를 감독할 방법을 개발했다. 콜린 번스 오픈AI 연구원은 “작은 모델로 거대 모델을 감독할 수 있다면 인간이 AGI를 통제할 수 있다는 증거가 될 것”이라고 말했다.

오픈AI는 이같은 과정을 중학생에게 초등학교 3학년 수준의 문제를 가르치는 것에 비유했다. 연구진은 GPT-2에 추론, 감정 분석을 평가하는 22개 자연어 처리 시험을 포함해 다양한 작업을 학습했다. 그리고 GPT-4에는 GPT-2의 결과를 학습해 같은 작업을 수행하도록 훈련했다.

그 결과, GPT-2의 결과를 학습한 GPT-4는 GPT-2보다 나은 평가를 받으면서도 일부 항목에서는 점수가 떨어지는 경향을 보였다. 연구진은 이같은 결과에 대해 “상대적으로 낮은 성능을 가진 모델의 결과물이 높은 성능의 AI에도 영향을 충분히 줄 수 있다는 결과”라며 “이번 실험을 바탕으로 AI를 감독하기 위한 방안을 찾을 수 있을 것”이라고 말했다.

연구진은 상대적으로 성능이 떨어지는 GPT-2가 인간의 역할을 한 것으로 보고 인간이 충분히 AI를 정렬할 수 있다고 분석했다. 그간 AI를 정렬하기 위해 AI가 내놓은 결과물에 인간이 점수를 줘 의도하지 않은 결과를 최소화하는 ‘인간 피드백 기반 강화학습(RLHF)’이 사용됐으나 그 실효성에 대해 논란이 있던 상황이다.

연구진은 “AGI에 비해 인간은 ‘약한 감독자’가 될 것”이라며 “이는 AI 정렬에 있어서 가장 중요한 문제”라고 설명했다.

오픈AI는 창업자인 샘 올트먼을 이사회에서 해고하며 윤리적 AI 개발에 대한 논란을 일으킨 바 있다. 샘 올트먼이 AI의 성능 향상에만 집중하고 윤리적인 모델 개발에는 뒷전이었다는 이사회의 판단이 해고의 사유로 알려져 있다.

당시 네이처는 “오픈AI의 올트먼 해고 사태는 상업 세력이 AI 기술의 책임 있는 개발에 반대하고 있다는 우려를 현실화한 사례”라며 “AI 기술을 어떻게 규제해야 할지 다시 생각해야 할 시기”라고 평가했다.

조선비즈

IT/과학

인간이 초거대 AI 통제할 수 있을까…오픈AI 슈퍼정렬팀 “GPT-2로 GPT-4 감독”