오픈AI, 챗GPT ‘환각’ 이유 밝힌다…역설계로 오작동 원인 추적

GPT-4 내부 패턴 식별 기술 개발
AI 모델 안전성 향상 코드 배포
일리야 수츠케버, 슈퍼얼라인먼트 팀 주도

오픈AI가 각종 소송전과 규제당국 조사에 대응하기 위해 사내 변호사를 적극 늘리고 있다. <사진=AFP>

오픈AI는 AI 모델의 해석 가능성을 높이기 위한 연구 논문을 발표했다고 7일 밝혔다.

이번 연구는 챗GPT 모델의 내부 구조를 역설계하는 방법을 토대로, AI 시스템의 오작동을 유발할 수 있는 이유를 파악하고자 시행됐다. 특히 연구진은 챗GPT를 구동하는 AI 모델 내부를 들여다볼 수 있는 방법을 고안해, 특정 개념이 어떻게 저장되는지를 식별하는 방식을 연구했다.

챗GPT는 인공 신경망을 기반으로 하는 대형 언어 모델인 GPT가 근간이다. 이러한 신경망은 예제 데이터를 분석해 유용한 작업을 학습할 수 있는 능력을 보여주지만, 전통적인 컴퓨터 프로그램처럼 쉽게 분석할 수 없다는 단점이 있다. 인공 신경망 내 ‘뉴런’ 층 사이의 복잡한 상호 작용은 챗GPT와 같은 시스템이 특정 응답을 도출한 이유를 역설계하는 것을 매우 어렵게 만든다는 평가다.

오픈AI는 논문을 통해 추가적인 기계 학습 모델의 도움을 받아 기계 학습 시스템 내부의 특정 개념을 나타내는 패턴을 식별하는 기술을 시연했다. 해당 기술은 관심 시스템 내부를 들여다보는 데 사용되는 네트워크를 보다 효율적으로 만드는 것이 주요 특징이다. 오픈AI는 GPT-4 모델 내부의 개념을 나타내는 패턴을 식별해 접근 방식이 맞는다는 것을 입증했다. 오픈AI는 해석 가능성 연구와 관련된 코드를 공개했으며, 다양한 문장에서 단어가 개념을 활성화하는 방식을 시각화하는 도구도 공개했다. GPT-4 및 다른 모델에서 다양한 문장의 단어가 욕설과 에로틱한 콘텐츠를 포함한 개념을 어떻게 활성화하는지 확인하는 데 사용할 수 있다.

특정 개념을 나타내는 방식은 원하지 않는 행동과 관련된 개념을 줄여 AI 시스템을 제어하는 데 한 걸음 더 나아갈 수 있다. 또 AI 시스템이 특정 주제나 아이디어를 선호하도록 조정할 가능성도 제시했다. 데이비드 바우 노스이스턴 대학교 교수는 “새로운 오픈AI 연구는 흥미로운 진전”이라며 “우리는 이러한 대형 모델을 더 잘 이해하고 검토하는 방법을 배워야 한다”고 말했다.

바우 교수는 오픈AI 팀의 주요 혁신이 작은 신경망을 구성해 더 큰 신경망의 구성 요소를 이해하는 더 효율적인 방법을 보여주는 것이라고 평가했다. 하지만 해당 기술이 더 신뢰할 수 있도록 정제될 필요가 있다고 덧붙였다.

오픈AI는 논문에서 “해석 가능성이 모델의 안전성과 견고성에 대한 새로운 논리적 방법을 제공하고, 강력한 AI 모델의 행동에 대한 강력한 보장을 제공해 신뢰를 크게 향상할 수 있기를 바란다”고 밝혔다. 이번 연구가 중요한 까닭은 AI 위험 때문이다. 일부 유명 AI 연구자들은 챗GPT를 포함한 강력한 AI 모델이 화학적 또는 생물학적 무기를 설계하고 사이버 공격을 조율하는 데 사용될 수 있다고 우려하고 있다. 특히 이들의 우려는 AI 모델이 목표를 달성하기 위해 정보를 숨기거나 해로운 방식으로 행동할 수 있다는데 있다.

오픈AI는 최근 들어 일리야 수츠케버 공동창업자 등 AI 안전팀이 해체되면서, 불필요한 위험을 감수하고 있다는 비판을 받았다. 특히 연구는 오픈AI의 ‘슈퍼얼라인먼트(superalignment)’ 팀이 수행했다. 해당 팀은 기술의 장기적 위험을 연구하는데 전념했다. 공동 연구 책임자인 일리야 수츠케버(Ilya Sutskever)와 얀 레이크(Jan Leike)등이 공동 저자로 이름을 올렸다. 수츠케버는 오픈AI의 공동 창업자이자 전 수석 과학자로, 지난해 11월 최고경영책임자(CEO) 샘 올트먼의 해고를 주도한 이사회 멤버 중 한 명이다. 오픈AI가 이번 연구를 실시한 이유에 대해, 오픈AI가 AI 위험에 진지하게 대응하고 있다는 사실을 알리기 위한 것 아니냐는 분석이 나온다.

매일경제

IT/과학

오픈AI, 챗GPT ‘환각’ 이유 밝힌다…역설계로 오작동 원인 추적