오픈AI “AI 설명 능력 향상 방법 밝혔다”...입증자-검증자 게임 모델

인간 이해력 향상 위한 연구 지속

오픈AI 로고. 사진은 기사와 직접적인 연관 없음. <사진=로이터 연합뉴스>

오픈AI는 AI 모델이 자신이 도출한 답변을 사용자에게 더 잘 설명할 수 있도록 학습하는 새로운 알고리즘을 개발했다고 18일 밝혔다. 이번 연구는 AI 시스템이 점점 더 강력해짐에 따라, 특히 의료, 법률, 에너지, 군사 및 방어 분야 등 생명과 직결되는 분야에서의 신뢰성을 확보하는 데 보탬이 될 전망이다.

오픈AI 연구원인 얀 헨드릭 키르히너(Jan Hendrik Kirchner)는 “우리는 이번 연구를 막 마쳤다”며 “이제 가능한 한 빨리 이러한 통찰력을 커뮤니티와 공유해 사람들에게 ‘가독성 문제’를 알리고 해결책을 기여할 수 있도록 하는 것이 중요하다”고 말했다.

오픈AI 연구진이 발표한 새로운 알고리즘은 ‘입증자-검증자 게임(Prover-Verifier 게임)’에 기반하고 있다. 해당 방법론은 2021년 토론토 대학교와 벡터 인공지능 연구소의 연구진이 처음 고안해 논문으로 발표한 것이다. 게임은 두 개의 AI 모델을 짝지어 더 강력하고 지능적인 ‘입증자(Prover)’와 덜 강력한 ‘검증자(Verifier)’가 서로를 설득하려는 상황을 만들었다.

입증자(Prover)의 목표는 검증자(Verifier)가 특정 답변을 믿게 만드는 것이며, 검증자(Verifier)의 목표는 입증자(Prover)의 주장과 상관없이 항상 올바른 답변을 선택하는 것이다. 오픈AI 연구진은 두 개의 맞춤형 GPT-4 모델을 사용해 이 게임을 여러 차례 반복하면서 각각의 성능을 개선했다.

연구진은 매 라운드 후 두 모델을 재훈련시켰으며, 특히 입증자(Prover) 모델이 인간 사용자에게 더 잘 설명할 수 있도록 데이터를 활용했다. 인간 평가자들은 입증자(Prover) 모델의 답변이 얼마나 이해하기 쉬운지 평가했다. 연구 결과, 검증자(Verifier) 모델은 입증자(Prover)의 설득 기법에 저항하는 능력이 향상됐고, 입증자(Prover) 모델 역시 자신이 선택한 답변을 인간 사용자에게 더 잘 설명하게 됐다.

오픈AI는 이번 연구 결과가 “출력이 정확할 뿐만 아니라 투명하게 검증 가능하도록 하는 AI 시스템 개발에 기여할 것”이라며 “신뢰성과 안전성을 향상시키는 데 중요한 역할을 할 것”이라고 밝혔다. 연구진은 향후 더 지능적인 모델을 인간 평가자가 신뢰성 있게 평가하기 어려운 상황에서도 이러한 방법론이 유용할 것이라고 기대하고 있다.

매일경제

IT/과학

오픈AI “AI 설명 능력 향상 방법 밝혔다”...입증자-검증자 게임 모델