오픈AI “AI 설명 능력 향상 방법 밝혔다”...입증자-검증자 게임 모델

이상덕 기자(asiris27@mk.co.kr) 2024. 7. 18. 09:24
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

오픈AI는 AI 모델이 자신이 도출한 답변을 사용자에게 더 잘 설명할 수 있도록 학습하는 새로운 알고리즘을 개발했다고 18일 밝혔다.

연구 결과, 검증자(Verifier) 모델은 입증자(Prover)의 설득 기법에 저항하는 능력이 향상됐고, 입증자(Prover) 모델 역시 자신이 선택한 답변을 인간 사용자에게 더 잘 설명하게 됐다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

인간 이해력 향상 위한 연구 지속
오픈AI 로고. 사진은 기사와 직접적인 연관 없음. <사진=로이터 연합뉴스>
오픈AI는 AI 모델이 자신이 도출한 답변을 사용자에게 더 잘 설명할 수 있도록 학습하는 새로운 알고리즘을 개발했다고 18일 밝혔다. 이번 연구는 AI 시스템이 점점 더 강력해짐에 따라, 특히 의료, 법률, 에너지, 군사 및 방어 분야 등 생명과 직결되는 분야에서의 신뢰성을 확보하는 데 보탬이 될 전망이다.

오픈AI 연구원인 얀 헨드릭 키르히너(Jan Hendrik Kirchner)는 “우리는 이번 연구를 막 마쳤다”며 “이제 가능한 한 빨리 이러한 통찰력을 커뮤니티와 공유해 사람들에게 ‘가독성 문제’를 알리고 해결책을 기여할 수 있도록 하는 것이 중요하다”고 말했다.

오픈AI 연구진이 발표한 새로운 알고리즘은 ‘입증자-검증자 게임(Prover-Verifier 게임)’에 기반하고 있다. 해당 방법론은 2021년 토론토 대학교와 벡터 인공지능 연구소의 연구진이 처음 고안해 논문으로 발표한 것이다. 게임은 두 개의 AI 모델을 짝지어 더 강력하고 지능적인 ‘입증자(Prover)’와 덜 강력한 ‘검증자(Verifier)’가 서로를 설득하려는 상황을 만들었다.

입증자(Prover)의 목표는 검증자(Verifier)가 특정 답변을 믿게 만드는 것이며, 검증자(Verifier)의 목표는 입증자(Prover)의 주장과 상관없이 항상 올바른 답변을 선택하는 것이다. 오픈AI 연구진은 두 개의 맞춤형 GPT-4 모델을 사용해 이 게임을 여러 차례 반복하면서 각각의 성능을 개선했다.

연구진은 매 라운드 후 두 모델을 재훈련시켰으며, 특히 입증자(Prover) 모델이 인간 사용자에게 더 잘 설명할 수 있도록 데이터를 활용했다. 인간 평가자들은 입증자(Prover) 모델의 답변이 얼마나 이해하기 쉬운지 평가했다. 연구 결과, 검증자(Verifier) 모델은 입증자(Prover)의 설득 기법에 저항하는 능력이 향상됐고, 입증자(Prover) 모델 역시 자신이 선택한 답변을 인간 사용자에게 더 잘 설명하게 됐다.

오픈AI는 이번 연구 결과가 “출력이 정확할 뿐만 아니라 투명하게 검증 가능하도록 하는 AI 시스템 개발에 기여할 것”이라며 “신뢰성과 안전성을 향상시키는 데 중요한 역할을 할 것”이라고 밝혔다. 연구진은 향후 더 지능적인 모델을 인간 평가자가 신뢰성 있게 평가하기 어려운 상황에서도 이러한 방법론이 유용할 것이라고 기대하고 있다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?