인공지능 ‘논문평가’에서도 인간 리뷰어 보다 유용했다

이상덕 기자(asiris27@mk.co.kr) 2023. 10. 23. 07:03
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

82% “사람 리뷰어 피드백보다 유용”
피어리뷰시 공정성 크게 줄어들 전망
논문 리뷰어를 상상한 모습 (Created with DALLE-3)
논문을 저널에 싣기에 앞서 행하는 이른바 ‘리뷰(Review)’에서도 인공지능이 사람보다 유용하다는 연구 결과가 나왔다. 특정 학문에서는 리뷰를 받는 데 오랜 시간이 걸리기 때문에 일부 리뷰는 사람 대신 인공지능이 대신할 수 있을 수 있다는 메시지다.

22일(현지시각) 위신 량(Weixin Liang) 유휘 장(Yuhui Zhang) 등 스탠퍼드대 연구진은 수학 물리학 천문학 전산과학 등 부문에서 출판전(preprint)에 논문을 공개하는 사이트인 아카이브(arXiv)에 이 같은 결과를 공개했다. 논문 제목은 ‘대규모 언어 모델이 연구 논문에 유용한 피드백을 제공할 수 있을까: 대규모 실증 분석(Can large language models provide useful feedback on research papers? A large-scale empirical analysis)’이다.

이를 위해 연구진은 과학 논문에 대한 유용한 피드백을 제공할 수 있는 대규모언어모델(LLM)을 개발했다. 해당 모델은 생성형 트랜스포머 4(GPT-4) 프레임워크를 토대로 설계했다. PDF 파일 형태의 원고를 올리면 인공지능이 △ 참신성 및 중요성 △ 수락 이유 △거절 이유 △개선 제안을 하는 방식이다. 연구 결과에 따르면 사용자 중 50% 이상이 인공지능으로 부터 받은 리뷰에 만족했으며, 82%는 사람 리뷰어로부터 받은 피드백 보다 유용했다고 답변했다. 연구진은 “LLM이 과학적 검토 과정에서 사람의 피드백을 보완할 수 있다”면서 “특히 원고를 다 쓰지 않고 초기 단계에서 더욱 유용하다는 것을 알 수 있다”고 말했다.

1만5000개 리뷰 데이터 활용
대규모언어모델을 사용한 인공지능 리뷰어 개발 과정 (출처=스탠퍼드대)
연구진이 인공지능 리뷰어를 개발한 이유는 따로 있다. 논문을 저널에 수록하기 위해서는 연구자 본인의 논문을 특정한 학문 분야 내의 동료 전문가들에게 평가받고 리뷰 코멘트를 통해 의견을 듣는 것을 가리키는 피어 리뷰(Peer review·동료 평가)가 필수적이다. 하지만 최근 들어 연구속도가 빨라지면서 피어 리뷰를 받는데 어려움이 발생하고 있다. 연구진은 “논문을 발표하는 연구자와 검토하는 연구자 모두가 직면하는 부담을 부분적으로 완화할 수 있다”면서 “더욱이 이러한 도구는 잠재적으로 연구 커뮤니티 전반의 민주화로 이어질 수 있다”고 강조했다. 피어리뷰 과정에서 일부는 부당한 일을 겪기도 하는데 이를 인공지능이 해결할 수 있다는 설명이다. 특히 피어리뷰어 가운데 단 한명이라도 매우 부정적인 평가를 거듭할 경우 저널 게재가 거절될 수 있다. 이번 논문은 인간의 감정이 개입되지 않는다는 점에서 더 공정할 수 있다.

연구진은 이를 위해 방대한 데이터를 수집해 모델을 학습시켰다. 특히 네이처 산하 15개 저널 데이터를 수집했다. 2022년 1월 1일부터 2023년 6월 17일까지 총 8745개 개별 리뷰로 구성된 3096개 원고를 대상으로 했다. 또 표현학습국제학회(ICLR) 데이터 세트 1709개 원고와 6506개 리뷰를 추가 수집했다. 연구진은 GPT-4가 입력 데이터를 최대 8192개 토큰으로 제한하는 것을 고려해 제목, 초록, 키워드 등 6500개 토큰을 다운스트림 분석에 사용했다. 이후 2단계 매칭 파이프라인을 개발해 인공지능 리뷰어와 사람 리뷰어의 피드백이 얼마나 중복되는지 조사했다. 1단계에서는 추출적 텍스트 요약 접근법을 사용해 원고의 특정·핵심 포인트에 차등적으로 가중치를 부여했다. 또 리뷰어의 비판을 강조하는 JSON(JavaScript Object Notation) 출력을 생성했다. 2단계에서는 시맨틱 텍스트 매칭을 활용했다. 모델과 사람 리뷰어 모두에서 얻은 JSON을 입력해 비교했다. 이후 GPT-4는 5점부터 10점까지 척도로 일치 유사도를 자체 평가하는 과제를 수행했다.

인공지능 사람 리뷰간 일치도 82.4%
대규모언어모델과 사람의 과학적 피드백에 대한 후향적 분석 (출처=스탠퍼드대)
연구진은 이 같은 GPT-4 모델을 온라인에 공개하고, 논문 제출자들이 온라인 포털에 원고 초안을 올릴 수 있도록 했다. 인공지능은 이들이 올린 논문을 리뷰해 다시 이들 이메일로 발송했다. 이에 대해 사용자는 저자의 배경, 이전에 저자가 겪은 일반적인 검토 상황, LLM 검토에 대한 일반적인 인상, LLM 성과에 대한 평가, 초안을 검토한 다른 사람과 비교하는 등 6페이지 분량의 설문 조사를 수행하도록 요청 받았다.

스탠퍼드대 연구진은 “후향적 평가 결과 F1 정확도 점수는 96.8%(추출)로, GPT-4 모델이 이 프로젝트에 사용된 훈련 및 검증 데이터 세트에서 검토자가 제시한 거의 모든 관련 비평을 식별하고 추출할 수 있음을 보여주었다”면서 “GPT-4가 생성한 원고와 사람이 제안한 원고 간의 일치율도 82.4%로 나타나 인상적이었다”고 설명했다. F1 점수는 0에서 1 사이의 값으로, 1에 가까울수록 모델의 성능이 좋다는 것을 뜻한다. 96.8% 수치는 매우 높은 점수로, 모델이 매우 잘 성능을 내고 있다는 것을 뜻한다. 그만큼 GPT-4 모델이 훈련 및 검증 데이터 세트에서 제시된 학술적 비평을 거의 완벽하게 식별하고 추출할 수 있는 대목이다.

인간보다 열등했다 응답 17.5%에 그쳐
특히 GPT-4 알고리즘이 제안한 의견의 57.55%는 최소한 한 명의 인간 리뷰어가 제안한 것으로 나타났다. 사람과 기계간 평가에 있어서 상당한 중복이 있었다는 메시지다. 또 응답자 50.3%는 LLM 피드백이 유용하다고 답했고, 이 가운데 일부는 사람 리뷰어가 놓친 부분을 LLM이 개선해 답했다고 평가했다. 반면 기계가 인간보다 열등하다는 평가는 17.5%에 그쳤다.

연구진은 “이러한 자동화 도구는 앞으로 과학 프로젝트를 수행할 뿐만 아니라 다른 사람의 연구를 동료 검토하고 다른 사람의 의견에 직접 응답해야 하는 연구자들의 업무량과 부담을 크게 줄여줄 수 있을 것으로 보인다”고 설명했다. 사람 리뷰어를 완벽히 대체하지는 않겠지만, 효율성과 공정성을 개선하고 학계내 격차를 줄이는 데 유용할 것이라는 메시지다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?