인공지능 ‘논문평가’에서도 인간 리뷰어 보다 유용했다
피어리뷰시 공정성 크게 줄어들 전망
22일(현지시각) 위신 량(Weixin Liang) 유휘 장(Yuhui Zhang) 등 스탠퍼드대 연구진은 수학 물리학 천문학 전산과학 등 부문에서 출판전(preprint)에 논문을 공개하는 사이트인 아카이브(arXiv)에 이 같은 결과를 공개했다. 논문 제목은 ‘대규모 언어 모델이 연구 논문에 유용한 피드백을 제공할 수 있을까: 대규모 실증 분석(Can large language models provide useful feedback on research papers? A large-scale empirical analysis)’이다.
이를 위해 연구진은 과학 논문에 대한 유용한 피드백을 제공할 수 있는 대규모언어모델(LLM)을 개발했다. 해당 모델은 생성형 트랜스포머 4(GPT-4) 프레임워크를 토대로 설계했다. PDF 파일 형태의 원고를 올리면 인공지능이 △ 참신성 및 중요성 △ 수락 이유 △거절 이유 △개선 제안을 하는 방식이다. 연구 결과에 따르면 사용자 중 50% 이상이 인공지능으로 부터 받은 리뷰에 만족했으며, 82%는 사람 리뷰어로부터 받은 피드백 보다 유용했다고 답변했다. 연구진은 “LLM이 과학적 검토 과정에서 사람의 피드백을 보완할 수 있다”면서 “특히 원고를 다 쓰지 않고 초기 단계에서 더욱 유용하다는 것을 알 수 있다”고 말했다.
연구진은 이를 위해 방대한 데이터를 수집해 모델을 학습시켰다. 특히 네이처 산하 15개 저널 데이터를 수집했다. 2022년 1월 1일부터 2023년 6월 17일까지 총 8745개 개별 리뷰로 구성된 3096개 원고를 대상으로 했다. 또 표현학습국제학회(ICLR) 데이터 세트 1709개 원고와 6506개 리뷰를 추가 수집했다. 연구진은 GPT-4가 입력 데이터를 최대 8192개 토큰으로 제한하는 것을 고려해 제목, 초록, 키워드 등 6500개 토큰을 다운스트림 분석에 사용했다. 이후 2단계 매칭 파이프라인을 개발해 인공지능 리뷰어와 사람 리뷰어의 피드백이 얼마나 중복되는지 조사했다. 1단계에서는 추출적 텍스트 요약 접근법을 사용해 원고의 특정·핵심 포인트에 차등적으로 가중치를 부여했다. 또 리뷰어의 비판을 강조하는 JSON(JavaScript Object Notation) 출력을 생성했다. 2단계에서는 시맨틱 텍스트 매칭을 활용했다. 모델과 사람 리뷰어 모두에서 얻은 JSON을 입력해 비교했다. 이후 GPT-4는 5점부터 10점까지 척도로 일치 유사도를 자체 평가하는 과제를 수행했다.
스탠퍼드대 연구진은 “후향적 평가 결과 F1 정확도 점수는 96.8%(추출)로, GPT-4 모델이 이 프로젝트에 사용된 훈련 및 검증 데이터 세트에서 검토자가 제시한 거의 모든 관련 비평을 식별하고 추출할 수 있음을 보여주었다”면서 “GPT-4가 생성한 원고와 사람이 제안한 원고 간의 일치율도 82.4%로 나타나 인상적이었다”고 설명했다. F1 점수는 0에서 1 사이의 값으로, 1에 가까울수록 모델의 성능이 좋다는 것을 뜻한다. 96.8% 수치는 매우 높은 점수로, 모델이 매우 잘 성능을 내고 있다는 것을 뜻한다. 그만큼 GPT-4 모델이 훈련 및 검증 데이터 세트에서 제시된 학술적 비평을 거의 완벽하게 식별하고 추출할 수 있는 대목이다.
연구진은 “이러한 자동화 도구는 앞으로 과학 프로젝트를 수행할 뿐만 아니라 다른 사람의 연구를 동료 검토하고 다른 사람의 의견에 직접 응답해야 하는 연구자들의 업무량과 부담을 크게 줄여줄 수 있을 것으로 보인다”고 설명했다. 사람 리뷰어를 완벽히 대체하지는 않겠지만, 효율성과 공정성을 개선하고 학계내 격차를 줄이는 데 유용할 것이라는 메시지다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “정말 사랑해, 200만원만”…이 말 믿은 중년 남성들, 뜯긴 돈이 무려 - 매일경제
- 녹차 모델 ‘새 얼굴’ 발탁에 난리난 일본…알고보니 “바로 너였구나” - 매일경제
- ‘강남 빌딩’ 손해보고 판 전혜진...‘마약 파문’ 이선균 때문? - 매일경제
- ‘나의 아저씨’의 추락…이선균 이르면 다음 주 경찰 소환 - 매일경제
- “쪼민, 다음은 깔롱비키니?”…전여옥 “이 모든 것, 심각한 사법농단” 저격 - 매일경제
- 백종원도 송은이도 “나 아니다” 버럭…유명 연예인 분노한 이유 - 매일경제
- 네타냐후 "죽이느냐 죽느냐 문제"… 가자 '전면침공' 임박 - 매일경제
- “그래픽카드값 3배올라 천만원?”…채굴대란도 아닌데 난리난 중국 - 매일경제
- [단독] 영풍제지 ‘작전놀이터’ 된 키움증권…미수거래 못막았나 안막았나 - 매일경제
- ‘코리안 가이’ 황희찬의 질주는 계속된다…박치기 맞고도 결승골 AS, 울버햄튼은 역전승 - MK스