“GPT-4의 진단영상 오류 탐지, 전문의 수준”

獨연구팀, 의사 6명과 비교실험

오픈AI의 거대언어모델(LLM)인 GPT-4가 영상의학 전문의만큼 진단 영상의 오류를 감지하는 것으로 나타났다.

16일(현지 시간) 북미영상의학회(RSNA) 저널 래디올로지에 공개된 독일 쾰른대병원 영상의학과 로만 게르츠 박사 연구팀 논문에 따르면 이들은 GPT-4와 영상의학 의사 6명을 대상으로 진단 영상 오류 식별 비교실험을 진행했다. 연구팀은 지난해 6∼12월 한 병원에서 X선 사진과 컴퓨터단층촬영(CT), 자기공명영상(MRI) 등 영상 200개를 수집하고 이 가운데 100건에 오류 150건을 의도적으로 넣었다. 실험 결과 GPT-4와 영상의학 전문의 간 오류 탐지율은 비슷한 수준으로 나타났다. GPT-4는 150개 오류 가운데 124개를 찾아내 82.7%의 탐지율을 기록했다. 영상의학 선임 전문의의 탐지율이 89.3%(134개), 주치의와 레지던트가 각각 120개를 찾아내 80%의 탐지율을 기록했다.

하지만 시간 효율성 측면에서는 GPT-4가 영상의학 전문의보다 높았다. 진단 영상 한 건당 GPT-4의 판독 시간은 평균 3.5초였으나 영상의학 전문의 가운데 판독 속도가 가장 빠른 전문의의 평균 판독 시간은 25.1초였다.

김하경 기자 whatsup@donga.com

동아일보

사회

“GPT-4의 진단영상 오류 탐지, 전문의 수준”