‘영상 오류’ 찾는 인공지능 개발

오픈 AI 거대언어모델 인공지능이 엑스 선 사진 등 진단 영상에서 오류를 찾아내는 능력이 영상의학 전문의들과 비슷한 수준이면서도 시간·비용 효율성은 사람보다 훨씬 높다는 연구 결과가 나왔다./사진=클립아트코리아

오픈 AI 거대언어모델 인공지능이 엑스레이 사진 등 진단 영상에서 오류를 찾아내는 능력이 영상의학 전문의들과 비슷한 수준이면서도 시간·비용 효율성은 사람보다 훨씬 높다는 연구 결과가 나왔다.

독일 쾰른대병원 영상의학과 로만 게르츠 박사팀은 2023년 6월부터 12월까지 한 병원에서 200건의 엑스레이·CT·MRI 영상을 수집하고, 이 중 100건에 누락·삽입·철자·방향 혼동·기타 등 다섯 개 범주의 오류 150개를 의도적으로 삽입했다. 이후 오픈 AI 거대언어모델 인공지능 GPT-4와 영상의학과 전문의 여섯 명(영상의학과 선임 전문의 두 명, 주치의 두 명, 레지던트 두 명)의 정확성과 속도, 비용 효율성 등을 비교했다.

연구 결과, GPT-4는 오류 150개 중 124개를 찾아낸 오류 감지율 82.7%를 기록했다. 사람 전문가의 오류 감지율은 각각 영상의학 선임 전문의가 89.3%(150개 중 134개), 주치의 80%(150개 중 120개), 레지던트 80%(150개 중 120개)로 나타났다. GPT-4의 오류 감지율은 영상의학과 수석전문의 두 명을 제외하면 가장 높은 수준이며, 수석 전문의 중 한 명은 94.7%(150개 중 142개)의 오류 감지율을 보였다. 이는 GPT-4와 영상의학 전문의 사이에 오류 감지율에 유의미한 차이가 없음을 의미한다.

GPT-4는 속도와 비용 효율성은 영상의학 전문의들보다 높은 것으로 나타났다. GPT-4의 진단 영상 한 건당 판독 시간은 평균 3.5초였으나, 이 연구에서 판독 속도가 가장 빠른 전문의의 판독 시간은 한 건당 평균 25.1초였다. 또한 GPT-4는 진단 영상 한 건당 평균 보정 비용이 0.03달러(한화 약 42원)로 비용 효율이 가장 높은 전문의(건당 0.42달러, 한화 약 582원)의 10분의 1 미만이었다.

연구 저자 로만 게르츠 박사는 “GPT-4를 활용해 영상의학 보고서의 정확성을 높여 환자 치료를 개선할 수 있다는 점에서 의미가 있다”고 말했다.

이 연구는 영상의학분야 저명 국제학술지인 ‘Radiology’에 최근 게재됐다.

헬스조선

문화

‘영상 오류’ 찾는 인공지능 개발