생성AI가 잡아낸 진단기록 오류, 영상의학과 전문의 못지 않다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
오픈AI의 대형언어모델(LLM)인 GPT-4가 영상의학과 전문의만큼 방사선학 진단 기록의 오류를 감지하는 능력이 있는 것으로 확인됐다.
그런 뒤 시니어 영상의학과 전문의 2명, 주치의 2명, 전공의 2명과 GPT-4에게 방사선학 진단 기록의 오류를 감지하는 과제를 시행하도록 했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
오픈AI의 대형언어모델(LLM)인 GPT-4가 영상의학과 전문의만큼 방사선학 진단 기록의 오류를 감지하는 능력이 있는 것으로 확인됐다. 영상의학과에서 작업 처리 속도를 높이는 데 활용될 수 있을 것으로 전망된다.
로만 J. 게르츠 독일 쾰른대학병원 영상의학과 의학박사 연구팀은 GPT-4와 영상의학과 전문의의 방사선학 진단 기록에 대한 오류 검출률이 유사하다는 연구결과를 국제학술지 '방사선학'에 16일(현지시간) 발표했다. 방사선학 진단 기록의 오류 검출에서 GPT-4 성능과 인간의 능력을 비교한 연구는 이번이 처음이다.
방사선학 기록의 오류는 전공의와 전문의 간의 판단 불일치, 음성인식 부정확성, 작업 부하 등으로 인해 발생할 수 있다. 연구팀은 GPT-4와 같은 LLM을 통해 진료 기록 생성 프로세스를 향상시킬 수 있을 것으로 보았다.
진단 기록과 관련한 LLM의 잠재력은 앞선 연구들을 통해서도 확인됐다. 환자의 병력을 기반으로 올바른 영상 검사를 선택하도록 유도하고, 서술형으로 자유롭게 기술된 환자 기록을 짜임새 있는 기록으로 변환하는 등의 잠재적 가능성을 보여왔다.
연구팀은 정확성, 속도, 비용 효율 측면에서 GPT-4 성능과 인간 능력을 비교했다. 우선 2023년 6월에서 12월 단일기관에서 수집한 엑스선, 컴퓨터단층촬영(CT) 및 자기공명영상(MRI) 등 200개의 방사선학 진단 기록을 수집한 다음 100개의 기록에 누락, 삽입, 철자법 등과 관련한 오류 150개를 의도적으로 집어넣었다.
그런 뒤 시니어 영상의학과 전문의 2명, 주치의 2명, 전공의 2명과 GPT-4에게 방사선학 진단 기록의 오류를 감지하는 과제를 시행하도록 했다.
그 결과 주치의와 전공의의 오류 검출률은 80%, 시니어 전문의의 검출률은 89.3%, GPT-4의 검츌률은 82.7%로 나타났다. GPT-4는 진단 경험이 가장 풍부한 시니어 전문의보다는 검출 능력이 떨어졌지만 주치의 및 전공의와는 별다른 능력 차이를 보이지 않은 셈이다.
GPT-4는 진료 기록당 처리 시간이 사람보다 적게 소요됐고 잘못된 부분을 교정하는 수정 비용도 더 적게 들어갔다. 게르츠 박사는 “오류를 감지하는 GPT-4의 효율성은 AI가 영상의학과 작업 흐름을 최적화하는 데 도움이 될 수 있다는 점을 암시한다”며 “적시에 신뢰도 높은 진단을 제공하는 역량이 향상되는 데 도움이 될 것으로 보인다”고 말했다.
또 “우리 연구는 AI가 오류를 최소화하면서 병원 운영 및 의료 비용을 낮추는 의료 혁신을 일으킬 수 있다는 구체적인 사례”라며 “방사선학 기록의 정확도가 높아지면 환자는 적절한 치료를 받을 수 있는 기회가 늘어나게 된다”고 덧붙였다.
[문세영 기자 moon09@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.