의사보다 똑똑한 AI 진단···정확도 78.4%

응급진단 AI가 의사 압도
하버드대 6개 임상 평가
의료 보조할 핵심 기술로

하버드 의대 연구 결과, 거대언어모델(LLM) 기반 AI가 응급 상황 등 제한된 의료 현장에서 전문의보다 최대 17%포인트 높은 진단 정확도를 기록했다. AI는 의사를 대체하기보다 진단 오류를 줄이고 서비스 질을 높이는 보완재 역할을 할 것으로 기대된다. /챗GPT 제작 이미지

인공지능(AI)이 환자 진단 영역에서 의사의 정확도를 넘어섰다는 연구 결과가 나왔다. 신속한 판단이 필요한 응급 상황에서 AI 진단 정확도가 전문의보다 최대 17%포인트 높은 것으로 확인됐다.

1일 미국 하버드 의과대학 연구진은 거대언어모델(LLM) 기반의 AI 시스템이 수백 건의 임상 사례 진단 평가에서 의사와 대등하거나 이를 능가하는 성과를 기록했다고 밝혔다. 해당 연구 결과는 국제 학술지 <사이언스>에 게재됐다.

연구진은 2024년 출시된 AI 모델 오픈AI o1 성능을 의사 수백 명 및 기존 AI 시스템과 비교 분석했다. 평가는 가상 시나리오 및 실제 응급실 사례를 포함해 총 6개 실험으로 진행됐다.

분석 결과 AI는 정보가 제한적이고 신속한 판단이 요구되는 현장에서 의사를 상회하는 성과를 냈다. 세부 데이터를 살펴보면 AI와 의사 간 진단 정확도 격차는 뚜렷하게 나타났다.

△복잡한 가상 사례(143건) 인터넷 접속이 허용된 의사 정확도는 44.5%에 그친 반면 AI는 78.4% 확률로 정확한 진단을 내렸다. △임상 추론 시나리오(6건) 의사 50명이 평균 74% 정확도를 기록할 때 AI는 평균 97% 정확도를 보였다. △추가 임상 추론 사례(20건) 80점 만점 기준 전문의가 28점을 기록하는 동안 AI는 78점을 획득했다. △실제 사고 및 응급실 사례 환자 분류(76건) 담당 의사 2명이 각각 55.3%·50.0% 정확도를 기록한 반면 AI 초기 환자 분류 정확도는 67.1%로 확인됐다.

"대체재 아닌 보완재···의료 시스템 혁신 이끌 것

이번 연구는 실제 의료 현장에서 제한된 정보만으로 결정을 내려야 하는 임상적 상황에 AI를 투입해 실효성을 입증한 최대 규모 독립 연구로 평가받는다. 영국 잉글랜드 헬스워치에 따르면 35세 미만 남성 5명 중 1명은 이미 건강 상태 확인을 위해 챗GPT 등 AI 챗봇을 활용하고 있는 것으로 조사됐다.

연구진은 AI가 의사를 대체할 수는 없으나 의료 전문가를 보조해 환자 치료 결과를 개선하는 데 핵심적인 역할을 할 것이라고 분석했다.

연구 공동 저자인 애덤 로드먼은 논문을 통해 "의료용 AI 모델은 수십 년 내 가장 영향력 있는 기술 중 하나가 될 것"이라며 "전자건강기록(EHR) 시스템을 기반으로 진단 오류나 누락을 식별하는 데 AI를 활용한다면 의료 서비스 질이 어떻게 향상될지 쉽게 가늠할 수 있다"고 설명했다.

다만 연구진은 AI가 스캔 판독과 같은 시각·청각적 데이터를 종합적으로 평가해야 하는 복합 임상 환경에서 어떻게 기능하는지 검증하려면 추가적인 후속 연구가 필요하다고 덧붙였다.

☞거대언어모델(LLM)=대량의 텍스트 데이터를 학습해 인간과 유사한 문장 구조와 문맥을 파악하고 번역, 요약, 질의응답 등 다양한 자연어 처리 작업을 수행하는 인공지능 시스템이다.

여성경제신문 김현우 기자
hyunoo9372@seoulmedia.co.kr

*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.

속보

의사보다 똑똑한 AI 진단···정확도 78.4%