뷰노 VS 루닛, '폐렴 분석' AI 성능 대결…승자는?

박정렬 기자 2024. 12. 2. 14:39
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

우리나라를 대표하는 의료 인공지능(AI) 기업 뷰노와 루닛의 폐 질환 AI 솔루션을 비교 검증한 실사용(리얼월드) 연구 결과가 제시됐다.

2023년 1월~2024년 5월 부산의 한 병원에서 촬영한 만 20세 이상 정상인과 폐렴 환자의 X선 이미지 총 531장을 자체 개발한 CNN 기반 딥러닝 모델과 현재 상용화된 뷰노와 루닛의 AI 솔루션에 입력해 얼마나 잘 구분하는지를 평가했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[박정렬의 신의료인]
뷰노 VS 루닛, '폐렴 분석 AI' 성능 대결 결과/그래픽=이지혜


우리나라를 대표하는 의료 인공지능(AI) 기업 뷰노와 루닛의 폐 질환 AI 솔루션을 비교 검증한 실사용(리얼월드) 연구 결과가 제시됐다.

2일 업계에 따르면 부산가톨릭대 방사선학과 연구팀은 최근 방사선산업학회지에 '폐렴 및 정상군 판별을 위한 딥러닝 모델 성능 비교연구'라는 제목의 논문을 발표했다. 2023년 1월~2024년 5월 부산의 한 병원에서 촬영한 만 20세 이상 정상인과 폐렴 환자의 X선 이미지 총 531장을 자체 개발한 CNN 기반 딥러닝 모델과 현재 상용화된 뷰노와 루닛의 AI 솔루션에 입력해 얼마나 잘 구분하는지를 평가했다.

그 결과, 뷰노의 솔루션은 머신러닝 모델이 예측한 결과와 실제 정답이 얼마나 일치하는지 나타내는 정확도(Accuracy)가 0.84로 가장 높았다. 폐렴으로 예측한 사례 중 실제로 양성인 비율을 나타내는 정밀도(Precision)도 AUC 점수(AI 모델 성능평가 지표로 1에 가까울수록 양성과 음성을 정확하게 예측함)도 각각 0.81과 0.8233을 기록해 세 모델 중 가장 우수했다.

반면 루닛은 정확도(0.77)와 정밀도(0.72) 측면에서 뷰노는 물론 CNN 기반 딥러닝 모델(각각 0.82, 0.76)보다 아쉬운 결과를 나타냈다. AUC 점수는 0.7436으로 가장 낮았다. 반면 실제 양성인 이미지를 AI 모델이 양성으로 예측한 비율을 나타내는 재현율(Recall)은 0.96을 기록해 뷰노보다 높은 것으로 나타났다.

실사용 결과 정상(231건)을 폐렴으로 잘못 분류한 경우는 뷰노가 67건, 루닛은 110건으로 나타났다. 폐렴(300건)을 정상으로 분류한 건수는 뷰노 19건, 루닛 11건이다. 의료 AI 업계의 한 관계자는 "AI 솔루션은 진료 목적에 따라 환자를 골라내는 게 중요할 수도, 정상을 정상으로 분류하는 게 중요할 수도 있다"며 "의료 현장에 AI 보급이 확대되면서 환자별, 질환별로 더 나은 활용 방안을 찾아가는 상황"이라 전했다.

예수영 교수와 함께 대학원생으로 이번 연구를 주도한 이지현 메리놀병원 방사선사는 "뷰노는 다양한 상황에서 안정적으로 폐렴을 진단할 수 있는 균형 잡힌 성능을 보여준다"고 평가했다. 이어 "임상 환경에서 적용 가능성을 높이기 위해서는 다양한 환자군과 상황에서 모델 검증이 필수적"이라며 "이를 통해 폐렴 진단의 정확성을 높이고, 정상군의 오진을 최소화할 수 있을 것"이라 제안했다.

한 AI 전문가는 "국내를 대표하는 AI 솔루션을 실사용 비교한 점은 주목할만하지만 인종, 나이 등 데이터의 다양성과 규모를 확대했다면 더 가치 있는 결과를 제시할 수 있었을 것"이라 말했다.

박정렬 기자 parkjr@mt.co.kr

Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?