"판독인가, 설명인가"…생성형 의료 AI 허가에 남은 질문들

임태균 기자 2026. 4. 18. 06:20
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

위원회 “판독문 용어·사용 환경·리스크 관리 보완 필요”
“오인·오남용 우려”…성능 입증에도 ‘책임·사용 경계’ 논쟁 본격화
생성형 인공지능(AI)이 의료영상 판독 영역에 본격 진입했다. 흉부 X-ray 영상을 분석해 예비소견서를 생성하는 소프트웨어가 식품의약품안전처 3등급 인허가를 획득하면서, '판독 보조'를 넘어 '의료 문장 생성'까지 확장된 디지털의료기기의 새로운 국면이 열리고 있다. 기술적 성과는 분명하지만, 실제 의료현장에서의 활용 방식과 책임 구조를 둘러싼 논의는 이제 시작 단계다.
AIRead-CXR 구조. 숨빗AI

18일 의약품안전나라 등에 최근 공개된 회의록에 따르면, 의료기기위원회 영상방사선 소분과위원회는 지난  2월 3일 서울 중구 그랜드 센트럴 빌딩에서 '흉부 X-ray 영상을 생성형 AI로 분석해 초안 판독문을 제공하는 제품'의 임상시험 결과 타당성을 심의했다. 위원회는 제출된 임상시험 결과보고서를 바탕으로 "유효성과 안전성을 확인할 수 있다"며 임상시험 결과의 타당성을 인정했다.

해당 제품(AIRead-CXR·숨빗AI)은 국내 의료 인공지능 기업이 개발한 생성형 AI 기반 소프트웨어로, 흉부 X선 영상에서 도출된 소견을 바탕으로 예비소견서를 자동 생성한다. 서울대병원과 분당서울대병원에서 1000건 이상의 데이터를 기반으로 확증 임상이 진행됐으며, 전문의 판독문과의 비교 평가를 통해 성능이 검증됐다. 약 1400만 건의 학습데이터를 기반으로 57개 주요 소견 및 질환에 대해 판독 보조 기능을 수행하는 구조다.

특히 생성형 AI의 핵심 리스크로 지목되는 할루시네이션(환각) 비율은 0.3% 수준으로 보고되며 기존 비교 모델 대비 안정성을 확보했다는 점이 강조된다. 전문의 평가 기준 예비소견서 수용도 역시 85% 수준으로 나타나, 임상적 활용 가능성에 대한 기대를 높이고 있다.

다만 위원회 심의 과정에서는 기술 성능과 별개로 '의료적 해석의 경계'를 둘러싼 논의가 집중적으로 제기됐다. 핵심 쟁점은 '초안 판독문'이라는 표현이었다. 

한 위원은 "판독문이라는 단어를 쓰는 순간 혼동이 많이 될 것 같다. 판독은 영상을 보고 평가하는 행위가 있어야 한다"고 지적했고, 또 다른 위원도 "결과 자체를 이야기할 때 판독문보다는 설명문이 맞을 것 같다"고 언급했다.

이는 생성형 AI가 만들어낸 결과물의 '의료적 지위'를 어떻게 정의할 것인가와 직결된다. 위원회에서는 "이게 판독문이 아니라는 인식을 시켜주는 것이 가장 중요하다"는 의견까지 제시되며, AI 결과가 전문의 판단을 대체하는 것으로 오인될 가능성에 대한 우려가 공유됐다.

실제 사용 환경에 대한 고민도 이어졌다. 제품은 영상의학과 전문의를 주요 사용자로 설정하고 있지만, 현장에서는 비전문의가 활용할 가능성이 높다는 지적이다. 한 위원은 "현재 단계에서는 영상의학과 전문의가 이 제품을 사용하지 않을 확률이 높다"며 "오히려 비전문의가 사용할 확률이 굉장히 높다"고 말했다. 이어 "검진센터 같은 곳에서 결과를 확인하지 않고 그대로 사용할 수 있는데, 결국 소비자가 피해를 볼 수 있다"고 우려했다.

이는 생성형 AI 의료기기의 '현장 적용 리스크'를 단적으로 보여준다. 기술은 전문의의 업무 효율화를 목표로 설계됐지만, 실제로는 의료 전달체계의 다양한 층위에서 예기치 않은 방식으로 사용될 수 있기 때문이다. 위원회에서는 "어떻게 하면 소비자가 해를 보지 않게 사용할 수 있을지가 핵심"이라는 지적도 나왔다.

할루시네이션 문제 역시 장기적 관점에서 관리 과제로 남는다. 현재 제품은 입력과 출력 범위를 제한하는 방식으로 오류 가능성을 낮춘 '중간 단계' 형태라는 평가를 받았다. 한 위원은 "입력과 출력이 제한된 구조라 할루시네이션을 줄인 정제된 느낌"이라고 평가하면서도 "자유로운 생성으로 갈수록 할루시네이션은 더 많이 생길 것"이라고 지적했다.

데이터 일반화 문제도 제기됐다. 한 위원은 "학습데이터가 대부분 한국 사람이라 해외 적용 시 인종 간 차이가 있을 수 있다"며 "연령이나 의료기관별 데이터 편향도 확인이 필요하다"고 언급했다. 글로벌 시장 진출을 염두에 둘 경우, 성능 검증의 범위를 확대해야 한다는 의미다.

정보 제공 방식 역시 개선 과제로 지목됐다. 유사 소견을 묶어 제시하는 '매핑(mapping)' 기능에 대해 "마치 정해진 공식처럼 보일 수 있어 혼선을 줄 수 있다"는 지적이 나오며, 사용자 이해도를 고려한 표현 방식 정비 필요성이 제기됐다.

결과적으로 위원회는 임상시험 결과 자체는 타당하다고 판단하면서도 △판독문 표현 수정 △사용자 범위 명확화 △주의사항 정비 △정보 제공 방식 개선 등 다층적인 보완 필요성을 함께 제시했다.

익명을 요청한 한 의료기기 제조사 RA 담당자는 "이번 사례는 생성형 AI 의료기기가 단순한 진단 보조를 넘어 '의료 문장 생성' 단계로 진입했음을 보여주는 상징적 사건"이라며 "동시에 기술의 성능 검증만으로는 해결할 수 없는 구조적 질문인 누가 해석하고, 누가 책임질 것인가하는 문제를 의료현장에 던지는 것"이라고 설명했다.