AI가 만든 가짜 X-선 사진… 전문의 10명 중 4명만 구별했다

미 아이칸의대 연구, ‘방사선의학’에 게재
지피티·제미나이·라마 등으로 이미지 생성
전문의·AI에 실제 X-선 사진과 구분 맡겨
부자연스러움·얼룩 등 AI 고유의 문제도 발견
사람·AI에 교육시켜 가짜영상 악용 막아야

미국 뉴욕시 소재 마운트사이나이 아이칸 의대의 마이클 토지만 박사 연구팀이 학술지 '방사선의학'에 게재한 AI 영상과 실제 사진. A·B는 흉부 전후면, C·D는 경추 측면, E·F는 손의 전후면, G·H는 요추 측면. 각 부위 왼쪽의 A·C·E·G는 실제 사진이고 오른쪽 B·D·F·H는 AI 생성 이미지다. 상호 구분이 쉽지 않다. 사진='방사선의학'(마운트사이나이 아이칸 의대의 마이클 토지만 박사팀)

바야흐로 인공지능(AI)의 시대다. 군사·산업·교육·교통·미디어 등 사회 전반에서 활용도가 갈수록 커지고 있는 것은 물론 대규모 변화까지 이끌어낼 기세다. 보건의료도 예외가 아니다. 변화의 한복판에 서 있다고 할 정도로 활용도가 커지고 있다. 속도와 정확도 등에서 유용한 점도 많다.

문제는 AI가 빅데이터를 이용한 기계학습을 통해 실제와 구분하기 힘들 정도로 정밀하고 정교한 가짜, 즉 '딥페이크 의료영상'을 생성할 수 있다는 점이다. 이미 시중에서 무료·유료로 이용할 수 있는 생성형 AI로도 이런 영상을 어렵지 않게 만들 수 있다. 이런 가짜 영상이 앞으로 얼마나 오용되고 악용될 지는 누구도 알 수 없다. 다만 각종 사기와 의료소송, 그리고 인간 건강에 악영향을 끼칠 것이란 점은 분명해 보인다.

사전 정보 없으면 전문의도 가짜 구분율 41%, 알려줘도 75%

이런 상황에서 영상 전문의는 AI가 만든 딥페이크 의료영상을 얼마나 구별하며, AI는 다른 AI가 만든 가짜 영상을 얼마나 알아차리는 지를 알아보는 연구 결과가 나왔다.

미국에서 영상의학 전문의들에게 실제 환자의 X-선 사진과 AI가 생성한 가짜 영상을 각각 보여줬더니 사전 고지 없이도 스스로 '가짜 영상'을 구별해낸 전문의의 비율은 41%로 나타났다. 절반이 안되는 수치다. AI 영상이 포함됐다고 알려준 상태에서 가짜 영상과 실제 사진을 정확하게 구별해낸 비율은 75% 수준이었다.

이는 미국 뉴욕시 소재 마운트사이나이 아이칸 의대의 바이오의공학 및 영상 연구소의 의사과학자 마이클 토지만 박사 연구팀이 6개국 영상 전문의 17명을 대상으로 연구한 결과다. 연구팀은 모두 264장의 X-선 사진을 3단계에 걸쳐 보여주며 판별 여부를 살폈다. 연구팀은 그 결과를 의학학술지 '방사선의학(Radiology) 최신호에 게재했다. '딥페이크 의료 영상의 부상: ChatGPT로 생성된 방사선 사진을 탐지하는 방사선 전문의의 진단 정확도(The Rise of Deepfake Medical Imaging: Radiologists' Diagnostic Accuracy in Detecting ChatGPT-generated Radiographs)'라는 제목이다. 이 연구는 AI의 발달에 걸맞은 의학 교육·수련 시스템의 재정비와 의료법·행정 등 제도적 장치의 필요성을 잘 보여준 것으로 평가된다.

지피티 2종류와 제미나이·라마 등 4종류 AI 기반기술 사용

의학이 AI를 이용해 퀀텀 도약을 이룰 것으로 기대되고 있다. 이미 수많은 부문에서 의학과 AI는 순조롭게 결합하고 있다. 장점과 함께 부작용도 살펴볼 필요가 있다. 사진=게티이미지뱅크

이 연구를 위해 토지만 박사 연구팀은 오픈AI의 '지피티(GPT)-4o'과 '지피티-5', 구글의 '제미나이(Gemini) 2.5 프로', 메타의 '라마(Llama) 4 메버릭' 등 4개의 '멀티모달 대형언어모델(LLM)'을 사용했다. 참고로 잘 알려진 챗지피티는 AI 서비스 이름이고, 지피티는 AI의 두뇌에 해당하는 기반기술을 가리킨다.

LLM은 방대한 데이터를 학습해 사람처럼 자연어 질문을 알아듣고 문장 등으로 대답을 생성하는 거대 AI 두뇌를 가리킨다. 멀티모달 LLM은 텍스트·이미지·오디오·비디오·3D데이터 등 다양한 형식의 데이터를 인간처럼 읽고·보고·듣고·말하고·이해하면서 통합적으로 처리하는 AI기술이다. 이미 GPT나 제미나이 등으로 일반인에게 널리 알려졌으며 해당 서비스가 유·무료로 제공되고 있다.

연구는 3단계로 나눠 진행됐다. 1단계에서는 AI 생성 이미지 77장과 진짜 실제 이미지 77장 등 154장을 영상의학과 전문의들에게 제시해 화질을 평가하고 진단을 내리게 했다.

2단계에선 영상의학 전문의들에게 AI 이미지가 포함됐음을 알린 뒤 무작위로 제시된 X선 사진이 지피티-4o로 생성된 것인지 실제 이미지인 지를 판별하게 했다. 이와 함께 4가지 AI 프로그램에 같은 판별 작업을 하게 했다. 3단계에선 추가로 AI 합성 55장과 실제 영상 55장 등 모두 110장의 흉부 X선 사진을 제시해 전문의와 AI의 판독 능력을 통계적으로 분석했다.

가짜 포함 알려줬더니 전문의는 75%, AI는 56~85% 구분

정보통신기술(ICE) 등 첨단과학기술과 적극적으로 결합하며 시너지를 높여온 영상의학은 AI와 만나면서 작업 속도와 정확도를 비약적으로 향상시키고 있다. 복잡하고 반복적인 판별 과정을 단축하는 등의 다양한 이점을 통해서다. 문제는 AI로 제작된 딥페이크 의료영상이 진짜와 쉽게 구분이 가지 않을 정도로 정밀하다는 점이다. 사진=게티이미지뱅크

연구팀은 이 4가지 프로그램 중 어느 것으로 만들어도 숙달된 영상 전문의가 완벽하게 구별해내지는 못했다고 밝혔다. AI 프로그램의 종류와 무관하게 영상이 갈수록 정교해지고 있다는 의미다.

사전정보를 제공하지 않은 상태에서 영상 전문의 17명 중 7명(41%)이 데이터 중에 AI 생성 영상이 있음을 스스로 알아차렸다. 일부 영상이 AI 합성이라는 사실을 알려준 뒤 전문의들에게 진짜와 가짜를 골라내게 했더니 평균 적중률이 75%로 나타났다. 민감도(진짜를 진짜로 골라낸 비율) 69%. 특이도(가짜를 가짜로 골라낸 비율) 80%였다.

진짜와 가짜를 판별하지 못하는 것은 AI 프로그램도 마찬가지였다. AI 프로그램에 진짜 영상과 AI 합성영상을 제시해 구별해보라고 했더니 지피티-4o는 85%, GPT-5는 83%, 라마4매버릭은 59%, 제미나이2.5프로는 56%를 각각 실제 영상과 구별했다.

부자연스러운 조직 질감, 매끄러움 등 AI 가짜영상 구분법 발견

연구팀은 AI 가짜 영상을 분석한 결과 뼈가 지나치게 매끄럽다든지, 조직의 질감이 미미하게 부자연스럽다든지, 균일한 노이즈(불필요한 알갱이나 거친 입자, 불규칙한 색상이나 얼룩)가 나타나는 등 공통점을 발견할 수 있었다고 지적했다. 이런 노하우를 축적해 교육·수련 등에 사용할 수 있다는 의미다.

연구팀은 LLM을 이용해 합성한 의료용 영상은 전문의와 LLM 모두 실제 방사선 사진과 쉽게 구별할 수 없다고 지적했다. 이러한 혼동 가능성을 줄이려면 의사와 LLM 모두에게 AI합성 이미지를 인식하도록 교육해야 한다고 강조했다. 이를 위해 다양한 딥페이크 의료영상을 데이터베이스화해 교육용으로 제공하는 방안을 제안했다.

채인택 의학 저널리스트 (tzschaeit@kormedi.com)

코메디닷컴에서 직접 확인하세요. 해당 언론사로 이동합니다.

생활

AI가 만든 가짜 X-선 사진… 전문의 10명 중 4명만 구별했다