AI가 만든 가짜 X-선 사진… 전문의 10명 중 4명만 구별했다
지피티·제미나이·라마 등으로 이미지 생성
전문의·AI에 실제 X-선 사진과 구분 맡겨
부자연스러움·얼룩 등 AI 고유의 문제도 발견
사람·AI에 교육시켜 가짜영상 악용 막아야

바야흐로 인공지능(AI)의 시대다. 군사·산업·교육·교통·미디어 등 사회 전반에서 활용도가 갈수록 커지고 있는 것은 물론 대규모 변화까지 이끌어낼 기세다. 보건의료도 예외가 아니다. 변화의 한복판에 서 있다고 할 정도로 활용도가 커지고 있다. 속도와 정확도 등에서 유용한 점도 많다.
문제는 AI가 빅데이터를 이용한 기계학습을 통해 실제와 구분하기 힘들 정도로 정밀하고 정교한 가짜, 즉 '딥페이크 의료영상'을 생성할 수 있다는 점이다. 이미 시중에서 무료·유료로 이용할 수 있는 생성형 AI로도 이런 영상을 어렵지 않게 만들 수 있다. 이런 가짜 영상이 앞으로 얼마나 오용되고 악용될 지는 누구도 알 수 없다. 다만 각종 사기와 의료소송, 그리고 인간 건강에 악영향을 끼칠 것이란 점은 분명해 보인다.
사전 정보 없으면 전문의도 가짜 구분율 41%, 알려줘도 75%
이런 상황에서 영상 전문의는 AI가 만든 딥페이크 의료영상을 얼마나 구별하며, AI는 다른 AI가 만든 가짜 영상을 얼마나 알아차리는 지를 알아보는 연구 결과가 나왔다.
미국에서 영상의학 전문의들에게 실제 환자의 X-선 사진과 AI가 생성한 가짜 영상을 각각 보여줬더니 사전 고지 없이도 스스로 '가짜 영상'을 구별해낸 전문의의 비율은 41%로 나타났다. 절반이 안되는 수치다. AI 영상이 포함됐다고 알려준 상태에서 가짜 영상과 실제 사진을 정확하게 구별해낸 비율은 75% 수준이었다.
이는 미국 뉴욕시 소재 마운트사이나이 아이칸 의대의 바이오의공학 및 영상 연구소의 의사과학자 마이클 토지만 박사 연구팀이 6개국 영상 전문의 17명을 대상으로 연구한 결과다. 연구팀은 모두 264장의 X-선 사진을 3단계에 걸쳐 보여주며 판별 여부를 살폈다. 연구팀은 그 결과를 의학학술지 '방사선의학(Radiology) 최신호에 게재했다. '딥페이크 의료 영상의 부상: ChatGPT로 생성된 방사선 사진을 탐지하는 방사선 전문의의 진단 정확도(The Rise of Deepfake Medical Imaging: Radiologists' Diagnostic Accuracy in Detecting ChatGPT-generated Radiographs)'라는 제목이다. 이 연구는 AI의 발달에 걸맞은 의학 교육·수련 시스템의 재정비와 의료법·행정 등 제도적 장치의 필요성을 잘 보여준 것으로 평가된다.
지피티 2종류와 제미나이·라마 등 4종류 AI 기반기술 사용

이 연구를 위해 토지만 박사 연구팀은 오픈AI의 '지피티(GPT)-4o'과 '지피티-5', 구글의 '제미나이(Gemini) 2.5 프로', 메타의 '라마(Llama) 4 메버릭' 등 4개의 '멀티모달 대형언어모델(LLM)'을 사용했다. 참고로 잘 알려진 챗지피티는 AI 서비스 이름이고, 지피티는 AI의 두뇌에 해당하는 기반기술을 가리킨다.
LLM은 방대한 데이터를 학습해 사람처럼 자연어 질문을 알아듣고 문장 등으로 대답을 생성하는 거대 AI 두뇌를 가리킨다. 멀티모달 LLM은 텍스트·이미지·오디오·비디오·3D데이터 등 다양한 형식의 데이터를 인간처럼 읽고·보고·듣고·말하고·이해하면서 통합적으로 처리하는 AI기술이다. 이미 GPT나 제미나이 등으로 일반인에게 널리 알려졌으며 해당 서비스가 유·무료로 제공되고 있다.
연구는 3단계로 나눠 진행됐다. 1단계에서는 AI 생성 이미지 77장과 진짜 실제 이미지 77장 등 154장을 영상의학과 전문의들에게 제시해 화질을 평가하고 진단을 내리게 했다.
2단계에선 영상의학 전문의들에게 AI 이미지가 포함됐음을 알린 뒤 무작위로 제시된 X선 사진이 지피티-4o로 생성된 것인지 실제 이미지인 지를 판별하게 했다. 이와 함께 4가지 AI 프로그램에 같은 판별 작업을 하게 했다. 3단계에선 추가로 AI 합성 55장과 실제 영상 55장 등 모두 110장의 흉부 X선 사진을 제시해 전문의와 AI의 판독 능력을 통계적으로 분석했다.
가짜 포함 알려줬더니 전문의는 75%, AI는 56~85% 구분

연구팀은 이 4가지 프로그램 중 어느 것으로 만들어도 숙달된 영상 전문의가 완벽하게 구별해내지는 못했다고 밝혔다. AI 프로그램의 종류와 무관하게 영상이 갈수록 정교해지고 있다는 의미다.
사전정보를 제공하지 않은 상태에서 영상 전문의 17명 중 7명(41%)이 데이터 중에 AI 생성 영상이 있음을 스스로 알아차렸다. 일부 영상이 AI 합성이라는 사실을 알려준 뒤 전문의들에게 진짜와 가짜를 골라내게 했더니 평균 적중률이 75%로 나타났다. 민감도(진짜를 진짜로 골라낸 비율) 69%. 특이도(가짜를 가짜로 골라낸 비율) 80%였다.
진짜와 가짜를 판별하지 못하는 것은 AI 프로그램도 마찬가지였다. AI 프로그램에 진짜 영상과 AI 합성영상을 제시해 구별해보라고 했더니 지피티-4o는 85%, GPT-5는 83%, 라마4매버릭은 59%, 제미나이2.5프로는 56%를 각각 실제 영상과 구별했다.
부자연스러운 조직 질감, 매끄러움 등 AI 가짜영상 구분법 발견
연구팀은 AI 가짜 영상을 분석한 결과 뼈가 지나치게 매끄럽다든지, 조직의 질감이 미미하게 부자연스럽다든지, 균일한 노이즈(불필요한 알갱이나 거친 입자, 불규칙한 색상이나 얼룩)가 나타나는 등 공통점을 발견할 수 있었다고 지적했다. 이런 노하우를 축적해 교육·수련 등에 사용할 수 있다는 의미다.
연구팀은 LLM을 이용해 합성한 의료용 영상은 전문의와 LLM 모두 실제 방사선 사진과 쉽게 구별할 수 없다고 지적했다. 이러한 혼동 가능성을 줄이려면 의사와 LLM 모두에게 AI합성 이미지를 인식하도록 교육해야 한다고 강조했다. 이를 위해 다양한 딥페이크 의료영상을 데이터베이스화해 교육용으로 제공하는 방안을 제안했다.
채인택 의학 저널리스트 (tzschaeit@kormedi.com)
Copyright © 코메디닷컴. 무단전재 및 재배포 금지.
- "Z세대, 성관계 잘 안해"…대신 '이것' 우선한다는데, 뭐길래? - 코메디닷컴
- 매일 먹은 영양제가 세균 범벅?… “‘이것’ 확인해야” 약사 경고, 왜? - 코메디닷컴
- ‘158cm 41kg’ 박보영, 파격 수영복에 드러난 늘씬 몸매…비결 뭘까? - 코메디닷컴
- 싱크대 하얀 얼룩, 베이킹소다 대신 ’이 가루‘ 한 스푼이면 해결 - 코메디닷컴
- "수세미 전자렌지에 돌려봤어?"...세균 범벅 수세미, 똑똑한 소독법 6가지 - 코메디닷컴
- “노른자 진할수록 좋은 계란?” 달걀 색깔 차이의 ‘진짜’ 이유는? - 코메디닷컴
- “패딩 정리해야 하는데”…보온력 유지하는 패딩 세탁법은? - 코메디닷컴
- 욕실 물때 제거, 락스 대신 ‘이 음식’ 하나면 충분하다고? - 코메디닷컴
- “설탕보다 더 나빠” 의사 경고… ‘당뇨’ 부르는 사소한 습관, 뭘까? - 코메디닷컴
- 변기보다 세균 96배 많은 ‘이것’…교체 시기 놓치면 위험한 물건 5가지 - 코메디닷컴