"아프죠?" 진화하는 AI 공감도 척척…그래도 의사 대체 못해, 왜
지난 9월 오픈AI의 생성형 인공지능(AI) 챗GPT로 자녀의 희귀병을 찾아낸 엄마의 사연이 의료계에서 화제가 됐다. 워싱턴포스트(WP)에 따르면 자신을 코트니라고 밝힌 한 미국 여성은 네살배기 아들 알렉스(익명)가 몇 년 전부터 턱·머리 등에 만성적인 통증에 시달렸다고 털어놨다.
알렉스의 통증은 심해져 이부프로펜 계열 진통제 ‘모트린’을 매일 복용해야 했고, 일상 생활조차 못했다. 코트니는 3년 동안 17명의 치과·소아과·이비인후과 전문의를 찾아다녔지만, 선천성 안면 기형과 발달 지연 등의 진단을 받았을 뿐 근본적인 치료를 받진 못 했다.
코트니는 자포자기하는 심정으로 아들의 증상과 자기공명영상장치(MRI) 기록을 챗GPT에 입력했다. 그러자 챗GPT는 “척수 증후군(cord symptoms)에 가깝다”고 답했다. 이를 근거로 신경외과를 방문한 뒤 알렉스는 희귀병의 일종인 ‘숨은 척추 갈림증’ 진단을 받았다.
알렉스의 사례는 통증을 정확히 표현할 수 없는 소아 환자에게 희귀병 진단이 쉽지 않다는 점, 그리고 생성형 AI가 이런 상황에서 돌파구가 될 수 있다는 걸 동시에 보여준다. 챗GPT가 지난해 11월 30일 출시된 이래 전 세계 의료 기관들은 거의 매달 관련 연구를 쏟아내고 있다. 최근 WP와 미 온라인 매체 악시오스는 챗GPT 출시 1년을 맞아 이 같은 현상을 집중 조명했다.
의료계의 궁금증은 한마디로 ‘AI 의사’가 ‘인간 의사’만큼 진단할 수 있냐는 거다. 올해 미국 의사의 평균 오진율은 약 11%, 즉 10건 중 한 건 꼴로 의사의 초기 진단이 틀렸던 것으로 나타났다. 현재는 ‘AI 의사’가 이런 인간의 실수를 줄여준다는 시각, 반대로 증폭시킬 수 있다는 의견이 공존하고 있다. 지난 1년 간 나온 의료용 AI에 대한 연구 결과도 크게 다르지 않다. 이를 바탕으로 챗GPT 활용을 둘러싼 견해를 예스(Yes), 노(No)의 논박 형태로 정리했다.
①Yes: “챗GPT, 의사 능가한 사례도”
뒷받침하는 연구도 나왔다. 지난 9월 유럽응급의학회가 발표한 연구 결과에 따르면 네덜란드 종합병원 응급실에서 실제 치료를 받았던 환자 30명의 증상과 혈액·소변 검사 수치 등을 챗GPT에 입력했더니 진단 정확도가 87~97%로 집계됐다. 최종 진단과 비교했을 때 응급실 의사의 판단 정확도는 87%였다. 한마디로 챗GPT가 인간 의사를 능가한 경우도 있었다는 얘기다.
연구를 수행한 하이데 텐베르그 박사는 “관절통, 부종을 겪어온 환자가 며칠 새 발열과 손가락 끝이 변색된 증상으로 응급실을 찾은 사례가 있다”며 “의사들은 류마티스열을, 챗GPT는 혈관염을 제시했는데 챗GPT가 맞았다”고 밝혔다. 그는 “AI는 빠른 진단으로 응급실 대기 시간을 줄일 수 있으며, 희귀 질환 발견에도 도움이 될 수 있다”고 덧붙였다.
②No: “자가 진단, 오진 위험 높아”
반면 "챗GPT의 신뢰도가 떨어져 자가진단, 특히 희귀질환 진단에 활용하는 건 위험하다”는 정반대의 결론을 내린 연구도 있었다.
같은 달 일본 도쿄의과치과대 연구진이 정형외과 5종 질환에 대한 챗GPT의 진단 정확도를 따져본 결과, 손목터널증후군 증상에 대한 진단 정확도는 100%였지만 척수 병증은 진단 성공률이 고작 4%였다. 척수 질환 환자에겐 거의 쓸모가 없다는 의미다. 이와 관련, 도모유키 구로이와 교수(정형외과)는 “챗GPT 진단은 질병에 따라 일관성과 정확성이 떨어져 환자가 자가 진단 후 혼란스러워하거나, 최악의 경우 의사의 오진으로 이어질 수 있다”고 경고했다.
올해 들어 오스트리아 빈 응용과학기술대, 중국 충칭의과대 연구진이 각각 수행한 챗GPT 진단 정확도 실험에서도 일반 질환보다는 희귀병에 대한 정확도가 현저히 떨어지는 것으로 나왔다. 충칭의과대는 “대규모 언어 모델(LLM) 학습 원리의 특성상 사람들이 많이 언급하는 흔한 질병에 대한 판단은 비교적 정확했지만, 정보가 없는 질병에선 정확도가 떨어지는 것으로 보인다”고 풀이했다.
③Yes: “인턴이 경험쌓듯 진화 중”
종종 환자 입장에서 “의사가 증상의 심각성을 과소평가 한다”고 느끼곤 하는데, 챗GPT는 공감 면에서 의사보다 뛰어나다는 연구 결과도 있다. 미 UC샌디에이고 연구진이 소셜미디어(SNS) 레딧에 올라온 195건의 의료 문의에 대해 ‘인간 의사 대 챗GPT’의 답변을 실험한 결과, “답변에 공감하며 만족한다”고 답한 비율은 의사가 5%였던 반면 챗GPT의 답변은 45%로 9배 높게 나왔다.
④No: 개인정보 수집·유출 문제 위험
모든 연구가 공통적으로 지적하는 문제점도 있다. 생성형 AI의 한계로 꼽혀온 ‘할루시네이션(환각, 팩트 왜곡) ’ 현상, 의학 문헌의 출처를 왜곡하는 문제다. 이런 한계가 있는 한, 특정 연구 조건에서 챗GPT가 좋은 성능을 보였다고 해서 의사를 대체하기는 어렵다는 게 전 세계 과학자들의 공통된 의견이었다. 일부 연구는 유색인종 과소 대표 문제, 비(非) 영어권 답변의 부정확성, 정치적 편향성 문제를 지적했다.
아울러 의료 행위는 특성상 엄격한 법적 근거에 따라 이뤄져야 하는데, AI 진단을 따랐을 때 결과에 대한 법적 책임 문제가 불거질 수 있다. 또 의료용 챗봇을 학습시키는 과정에서 개인의 의료 정보 수집·유출 문제도 한계로 꼽힌다.
“사람이 100년 걸린 일, AI는 5년 내 달성”
최근 1년 간 연구를 보더라도 진료-처방까지 챗GPT 의사에게 원스톱 서비스를 맡기는 일은 아직까진 먼 미래 일이다.
김충기 의협 정보정책이사(이화여대의대 순환기내과 교수) 역시 “AI는 무궁무진한 가능성이 있지만, 그 기술을 의료 현장에 어떻게 적용시킬지, 어떤 위험성을 갖고 있는지조차 규명되지 않은 상태”라면서 “적어도 현재 시점에선 충분한 경험을 가진 임상의의 판단을 대체할 수준에 이르지는 못 했다”고 지적했다.
다만 미 터프츠 의과대 병원의 샤피크 라비 최고 디지털 담당자는 악시오스에 “인류는 지난 100년 동안 이룬 일들을 AI의 도움으로 이제 5년, 10년 안에 성취할 수 있다”고 평가했다. 빅 테크들은 이 같은 가능성 알아보고 이미 발 빠르게 투자에 들어갔다. 아마존은 ‘헬스 스크라이브’ 생성AI 도구 개발에 들어갔고, 구글·딥마인드는 의료용 챗봇 메드팜 2를 일선 병원에 배치해 시험하고 있다.
이유정 기자 uuu@joongang.co.kr
Copyright © 중앙일보. 무단전재 및 재배포 금지.
- "현, 다신 안 올게 한 번만"…울부짖는 전청조 체포 영상 공개 | 중앙일보
- 비구니 되기로 결심한 수녀, 법정 스님에 부탁한 2가지 | 중앙일보
- "나이 안믿겨" 판사도 놀랐다…중년 여성 성폭행한 중학생이 받은 형 | 중앙일보
- 삼성과는 다른 길, SK 반도체…“이러다 돌연사” 말나온 이유 | 중앙일보
- 모르면 호구 된다, 환전수수료도 0원…해외여행 일타강사 꿀팁 | 중앙일보
- 축구장 64개 크기 '韓라스베이거스'…'인스파이어' 놀 때 필수품 | 중앙일보
- 휴대폰보다 시속 95㎞ 쾅… 4명 사망사고 낸 버스기사 구속 | 중앙일보
- 하루종일 한 말은 "담배 주세요" 뿐…이런 은둔청년 54만명 [잊혀진 존재①-1] | 중앙일보
- 티아라 출신 아름 "제2의 전청조와 재혼? 악플, 각오하시라" | 중앙일보
- 이별 준비하는 '판다 할부지' 강철원 "손녀 푸바오 놓아줄 때" [권혁재의 사람사진] | 중앙일보