퀴즈쇼 우승 ‘왓슨’, 암치료 나섰지만…결과는 ‘굴욕적 퇴출’

[[한겨레S] 이관수의 인공지능 열전][한겨레S] 이관수의 인공지능 열전 ‘인공지능 의사’의 가능성
‘자연어 지식’ 추출·답변 방식
최신 논문 근거해 치료법 추천
암묵지 능가할 효용 입증 실패
‘항생제 처방 AI’도 역사 속으로

2011년 1월, 미국 뉴욕에서 열린 ‘제퍼디’ 퀴즈쇼 연습 라운드에서 아이비엠(IBM) 인공지능 왓슨(가운데)이 퀴즈를 맞히는 모습을 다른 출연자들이 지켜보고 있다. AP 연합뉴스

2019년 2월7일 새벽, 트위터에 흥미로운 소식이 올라왔다. ‘미국의사협회지’의 편집장이 스탠퍼드 의과대학의 정례 격주 강연회에서 ‘더 이상 인공지능(AI)이 의료영상을 전문의만큼 잘 판독했다는 보고는 아예 논문으로 받지 않겠다’고 방금 공언했다는 내용이었다. 인공지능의 의료영상 판독 기능이 뛰어나다는 점은 더 이상 놀랄 만한 일이 아니라는 설명이었다. 딥러닝의 대부라는 제프리 힌턴도 2016년부터 영상의학 전문의보다 딥러닝 인공지능이 영상 판독을 더 잘하게 될 테니, 영상의학 전문의 양성을 멈춰야 한다고 주장했다. 미국의사협회지는 지난 11일 사설에선 “임상 결과, 환자를 중심으로 판단한 치료 효과, 의료의 질과 형평성”에 초점을 맞춘 의료 인공지능 연구를 강조했다. 의료 인공지능의 ‘성능’ 자체는 충분히 입증됐으니, 새로운 인공지능 기술이나 사용 방식을 개발했다는 정도의 보고는 구태여 논문으로 게재하지 않겠다는 취지였다. 이런 이야기를 들으면 머지않아 ‘인공지능 의사’의 시대가 열릴 것 같다. 과연 그럴까.

AI 처방 따랐는데 환자 잘못되면?

최초의 ‘인공지능 의사’는 1975년 미국 스탠퍼드대학이 선보인 마이신(MYCIN)이다. 이름에서 짐작할 수 있듯 감염병 환자의 증상에 맞춰 항생제를 처방하는 인공지능이었다. 1980년대 말까지 시대를 풍미한 전문가시스템 방식(전문가가 지닌 지식과 경험을 컴퓨터에 축적해 문제 해결 능력 부여) 인공지능의 효용을 보여준 첫 사례였다.

마이신에 증상을 입력하면, 마이신은 그런 증상을 초래할 병원체를 추론해 적절한 항생제를 환자의 체중에 맞게 처방했다. 추론에 사용되는 규칙은 의사들의 전문지식을 리스프(LISP) 문장으로 변환해서 입력해둔 것이다. 추론 결과를 산출할 근거가 부족하면 추가 검사를 제안하는 기능도 있었다. 이런 구상과 변환 작업은 스탠퍼드 의대생 겸 전산학 박사과정생 에드워드 쇼틀리프가 주도했다. 오늘날 쇼틀리프는 의료정보학의 창시자로 여겨진다.

마이신의 성과는 수막염 환자 처방을 활용한 성능 검증 실험을 통해 논문으로 발표됐다. 10건의 병례에 대해 마이신과 5명의 의대 교수인 전문의가 각각 처방을 내고, 8명의 전문의가 6건의 처방을 평가했다. 마이신은 60%대의 동의율을 얻었지만, 의대 교수 5명의 동의율은 40~60% 정도였다. 더군다나 마이신의 처방은 항상 치료에 성공하면서도 항생제 수를 최소한으로 줄이는 장점도 있었다. 놀라운 성과를 거둔 개발진은 마이신을 계속 발전시켰다. 쇼틀리프가 주도한 첫 버전은 350개의 규칙을 담았지만, 1980년께에는 600개 정도의 규칙을 담았다고 한다.

그런데도 마이신은 대중화되지 못했다. 실제 임상에서 마이신 처방을 공식적으로 활용한 사례는 마이신 개발자들이 포진한 스탠퍼드 의대 병원에서도 없었다. 몇가지 이유가 있었다.

우선 기계의 처방을 맹종했을 때 윤리적·법률적 문제들이 발생할 수 있었다. 마이신의 처방으로 환자가 잘못됐을 때, 그 책임은 마이신이 져야 하는가, ‘중개자’인 의사가 져야 하는가? 해결하기 쉽지 않은 문제다. 당시 전산 환경도 문제였다. 의사나 간호사가 일일이 수작업으로 증상을 입력해서, 마이신이 탑재된 메인프레임 컴퓨터에서 답이 나올 때까지 기다려야 했다. 불편할 뿐만 아니라 치료에 들어갈 시간을 잡아먹었다. 또 각종 검사 기술들과 신약들이 등장하면서 마이신의 처방 없이도 충분히 잘 치료할 수 있게 됐다. 가장 큰 문제는 전문가들의 ‘전문지식’이 모호하다는 점이었다. 마이신과 전문의 5명의 수막염 처방 비교 연구는 최고의 전문가들 사이에서도 의견이 일치하지 않을 수 있다는 점을 보여준 중요 사례였다. 이후 전문지식이란 도대체 무엇인가에 대한 연구가 이어졌고, 정보가 제한된 상황에서는 전문가들 자신도 논리적으로 표현하지 못하는 암묵지(언어로 표현하기 어려운, 경험과 학습으로 몸에 쌓인 지식)가 매우 중요한 역할을 한다는 점이 밝혀졌다. 의료가 대표적으로 그런 분야다. 단순히 의학정보가 급격하게 증가하기 때문만은 아니다. 정보를 완벽하게 입수하기 위해, 환자를 일일이 분해할 수도 없고, 해서도 안 되기 때문이기도 하다.

IBM 떠난 왓슨 개발자

금세기 초 아이비엠(IBM)이 개발한 인공지능 왓슨은 2011년 2월 미국의 유명 퀴즈쇼 ‘제퍼디’에서 우승했다. 여세를 몰아 아이비엠은 왓슨에 기반한 여러 서비스를 발표했는데, 그중 왓슨 암치료(Watson for Oncology, 이하 ‘왓슨’으로 표기)가 가장 주목을 받았다. 하지만 왓슨은 마이신이 겪은 문제를 반복했다.

왓슨은 아이비엠연구소에서 2006년부터 진행한 ‘딥큐에이(QA)’ 프로젝트의 산물이었다. 프로젝트 리더인 데이비드 페루치는 ‘지식 표현’을 전공한 컴퓨터 과학자였다. 지식 표현은 지식을 어떻게 표현하고 구성해야 컴퓨터가 잘 처리할 수 있는지를 연구하는 분야인데, 전문가시스템에 입력할 규칙을 찾아내는 일이 발전한 형태라고 할 수 있다. 페루치는 자연언어(영어처럼 사람이 쓰는 언어)로 표현된 ‘지식’을 추출해서 모아두고, 질문을 분석해서 딱 맞는 답변을 내놓는 시스템을 만들려고 했다.

외형적으로는 챗지피티와 비슷하게 작동하지만, 내부 구조는 달랐다. 왓슨은 질문을 분석하는 해석기, 입력해둔 증거를 활용하는 답안생성기, 증거와 답안의 관계를 분석하는 채점기 등으로 구성됐다. 답안생성기와 채점기는 각각 100개였다. 질문이 들어오면 우선 해석기는 질문 분석 결과를 100개 답안생성기에 넘겨준다. 답안생성기들은 각기 100개 정도의 증거를 이용해서 답안을 생성한다. 답안을 만들 때 사용하는 알고리듬은 답안생성기마다 다르다. 채점기는 답안-증거 쌍들을 일일이 평가해서 점수를 매긴다. 즉 각 답안은 최대 1만개의 점수들을 받는다. 그다음 잘 조정해둔 수식에 따라 답안들의 최종 점수를 계산해서, 최종 점수순으로 답안을 정렬하고, 1등 답안을 답변으로 출력한다.

왓슨이 제퍼디쇼 우승을 목표로 설정한 이유는 정답이 명확한 퀴즈쇼였기 때문이었다. 그래도 답안생성기가 쓸 알고리듬들을 다듬고 최종 점수 계산식을 제퍼디 유형에 맞추는 데 5년이 걸렸다. 제퍼디 방송에서 최장 3초 안에 답변하기 위해 중앙처리장치(CPU)는 2880개, 15테라바이트의 램, 20테라바이트의 하드디스크가 사용됐다. 하드웨어비용은 300만달러. 답변까지 30초가량 걸리는 버전은 30만달러 규모의 하드웨어에서 작동할 수 있었다. 램과 하드디스크만 충분하면 시피유 1개로도 2시간 남짓 만에 답변을 받아 볼 수 있었다.

아이비엠은 사용한 소프트웨어들도 모두 공개했다. 핵심 노하우는 ‘지식’들이 잘 추출됐는지 검증하고, 활용 분야에 맞춰 채점 알고리듬을 조절하고, 최종 점수 계산 수식을 찾아내는 일이었다. 그런 노하우를 활용한 컨설팅 서비스를 사업 기회로 노렸기 때문이다.

문제는 퀴즈쇼처럼 정답이 하나만 존재하는 분야가 많지 않았다는 점이다. 페루치는 왓슨을 명확하게 오고 가는 질문과 대답에만 적절하게 응용할 수 있다고 생각했지만, 본사 경영진은 사업 범위를 최대한 빨리 확대하기로 결정했다. 특히 암치료에 성공적으로 응용하면, 다른 분야도 서비스를 신청할 것으로 판단했다. 2012년 페루치는 아이비엠사를 떠났다.

경영진의 구상과 달리 암치료에 왓슨을 적용하는 일은 쉽지 않았다. 최신 과학 연구는 언제나 잠정적이다. 통상적으로 출판되는 과학 논문의 80%는 1년 안에 반증이 나타나면서 불확실하고 불완전한 것이 된다. 연구의 최전선에서 전문가들은 암묵지에 의존해서 그런 혼란을 헤쳐나간다.

암치료용 왓슨은 최신 논문을 정리해서 의료진에게 치료법들을 우선순위에 따라 추천하는 시스템으로 제공됐다. 우선순위를 정하는 수식은 암치료에 명성이 있는 뉴욕시 메모리얼슬론케터링 병원 의료진의 판단을 활용해서 결정했다. 왓슨이 관련 문헌들을 제대로 정리했는지 검증하는 일도 병원 의료진이 맡았다. 덕분에 왓슨은 최고 병원 최고 의료진의 치료법을 제공한다고 주장할 수 있었다. 미국 식품의약국(FDA) 승인을 피하는 덤도 따라왔다.

☞한겨레S 뉴스레터를 구독해주세요. 클릭하시면 에스레터 신청 페이지로 연결됩니다.

☞한겨레신문을 정기구독해주세요. 클릭하시면 정기구독 신청 페이지로 연결됩니다.

의료영상 인공지능 판독은 순항

2015년 연간 몇만명의 암환자를 진료하는 인도의 마니팔 병원에 처음 도입된 이래 왓슨은 한국을 비롯한 세계 각지의 병원으로 수출됐다. 하지만 곧 불만들이 제기되기 시작되었다. 번거로운 사용법 때문에 의료진이 환자에게 신경을 덜 쓰는 경우도 나타났다. 왓슨이 제안한 치료법이 현지 사정에 안 맞는 경우도 많았다. 왓슨은 좋은 치료법을 추천하지 않았고 객관적으로 검증하지도 않았다. 아이비엠은 왓슨이 제안한 치료법과 현지 병원 의사들이 독자적으로 제안한 치료법이 높은 비율로 일치한다고 강조했다. 그렇다면 환자당 200달러 이상의 비용을 추가로 쓰면서 왓슨을 활용할 필요가 있을까? 미국의 한 지방 병원 의사는 자신이 택한 치료법과 왓슨의 제안이 일치하면 자신감이 솟는다고 증언했다. 아이비엠은 2019년 인도 마니팔 병원에서 왓슨의 제안을 보고 치료법을 바꾼 사례가 13.6%라고만 보고했다. 바꾸지 않은 경우와 바꾼 사례 어느 쪽 치료 효과가 좋은지는 언급하지 않았다. 왓슨이 치료법을 제안하면서 엉뚱한 문헌을 증거랍시고 나열하는 사례도 가끔 발견됐다.

국내 병원들의 사례 연구는 왓슨을 화면에 띄우고 여러 의사들이 함께 진단하고 설명하는 다학제진료가 환자의 주관적 만족도를 높인다는 것을 발견했다. 그런데 왓슨이 없어도 그렇게 함께 진료하면 만족도가 높지 않을까? 국내에서 왓슨을 가장 먼저 도입한 가천의대 길병원은 2021년 9월 의학 심포지엄에서 사용 계약을 해지했다고 밝혔다. 다른 병원들은 이보다 먼저 사용을 중단했다. 아이비엠은 2022년 왓슨 사업을 매각하고 올해 초 업체들에 인공지능 개발 환경을 빌려주는 왓슨엑스(X) 전략을 발표했다.

왓슨과 마이신의 실패는 인공지능에 담으려고 시도하기 전에는 그 존재조차 알 수 없는 암묵지와 노하우가 있을 것이라는 추측을 뒷받침한다. 이 점을 무시하고 계획을 세우면 아이비엠처럼 큰 손해를 볼 가능성이 커진다.

인공지능이 의료영상 판독 과정에서 역량을 발휘하면서 최근 몇년 새 미국에선 되레 영상의학 전문의 수요가 늘었다고 한다. 이전에 판독 결과를 넘기는 것만으로 벅찼던 영상의학 전문의들은 더 적극적으로 의료진과 토론하고 치료 과정에 관여하게 됐다. 인공지능의 도움 덕이었고 의료진도 영상의학 전문의를 더 늘려달라고 요구하게 된 것이다. 기술이 초래하는 미래는 개발자의 직관과 반대일 때도 종종 있다.

과학저술가

서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

이 기사에 대해 어떻게 생각하시나요?

한겨레에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

퀴즈쇼 우승 ‘왓슨’, 암치료 나섰지만…결과는 ‘굴욕적 퇴출’