"의약품 복용법·작동원리·부작용, AI 답변 무조건 신뢰해서는 안돼"

독일 대학교 연구팀 보고서
챗봇, 근본적 의도 이해 못해
유해 콘텐츠 생성할 수 있어

의약품 복용방법, 작동원리, 부작용 등에 대해 AI가 내놓는 답변을 맹신해선 안될 것 같다.

올해 과학분야 노벨상에서 인공지능(AI) 연구자들이 대거 수상자로 선정되며 AI의 파괴력을 보여줬지만 약 복용 시 AI를 무조건 신뢰해선 안 된다는 연구결과가 나왔다.

독일 프리드리히 알렉산더대학교 연구팀은 최근 BMJ 퀄리티&세이프티 저널에 게재된 보고서를 통해 환자에게 정확하고 안전한 약물 정보를 제공하려면 AI 기반 검색 엔진과 챗봇에 의존해서는 안된다고 밝혔다.

AI 챗봇은 인터넷 상의 광범위한 데이터를 학습해 의료를 포함한 모든 주제에 대해 대화할 수 있지만, 한편으론 허위 정보와 무의미하거나 유해한 콘텐츠를 생성할 수도 있기 때문이라는 게 연구진의 지적이다.

연구진은 지난 2020년 미국에서 가장 많이 처방된 의약품 50종을 대상으로, AI 챗봇 기능을 갖춘 검색 엔진인 마이크로소프트 빙 코파일럿을 이용해 각종 질문을 한 후 답변의 가독성, 완전성, 정확성을 조사했다. 이들은 환자가 챗봇에 약물 정보를 문의하는 시뮬레이션을 위해 연구 데이터베이스를 검토하고 임상 약사, 약리학 전문 의사와 상의해 환자가 의료 전문가에게 가장 자주 묻는 약물 관련 질문을 파악했다. 챗봇은 50가지 약물에 대해 각각 10개의 질문을 받았고, 총 500개의 답변을 생성했다. 질문에는 약물의 용도를 비롯해 작용 원리, 사용 방법, 일반적인 부작용과 금기 사항이 포함됐다.

챗봇이 내놓은 답변의 가독성은 특정 테스트를 이해하는 데 필요한 교육 수준을 측정하는 Flesch 독해 용이성 점수를 계산해 평가했다. 또 챗봇 답변의 완전성과 정확성을 확인하기 위해 동료 평가를 하고 최신 약물 정보 웹사이트에서 제공하는 약물 정보와 비교했다. 연구를 위해 7명의 약물 안전 전문가가 정확성 또는 완전성이 낮거나 환자 안전에 잠재적 위험이 있는 20개의 챗봇 답변 하위 집합을 사용해 현재의 과학적 합의와 환자가 챗봇의 권장 사항을 따를 경우 발생할 수 있는 위해의 가능성과 정도를 평가했다.

그 결과 전체 평균 Flesch 독해 용이성 점수는 37점보다 조금 넘었다. 0점에서 30점 사이의 점수를 받은 텍스트는 읽기 매우 어려운 것으로 간주돼 학위 수준의 교육이 필요하다는 것을, 91~100점은 텍스트가 매우 읽기 쉽고 11세 어린이에게 적합하다는 것을 의미한다.

전반적으로 챗봇 답변의 평균 완성도는 77%로 나타났다. 10개 질문 중 '약을 복용할 때 고려해야 할 사항은 무엇인지'의 답변 완성도는 평균 23%로 가장 낮았다. 챗봇의 답변 484개 중 126개(26%)의 답변은 참조 데이터와 상이한 부분이 있는 것으로 나타났다. 484개 중 16개(약 3%)는 전혀 일치하지 않았다. 연구에 따르면 챗봇 답변으로 인해 42%는 경미한 피해로 이어지고, 22%는 사망 또는 심각한 피해로 이어질 수 있는 것으로고 평가됐다. 36%은 피해가 없는 것으로 평가됐다.

연구진은 "이번 연구가 실제 환자 경험을 바탕으로 한 것은 아니다"라면서도 "AI 챗봇의 답변은 일반적으로 읽기 어려웠다. 또 정보가 부족하거나 부정확한 답변을 반복적으로 제공해 환자와 의약품 안전을 위협할 가능성이 있었다"고 밝혔다. 그러면서 "챗봇이 환자 질문의 근본적인 의도를 이해하지 못한다는 점이 가장 큰 단점"이라며 "챗봇이 항상 오류 없는 정보를 제공하는 것은 아닌 만큼 환자는 의료 전문가와 상담하는 것이 여전히 중요하다"고 강조했다.

이미선기자 already@dt.co.kr

디지털타임스

IT/과학

"의약품 복용법·작동원리·부작용, AI 답변 무조건 신뢰해서는 안돼"