“AI에 내 증상 묻지 마세요” 답변 절반은 거짓말?

제미나이·챗GPT·그록 등 오류 심각

AI에게 건강 상담을 하는 이용자들은 갈수록 많아지지만, AI가 제공하는 답변에는 여전히 오류가 많다. 사진=게티이미지뱅크

제미나이와 챗GPT 등 인기 인공지능(AI) 챗봇 5종에게 건강 관련 질문을 하면 답변 중 절반 가까이는 허위 정보라는 결과가 나왔다.

미국 UCLA대·캐나다 앨버타대·오타와대 등이 참여한 공동 연구팀은 이용자들에게 인기가 많은 챗봇 5종을 대상으로 답변의 정확성과 허위성을 검증하는 실험을 진행했다. 대상 챗봇에는 구글의 '제미나이', 오픈AI의 '챗GPT', 메타의 '메타AI', xAI의 '그록', 하이플라이어의 '딥시크'가 포함됐다.

연구팀은 각각의 AI모델에게 △암 △백신 △줄기세포 △영양 △운동 수행 등 5개 분야에 대해 10개씩, 총 50개의 질문을 했다.

해당 질문에 대한 답변 250개를 각 분야 전문가 2인이 정밀 분석한 결과, 전체 답변의 49.6%에 해당하는 124개의 답변이 거짓 정보를 담고 있는 것으로 나타났다. 심지어 이 중 49개는 '임상적으로 심각한 오류로 이어질 수 있는' 수준의 엉터리 답변이었다.

연구팀에 따르면 AI 모델들은 암이나 백신처럼 비교적 표준화·정형화된 영역의 질문에 대해서는 상대적으로 정확한 답변을 제공했다. 반면 영양과 운동 등 생활밀착형 건강 정보에 대해서는 오류가 심해지는 경향이 나타났으며 근거 대부분이 논문 기반인 줄기세포 영역 역시 오류가 많았다. 특히 개방형 질문(네·아니오로 답할 수 없는, 서술형 답변을 유도하는 질문)에서 이같은 오류가 더 잘 드러났다.

AI 모델별 정확도에는 유의미한 차이가 없었다. 다만 가장 오류 비율이 높았던 모델은 그록이었다.

근거 제시하랬더니 가짜 논문 지어내

연구팀은 "부정확한 답변만큼 심각한 것은 그 답변을 제공하는 방식"이라고 설명했다.

연구팀이 개별 답변에 대해 AI모델에게 "참고문헌이나 근거를 제시하라"고 요구하자, 80%의 사례에서 AI는 논문을 근거로 제시했다. 그러나 이 중 절반 이상은 가짜 논문이었다. 실제로 존재하지 않는 논문이 참고문헌에 들어가 있는 사례가 빈번했고, 대다수의 첨부된 링크는 실제 작동하지 않는 링크였다.

또 '정확한 정보 제공이 어렵다'거나 '충분히 근거를 찾지 못했다'는 이유로 답변을 거부한 사례는 전체 답변 250개 중 0.8%에 해당하는 2개에 불과했다. 나머지 사례에서는 모든 AI 모델이 확신에 찬 표현으로 단정적인 답변을 제공했다. 연구팀에 따르면 이는 사용자의 신뢰도를 높일 수 있는 위험한 요소다.

연구팀은 "챗봇은 사실 검증이나 추론을 할 수 있는 능력이 없다"며 "가장 확률이 높은 문장을 그럴듯하게 생성하는 기계에 불과하다"고 강조했다.

정보의 출처도 문제다. 생성형 AI가 학습 데이터로 삼는 자료는 주로 오픈소스로 공개된 논문, 웹사이트, 소셜 네트워크 서비스, 온라인 커뮤니티 게시판 등이다. 이 중 일부는 정확한 과학적 근거를 담고 있지만, 전문가의 팩트체크를 받지 않은 부정확한 정보가 혼재되어 있다.

또 과학계에서 오픈소스로 접근할 수 있는 논문은 전체 연구의 30~50%에 불과하다. 나머지는 유료 구매를 하거나 기관을 통해 구독하는 방식으로 읽어야 하는데, 이는 챗봇의 역량 밖의 일이다. 결과적으로 충분한 근거라고 볼 수 없는 것이다.

"의사가 AI와 경쟁해야 하는 시대"

실제로 현직 의사들은 자신의 증상을 AI에게 상담하는 환자들이 많아졌다고 토로한다.

박진식 세종병원 이사장(심장내과 전문의)은 최근 대한병원협회가 주최한 AI 관련 패널 토의에 참석해 "진료 보러오는 환자들이 'AI가 내 증상에 대해 이렇게 얘기하던데, 맞는 얘기냐'고 질문하는 일이 잦다"며 "이제는 진단을 할 때도 의사와 AI가 경쟁해야 하는 시대가 온 것"이라고 말했다.

그는 "현재는 환자들의 AI의 답변이 얼마나 정확한지 검증해가는 과정이라고 본다"며 "답변 정확성이나 퀄리티는 시간이 지날수록 좋아지겠지만, 지금은 전부 믿기는 어려운 단계"라고 덧붙였다.

현재 오픈AI 측에서는 매주 2억 명이 넘는 이용자가 챗GPT에 건강 관련 질문을 하는 것으로 추산하고 있다. 앨버타대 연구팀은 "챗봇을 의료 목적으로 활용하는 것은 대중을 대상으로 하는 만큼, 그 활용 방식을 다시 검토해야 한다"고 강조했다.

이번 연구 결과는 영국의학저널(BMJ)이 발간하는 국제학술지 《BMJ 오픈》에 최근 게재됐다.

장자원 기자 (jang@kormedi.com)