[건강비서 AI] 캐물을수록 '유용'…AI 건강질문은 ‘이렇게’

세부적 질문에 풍부한 답변

앞서 코메디닷컴에서는 OpenAI 챗GPT, 마이크로소프트 빙(Bing), 구글의 바드(Bard), 네이버 클로바 X 등 4종의 생성형 AI에게 동일한 건강 질문을 묻고 답변을 비교했다. 그 결과 상대적으로 건강 비서의 역할을 더 잘 수행하는 AI는 빙과 바드였다.

[관련기사= 내 통증 물었더니…'챗GPT'는 핵심없고, '빙' 제법이네(https://kormedi.com/1620247/)]

챗GPT는 핵심 키워드(족저근막염)를 짚어내지 못하고 최대한 여러 가능성을 열어두고 답변했지만, 빙은 자체 검색엔진(엣지)과 연동해 구체적이고 정확한 정보를 제공했다.

바드의 경우 질환명, 발생 원인, 치료 및 예방법을 정리한 정확한 의학적 정보를 제공했으나 간혹 전혀 엉뚱한 위치의 병원을 추천하는 등의 오류가 나타났다. 네이버 클로바 X는 답변의 전문성 면에서 약점을 드러냈고 정형외과와 한의원을 번갈아 추천하는 등 일관적이지 못한 답변을 내놨다.

여전히 AI에게 증상을 설명하며 건강 관련 질문을 던지면 "병원을 가세요"라고 조언을 하지만, 그럼에도 불구하고 AI에게 쓸만한 건강 조언을 얻을 확률을 높이는 방법이 몇 가지 있다. 미국 건강정보매체 '헬스데이(HealthDay)'가 보도한 기존 선행연구와 전문가 의견을 종합해, 제한적으로나마 생성형 AI의 답변 정확성을 높이는 방법을 정리했다.

넣는 정보가 구체적이면, 받는 정보는 더 좋아진다

AI에게 제공하는 정보는 많을수록, 자세할수록 좋다.

생성형 AI는 구체적인 정보를 입력했을 때 최대한의 효율을 낼 수 있다. 단순히 특정 부위에 통증이 있다고 말하는 것보다 △간이혈압계로 혈압을 잰 결과 △웨어러블 기기 등으로 측정한 심박수 △체온 △복용중인 약 등의 부가정보를 정확하게 제공한 뒤 예상되는 질병을 질문하는 것이 효과적이다.

예상되는 질병을 물을 때도 구체적으로 접근해야 한다. "이건 어떤 병의 증상이야?"라는 질문보다는 "이 증상이 족저근막염(예시)의 일반적인 증상과 얼마나 비슷해?"라는 질문이 더 자세한 답변을 끌어낼 수 있다. 결국 정확한 대답을 듣기 위해서는 '잘 묻는 것'이 중요하다.

구체적인 질병의 특징과 내 증상을 비교했을 때 챗GPT의 답변. 발의 통증에 대해서 물었을 때와 비교해 훨씬 구체적이다. 사진=코메디닷컴DB

AI의 최대 강점은 '요약'임을 명심하자

AI가 제공하는 답변의 정확성을 평가하기 위해선 생성형 AI가 가장 잘하는 것이 무엇인지 이해해야 한다.

사람에 비해 AI가 가장 두각을 나타내는 분야는 요약이다. 자연어 처리로 방대한 자료를 수집 및 분석한 뒤 그 가운데 의미를 도출해 하나의 문서로 요약하는 것이다. 인간은 이를 활용해 물리적인 시간의 한계를 극복할 수 있고, 더 효율적인 업무를 할 수 있다.

건강의료 분야에서도 마찬가지다. 챗GPT는 의사가 될 수 없지만, 의사가 쓴 논문을 요약하는 것은 가능하다. 다음 사진은 심근경색 위험을 높이는 요인에 대한 최근의 논문 결과를 요약해 달라는 질문에 대한 클로바 X의 답변이다.

저작권 등의 문제로 인용 저널이나 논문을 확인할 수는 없지만, 단순히 위험 요인을 알려달라는 질문에 대답할 때와 그 정확성이나 깊이 면에서 분명한 차이가 있다.

클로바 X에게 단순히 심근경색을 물었을 때는 요소를 나열하는 것에 그쳤다. 사진=코메디닷컴 DB

클로바 X에게 최근의 논문 결과 요약을 부탁하자, 학계에서 논의되는 사항들에 더해 상세한 정보가 제공됐다. 사진=코메디닷컴 DB

AI의 첫 답변에 만족해서는 안돼

'말꼬리 잡기'는 인간관계를 망치는 지름길이지만, AI와의 대화에서는 팩트체크를 위한 필수요소다. AI가 허위의 정보를 그럴듯한 말투로 꾸며내는 이른바 '할루시네이션(환각) 현상' 때문이다.

할루시네이션 현상은 초기 버전의 챗GPT가 "세종대왕의 맥북 구매 과정을 알려줘"나 "통일신라의 역대 대통령에 대해 설명해줘"라는 엉뚱한 질문에도 나름대로의 답변을 제공한다는 것이 알려지며 유명세를 탔다.

그러나 여러 번의 재질문을 통해 할루시네이션 현상을 줄이고 답변의 정확도를 높여갈 수 있다는 사실은 상대적으로 널리 알려지지 않았다. 핵심은 "확실해?"와 "틀렸어"다. 제공된 정보에 대한 재검토를 요청하고, 틀린 것이 분명한 정보는 잘못됐다고 요청하는 등, 깐깐한 결재자가 되어 AI의 답변을 검증해야 한다.

AI가 의사를 대체할 수는 없을까

생성형 AI 4종은 답변을 제공하기에 앞서 공통적으로 'AI의 의료 상담은 의사의 진단을 대체할 수 없으며, 제공되는 답변은 일반적인 정보'라는 것을 명시한다. 짧은 기간 동안 일반적인 증상을 통해 구체적인 병명을 제시할 정도로 성능 발전이 이뤄졌지만, 실제 진료나 진단 면에서 100% 정확한 정보를 보장하지는 않는다는 의미다.

실제 의료계에서도 인공지능은 의료진의 시간과 에너지를 절약하기 위한 용도로 제한적으로 사용되고 있다.

대표적인 것이 내시경, 심전도, MRI 영상 등의 검사 분석 영역이다. 환자들의 데이터를 미리 학습한 후 검사 결과와 대조해 질병 진단을 보조하는 것이다. 수많은 정보를 단시간에 처리할 수 있는 AI의 기술적 특성 덕분에 시간과 효율성 면에서 가치가 크다.

구글은 '버텍스 AI'라는 검색 알고리즘의 출시를 발표하며 임상 기록과 진료 결과 등 환자의 의료 기록을 검색하고 정보를 요약해 보여주는 의료기관 내 검색 엔진을 출시하기도 했다. 이 역시 의료진의 환자 응대에 걸리는 시간을 줄여줄 것이란 기대를 받는다.

그럼에도 불구하고 여전히 AI와의 대화창에 자신의 증상을 입력해 물어보는 사람들이 많다. AI는 객관적이고 정확한 정보를 제공할 것이라는 믿음에 더해 병원을 찾는 번거로움을 줄이고 싶은, 진정한 '건강비서 AI'의 등장을 기다리는 이들이 많다는 방증이기도 하다.

이러한 기다림은 결국 개발 방향에도 반영됐다. OpenAI는 지난달 GPT의 최신 모델 'GPT-4V'를 공개하며 이 모델이 이미지와 음성 정보를 인식한다고 발표했다. 이후 사용자들의 테스트 결과, X-레이 사진을 통해 골절 수준의 결과를 판독할 수 있다는 것이 증명됐다. 진단의학 전문기업들의 장비와 기기 없이도 결과 판독이 가능한 단계로 첫 발을 내딛은 것.

X-레이 검사 결과를 통해 제5중족골 기저부 골절을 판독해 낸 GPT-4V [사진=Christian Bluethgen]

클로바 X도 마찬가지로 확장성에 집중하고 있다. '스킬'이라는 자체 시스템을 통해 외부 기업의 API를 대화창에 직접 연결시킬 수 있게 만들었다. 현재 폴라리스오피스, 야놀자, 배달의민족, 쏘카 등의 기업과 스킬 시스템 제휴 논의가 진행되고 있다.

네이버 클라우드 측 관계자는 "현재 기능적으로 의료나 건강에 특화된 개발은 계획에 없다"면서도 , "스킬 시스템을 통한 다양한 분야의 확장 가능성은 얼마든지 열려있다"고 말했다.

장자원 기자 (jang@kormedi.com)

이 기사에 대해 어떻게 생각하시나요?

코메디닷컴에서 직접 확인하세요. 해당 언론사로 이동합니다.

문화

[건강비서 AI] 캐물을수록 '유용'…AI 건강질문은 ‘이렇게’