의사 vs A.I 답변 구별 가능? 진짜 의사한테 물었더니

미국서 안과 분야 연구 이뤄져

의료 정보를 찾는 데 과연 인공지능이 얼마나 도움을 줄 수 있을 지에 대한 연구는 계속 이뤄지고 있다. [사진=게티이미지뱅크]

과연 의사들은 의사와 인공지능의 답변을 구별해낼 수 있을까? 지난해 말 혜성처럼 등장한 챗지피티(Chat GPT) 열풍이 이어지는 가운데, 의료계에서도 대규모언어모델(LLM, Large Language Model) 활용에 대한 연구가 이어지고 있다.

LLM은 대화 환경에서 자연스럽고 문맥적으로 적절한 응답을 제공하는 작업을 수행한다. 때문에 챗지피티 등장이후 일각에서는 인공지능이 어느 수준까지는 의사들을 대체할 수 있을 것이라는 전망이 나오기도 했다.

물론 챗지피티가 의료 정보 제공 도구로서 이용되기 위해서는 전문 의료진들과의 비교가 필요하다. 이런 모델을 일상적인 임상 진료에 통합하려면 의사가 모델에서 생성된 데이터를 적절히 검증해야 한다. 의료 조언을 구하는 환자와 가족에게 오해의 소지가 있는 정보를 전달하지 않기 위해 특히 중요하다.

챗지피티에서 제공하는 의학 정보가 실제 의사들의 진단과 편차는 없는지, 정확한지, 환자들이 받을 수 있는 피해는 없는지 등에 대한 검증이 필요한 것이다. 이에 미국 스탠포드 대학교 안과학 교수진과 연구팀은 안과 질환과 관련해 연구를 진행했다.

연구에는 환자들이 안과 치료와 관련된 자세한 질문을 하고 미국안과학회(AAO) 인증 의사의 답변을 받을 수 있는 온라인 플랫폼인 아이케어포럼(The Eye Care Forum)에서 수집된 일련의 정보가 포함됐다. 수집된 데이터 세트의 품질 평가를 통해 최종 분석에 사용할 200개의 질문-답변 쌍이 뽑혔다. 최종 분석에 포함된 안과 진료 응답(답변)은 포럼에서 상위 10명의 의사가 제공했습니다.

이 연구에서는 사람이 작성한 응답과 유사한 스타일의 안과 진료 응답을 생성하기 위해 챗지피티 ChatGPT(OpenAl) 버전 3.5를 사용했습니다. 특별히 제작된 입력 프롬프트의 형태로 선택된 안과 진료 질문에 응답하는 작업에 대한 명시적인 지침이 제공되어 모델이 그에 따라 행동을 조정할 수 있도록 했다.

이같은 작업을 거친 결과 각 질문에 안과 의사가 제공한 답변과 챗지피티(ChatGPT)가 생성한 답변이 각각 하나씩 포함된 질문-답변 데이터 세트가 생성됐다. 이 두 가지 유형의 응답을 비교하는 작업은 AAO 인증 안과 전문의 8명으로 구성된 패널이 수행했다.

패널들은 응답에 정확한 정보가 포함되어 있는지, 응답이 해를 끼칠 수 있는지, 응답이 의료계에서 인식되는 합의와 일치하는지 여부를 판단하도록 요청받았다.

연구에 포함된 총 200개의 질문의 평균 길이는 101단어였다. 챗지피티 응답의 평균 길이(129단어)는 의사의 응답(77단어)보다 훨씬 더 길었다.

전문가 패널의 모든 구성원은 평균 61%의 정확도로 챗지피티와 의사의 답변을 구별해냈다. 개별 구성원의 정확도는 45~74%로 다양했다. 이들은 '인공지능인 것 같다', '확실히 인공지능이다', '인간인 것 같다', '확실히 인간이다'의 총 4가지 척도로 답변들을 구별했으며 이외에도 답변들 중에 잘못된 정보가 없는지, 답변이 환자들에게 피해를 줄 가능성은 없는지 등을 함께 검토했다.

전문가 패널은 챗지피티가 답변 중 21.%는 인간이 작성한 것으로 판별했다. 반면 인간이 답변한 것중 무려 64.6%는 챗지피티가 작성했다고 판단했다. 이외에도, 의사들은 챗지피티가 작성한 것 중 잘못된 정보나 부적절한 내용이 포함될 가능성이 인간과 유사하다고 평가했다.

전문가들은 정보의 정확성, 환자에게 해를 끼칠 가능성 측면에서 챗지피티와 의사 응답 간에 유의미한 차이가 없다고 판단했다. 의사와 인공지능이 비슷한 수준이라는 것이다. 있었다는 것이다.

이번 결과는 챗지피티가 사용자의 의학적 질문에 적절한 응답을 할 능력이 있는 것을 시사한다고 연구팀은 밝혔다. 다만 여전히 잘못된 답변을 할 수 있는 가능성이 있는 있는 만큼 전면적으로 챗지피티를 무조건 신뢰하기는 힘들다고 덧붙였다.

연구팀은 챗지피티가 의료 정보를 제공하는 것에 대한 환자들의 생각은 어떤지 분석하고, 다양한 임상 상황에서 언어 모델의 성능을 테스트하는 등의 추가적인 연구가 필요한 상황이라고 밝혔다.

해당 연구 결과는 미국의학협회가 발행하는 국제학술지(JAMA Network Open)에 22일 게재됐다.

◆ 기사 도움 : 최혜림 인턴기자

윤은숙 기자 (yes960219@kormedi.com)

코메디닷컴

문화

의사 vs A.I 답변 구별 가능? 진짜 의사한테 물었더니