인공지능 GPT-4, 한의사 국가고시 합격선 근접 성적 받아

생성형 인공지능 모델 GPT-4가 한의사 국가시험에서 합격선에 근접한 성적을 거둔 것으로 나타났다.

GPT-4는 ChatGPT를 개발한 OpenAI에서 지난달 14일 공개한 생성형 거대언어모델이다. ChatGPT보다 우수한 성능으로 변호사 시험, 생물 올림피아드 등 각종 시험에서 매우 높은 성적을 보여주고 있다. 최근 미국 의사 시험에서 높은 성적을 기록해, 의료 인공지능 개발에 언어 모델을 활용하는 방법에 대한 논의도 활발히 이뤄지고 있다.

가천대 김창업 교수 연구팀은 GPT-4 모델이 한의학 인공지능 개발에도 적용할 수 있을지 분석하는 연구를 진행했다. 먼저 연구팀이 GPT-4로 2022년 시행된 한의사 국가시험을 풀게 했더니, 평균 57.29%의 정답률을 기록한 것으로 나타났다. 합격선인 60%에 근접하는 성적이다.

연구팀은 "해당 결과가 의학이나 한의학 분야에 대한 별도 추가 훈련 없는 사전학습 모델만으로 이뤄졌다는 점에서 주목할만하다"고 했다.

다만, 이번 연구에서 인공지능을 한국 의료에 적용할 때 발생할 수 있는 문제점도 발견됐다. GPT-4는 과목별로 정답률의 차이가 크게 났는데, 국제적으로 표준화된 진단 기준 문제가 주로 출제된 신경정신과학 분야에서는 높은 성적을 거둔 반면, 서양의학, 중의학과 차별화되는 한의학 이론을 다루는 내과학2 과목에서는 가장 낮은 정답률을 나타냈다. 특히, 한국의 의료법을 다루는 과목은 한의학과 직접적인 연관이 없는데도 정답률이 낮았다.

연구팀은 "영미권에서 생산된 데이터로 학습된 GPT-4는 전 세계에서 통용되는 지식에 대해서는 충분히 학습했지만, 한국에서만 적용되는 의료법이나 보험 체계, 한국에서 권장되는 임상 지침 등에서는 충분히 학습하지 못했을 수 있다"고 했다.

김창업 교수는 "이번 연구로 대중화되고 있는 거대언어모델을 활용한 한의임상현장에서의 자동화된 데이터수집, 한의임상보조 인공지능, 한의대생이나 한의사의 진료 기술을 훈련할 수 있는 학습용 인공지능 개발 등 다양한 발전 가능성을 확인했다"며 "한의학에 대한 AI 개발뿐 아니라, 각 국가의 상황에 맞는 의료 인공지능 개발에 참고할 수 있는 기초 자료로 활용되기를 희망한다"고 했다.

한편, 이번 연구 결과는 출판 전 논문을 수집하는 '아카이브(arXiv)'에 지난달 31일 제일 처음 공개됐다.

헬스조선

문화

인공지능 GPT-4, 한의사 국가고시 합격선 근접 성적 받아