가천대 연구팀 "챗봇 GPT-4, 한의사 국가시험 통과 수준 성능"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
가천대학교 한의과대학 김창업 교수 연구팀은 생성형 인공지능 챗봇 모델 GPT-4가 한의사 국가시험을 통과하는 수준의 성능을 나타냈다고 22일 밝혔다.
앞서 연구에서는 GPT-4가 2022년 시행된 한의사 국가시험에서 평균 57.59%의 정답률을 기록해 합격선(60% 이상)에 약간 못 미쳤으나 이번 연구에서는 GPT-4의 언어모델에 문항을 제시하는 방식을 최적화해 모델의 성능을 극대화하는 기법인 '프롬프트 엔지니어링'을 활용했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(성남=연합뉴스) 이우성 기자 = 가천대학교 한의과대학 김창업 교수 연구팀은 생성형 인공지능 챗봇 모델 GPT-4가 한의사 국가시험을 통과하는 수준의 성능을 나타냈다고 22일 밝혔다.
이 연구 결과는 온라인 과학 저널 '플로스 디지털 헬스'(PLOS Digital Health)에 실렸다.
연구팀은 GPT-4 모델을 한의학 인공지능 개발에 적용할 수 있을지 등을 평가하기 위해 이번 연구를 진행했다.
앞서 연구에서는 GPT-4가 2022년 시행된 한의사 국가시험에서 평균 57.59%의 정답률을 기록해 합격선(60% 이상)에 약간 못 미쳤으나 이번 연구에서는 GPT-4의 언어모델에 문항을 제시하는 방식을 최적화해 모델의 성능을 극대화하는 기법인 '프롬프트 엔지니어링'을 활용했다.
그랬더니 이번 시험 결과에선 합격선을 웃도는 정답률을 보였다.
2022년 한의사 국가시험 문제를 GPT-4에 제시한 뒤 정답률을 평가했는데 GPT-4는 340문항 중 225문항을 맞혀 66.18%의 정답률을 나타냈다.
과목별 정답률도 과락 기준인 40%보다 높게 나왔다.
GPT-4는 과목별 정답률의 편차가 크게 나타났는데 국제적으로 표준화된 진단기준에 대한 문제가 주로 출제된 본초학, 소아과학, 부인과학 과목은 81.2%, 81.2%, 79.2%의 높은 정답률을 보였다.
반면 한국 한의학의 특성을 반영하는 보건의약관계법규, 사상의학 과목은 40.0%, 43.8%로 상대적으로 낮은 정답률을 나타냈다.
연구팀은 "한국어로 된 문항을 언어모델에 그대로 입력했을 때는 평균 정답률이 51.82%였는데, 한의학 용어를 한자로 함께 적었을 때는 57.59%, 지시와 문제를 영어로 스스로 번역하게 한 뒤 이 문제를 풀게 했을 경우는 63.65%로 상승해 정답률이 높아지는 것을 확인했다"라고 말했다.
그러면서 "이번 연구에서 GPT-4는 한국의 특수성을 잘 반영하지 못할 수 있다는 점을 보였다"라며 "추후 의료 인공지능 모델을 개발할 때 각 국가와 지역의 특수성을 반영할 수 있는 노력이 필요할 것으로 보인다"라고 밝혔다.
gaonnuri@yna.co.kr
▶제보는 카톡 okjebo
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- 머스크, '정부효율부' 구인 나서…"IQ 높고 주80시간+ 무보수" | 연합뉴스
- [사람들] '요리예능' 원조 "수백만원짜리 코스라니? 셰프는 겸손해야" | 연합뉴스
- "우리집에 가자"…초등생 유인하려던 50대 '코드0' 발령해 체포 | 연합뉴스
- "콜택시냐"…수험표까지 수송하는 경찰에 내부 와글와글 | 연합뉴스
- '앙투아네트 스캔들 연관설' 다이아 목걸이 67억원 낙찰 | 연합뉴스
- '마약 자수' 김나정, 필리핀서 귀국 직후 양성반응…경찰 조사(종합) | 연합뉴스
- 영동서 50대 남녀 흉기 찔려 숨져…"살해 뒤 극단선택한 듯"(종합) | 연합뉴스
- '동생살인' 60대, 법정서 부실수사 형사에 돌연 "감사합니다" | 연합뉴스
- [수능] 국어지문 링크에 尹퇴진집회 안내…경찰 "해킹아닌 도메인 구입"(종합2보) | 연합뉴스
- 이영애, '김여사 연관설' 제기 유튜버 화해거부…'끝까지 간다' | 연합뉴스