가천대 연구팀, 'GPT-4 한의사 국가시험 통과' 수준
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
가천대학교 한의과대학 김창업 교수 연구팀은 생성형 인공지능 모델(generative AI model)인 GPT-4가 한의사 국가시험을 통과하는 수준의 성능을 구현했다고 22일 밝혔다.
기존 연구에서는 GPT-4가 한의사 국가시험을 간발의 차로 합격하지 못했던 반면, 이번 연구에서는 언어모델에게 문항을 제시하는 방식을 최적화해 모델의 성능을 극대화하는 기법인 프롬프트엔지니어링(prompt engineering)을 활용해 합격 수준에 도달했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
국내 특수성 반영하지 못한 약점도 발견
[성남=뉴시스] 신정훈 기자 = 가천대학교 한의과대학 김창업 교수 연구팀은 생성형 인공지능 모델(generative AI model)인 GPT-4가 한의사 국가시험을 통과하는 수준의 성능을 구현했다고 22일 밝혔다.
이 연구 결과는 PLOS Digital Health 저널에 ‘GPT-4 can pass the Korean National LicensingExamination for Korean Medicine Doctors’라는 제목의 논문으로도 출판됐다 (DOI:10.1371/journal.pdig.0000416)
기존 연구에서는 GPT-4가 한의사 국가시험을 간발의 차로 합격하지 못했던 반면, 이번 연구에서는 언어모델에게 문항을 제시하는 방식을 최적화해 모델의 성능을 극대화하는 기법인 프롬프트엔지니어링(prompt engineering)을 활용해 합격 수준에 도달했다.
김교수 연구팀은 2022년 한의사 국가시험에 포함된 340 문항을 GPT-4에 제시한 뒤 GPT-4의 정답률을 평가했다.
그 결과 GPT-4는 전체 문항 중 66.18%의 문항에 대해 정답을 맞췄으며, 각 과목에 대해서도 과목별 과락 기준인 40%보다 높은 정답률을 나타냈다.
특히, 이번 연구에서는 프롬프트 엔지니어링에 따라 GPT-4의 성능이 합격/불합격에 영향을 미칠 만큼 성능에 큰 영향을 주는 것을 확인했다.
또 한국어로 된 문항을 그대로 입력하였을 경우에는 평균 정답률이 51.82%였던 것에 반해, 한의학 용어를 한자로 병기하였을 경우에는 57.59%, 지시와 문제를 영어로 스스로 번역해 풀게 했을 때에는 63.65%로 상승했다.
같은 문항에 대해 반복적으로 답변을 얻은 뒤 답변 중 가장 빈도가 높게 등장한 답을 최종답으로 선택하는 자기일관성(Self-consistency) 기법을 사용하였을 경우 정답률이 66.18%로 높아지는 것도 확인했다.
김창업 교수는 “기존 연구에 비해 이번 연구에서는 프롬프트엔지니어링을 통해 한의학적 문제해결능력을 강화할 수 있다는 사실을 밝혔다는데 의의가 있다”며 “동일한 내용의 문제라도 어떤 언어로 사고하는지, 어떤 방식으로 사고하는지에 따라 큰 성능의 차이가 있었다는 데 주목할 필요가 있다”고 설명했다.
☞공감언론 뉴시스 gs5654@newsis.com
Copyright © 뉴시스. 무단전재 및 재배포 금지.
- "어, 이 시험장 아니네" "수험표 없어요"…경찰이 해결사[2025수능]
- '마약 투약 의혹' 김나정 누구? 아나운서 출신 미스맥심 우승자
- "패도 돼?"…여대 학생회에 댓글 단 주짓수 선수 결국 사과
- 이시언 "박나래 만취해 상의 탈의…배꼽까지 보여"
- [단독]'김건희 친분' 명예훼손 소송 배우 이영애, 법원 화해 권고 거부
- "월급 갖다주며 평생 모은 4억, 주식으로 날린 아내…이혼해야 할까요"
- 배우 송재림, 오늘 발인…'해품달'·'우결' 남기고 영면
- '살해, 시신 훼손·유기' 軍장교, 38세 양광준…머그샷 공개
- '성폭행범' 고영욱, 이상민 저격 "내 명의로 대출받고 연장 안돼서…"
- 최지혜 "3번째 남편과 이혼…남친과 4개월만 동거"