[사이테크+] "챗GPT, 영상의학 전문의 시험 통과 수준…신뢰성 한계도 노출"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
생성형 인공지능(AI) 챗봇 챗GPT가 북미영상의학회(RSNA) 전문의 자격시험을 통과하는 수준의 성적을 얻어 큰 잠재력을 입증했으나 동시에 임상에 적용하기 어려울 정도의 큰 신뢰성 한계도 드러낸 것으로 나타났다.
캐나다 토론토대 메디컬이미징센터 라제시 바야나 교수팀은 17일 북미영상의학회 학술지 '영상의학'(Radiology)에서 북미영상의학회 전문의 자격시험 문제로 GPT-3.5와 GPT-4 기반 챗GPT를 각각 테스트한 결과 GPT-4는 합격선을 넘는 성적을, GPT-3.5는 합격선에 근접한 성적을 올렸다며 이같이 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(서울=연합뉴스) 이주영 기자 = 생성형 인공지능(AI) 챗봇 챗GPT가 북미영상의학회(RSNA) 전문의 자격시험을 통과하는 수준의 성적을 얻어 큰 잠재력을 입증했으나 동시에 임상에 적용하기 어려울 정도의 큰 신뢰성 한계도 드러낸 것으로 나타났다.
캐나다 토론토대 메디컬이미징센터 라제시 바야나 교수팀은 17일 북미영상의학회 학술지 '영상의학'(Radiology)에서 북미영상의학회 전문의 자격시험 문제로 GPT-3.5와 GPT-4 기반 챗GPT를 각각 테스트한 결과 GPT-4는 합격선을 넘는 성적을, GPT-3.5는 합격선에 근접한 성적을 올렸다며 이같이 밝혔다.
챗GPT는 오픈AI가 지난해 11월 공개한 인공지능 챗봇으로 심층학습(deep learning) 모델을 사용해 방대한 학습 데이터에서 단어 간 패턴과 관계를 인식, 질문에 따라 사람과 유사한 응답을 생성한다. 그러나 학습 데이터 자체의 신뢰도가 떨어질 경우 그럴듯한 거짓 응답을 생성하는 문제가 계속 드러나고 있다.
연구팀은 이 연구에서 영상의학 전문의 시험 문제에 대한 챗GPT 성능을 평가하고 강점과 한계를 알아보기 위해 현재 가장 널리 사용되는 GPT-3.5와 지난 3월 공개된 GPT-4 기반의 챗GPT를 테스트했다.
시험에는 캐나다 왕립영상의학회와 미국영상의학회의 영상의학 전문의 시험 방식으로 내용과 난이도를 조절한 객관식 문항 150개가 사용됐다. 문항에 이미지는 포함되지 않았고, 문항 유형은 지식·기본 이해 등을 묻는 저차원적 사고 문제와 적용·분석·종합 능력을 묻는 고차원적 사고 문제로 분류됐다.
시험 결과 GPT-3.5 기반 챗GPT는 150문항 중 104문항(69%)을 맞혀 캐나다 영상의학회 합격선(70%)에 약간 못 미쳤으나 GPT-4 기반 챗GPT는 정답률 81%(150문항 중 121문항 정답)로 합격 수준을 기록했다.
GPT-3.5 기반의 챗GPT는 저차원 사고 문제에서는 61문항 중 51문항(84%)에서 정답을 생성했으나 고차원 사고 문제에서는 89문항 중 정답이 53문항(60%)에 그친 것으로 나타났다.
그러나 GPT-4 기반의 챗GPT는 전체 정답률 81%로 영상의학 전문의 합격선을 넘은 것은 물론 고차원 문제에서의 정답률이 81%로 GPT-3.5 기반 챗GPT보다 성능이 크게 향상된 것으로 나타났다.
연구팀은 그러나 GPT-4는 저차원 사고 문제의 정답률이 84%로 GPT-3.5(정답률 81%)와 비슷한 수준을 보였고 특히 GPT-3.5가 정답을 낸 12개 문항에서는 오히려 오답을 생성했다며 이는 GPT-4의 정보 수집 신뢰성에 큰 의문을 제기하는 것이라고 지적했다.
바야나 교수는 "처음에는 까다로운 영상의학 질문에 대한 챗GPT의 정확하고 자신감 있는 답변에 놀랐지만, 다음에는 비논리적이고 부정확한 주장에 똑같이 놀랐다"면서 "하지만 이 AI 모델의 작동 방식을 고려할 때 이런 부정확한 응답은 특별히 놀라운 것은 아니다"라고 말했다.
이어 "이 연구 결과는 GPT-4의 강화된 고급 추론 기능이 영상의학에서도 단기간에 큰 성능 향상으로 이어졌음을 보여준다"며 "이는 챗GPT 같은 거대언어모델(LLM)의 큰 잠재력을 입증하는 것"이라고 덧붙였다.
하지만 그는 "두 버전 모두 틀린 답을 낼 때 일관되게 자신감 있는 언어를 사용하는 모습을 보였다"며 "이런 자신감 있는 틀린 응답을 부정확한 것으로 인식하지 못할 수 있는 초보자의 경우 이런 정보에만 의존하면 특히 위험할 수 있어 항상 사실 확인이 필요하다"고 강조했다.
scitech@yna.co.kr
▶제보는 카톡 okjebo
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- 허정무 전 국가대표팀 감독, 대한축구협회장 선거 출마 | 연합뉴스
- 공항서 마약탐지 장비 오류로 30대 여성 생리대까지 벗어 몸수색 | 연합뉴스
- 한국-호주전 도중 통로 난입한 도미니카공화국…훈련 방해까지 | 연합뉴스
- 태국 원숭이 200여마리 우리서 탈출…경찰서·민가 습격 | 연합뉴스
- 미국서 '눈동자 색 바꾸는 수술' 인기…"위험" 경고도 | 연합뉴스
- "중국인 모이면 소란 피우는 빌런 발생"…서교공 민원답변 논란 | 연합뉴스
- 혁명군에 담배 대신 꽃한송이…포르투갈 '카네이션 여인' 별세 | 연합뉴스
- 알리 '현금 1억원 뽑기'에 27만명 몰려…탕웨이가 추첨 | 연합뉴스
- 문신토시 끼고 낚시꾼 위장 형사들, 수개월잠복 마약범 일망타진 | 연합뉴스
- "얼마나 힘드셨나" 경찰, 반포대교 난간 20대 설득해 구조 | 연합뉴스