AI, 전문 분야일수록 ‘환각’에 잘 빠진다

존재하지 않는 정보 만들어내
의학 환각감지 정확도 58%뿐

챗GPT·제미나이 등 생성형 인공지능(AI)이 실제로 존재하지 않는 정보를 만들어내는 ‘환각’ 현상이 사회·경제적 피해로 이어지면서 AI 신뢰성 저하를 우려하는 목소리가 커지고 있다. 정확도를 요구하는 법률·의료·회계 등 전문 분야로 갈수록 환각 현상이 더욱 심각하다는 조사 결과도 나오고 있다.

15일 정보통신기획평가원에 따르면 주요 AI 모델의 분야별 환각 감지 정확도는 ‘일반 상식’의 경우 85%에 달했지만, ‘법률’(64%)·‘의학’(58%)·‘심리학’(53%) 등 전문 분야로 가면 50∼60% 수준에 불과한 것으로 추산됐다. 감지 정확도는 어떤 부분이 환각인지 식별하는 비율을 뜻한다.

해외 조사에서도 전문 분야일수록 엉뚱한 답변을 할 확률은 높았다. 글로벌 AI 싱크탱크 ‘올어바웃AI’가 주요 AI 모델의 환각률을 조사한 결과 의료 정보는 15.6%, 법률 정보는 18.7%로 나타났다. 최신 AI 모델일수록 환각률이 높아지는 점도 문제로 지적된다. 오픈AI가 지난달 출시한 경량 AI 모델 ‘o4 미니’는 환각률이 답변 2개 중 1개꼴인 48%에 달한다는 분석도 나오고 있다.

피해 사례도 잇따르고 있다. 도널드 트럼프 미국 대통령의 ‘해결사’로 불렸던 마이클 코언 변호사는 2023년 구글의 AI 챗봇인 ‘바드’를 이용해 만든 가짜 판례 인용문을 법원에 냈다가 들통나 망신을 당했다. 지난해에는 항공사 에어캐나다가 자사 AI 챗봇이 소비자에게 잘못된 할인 정보를 제공했다가 소송에 걸려 보상 판결을 받았다. 우리나라에서는 지난해 말 제주항공 여객기 참사 당시 한 방송사 화면에 뜬 ‘817’이라는 숫자를 챗GPT가 북한의 대남 공작과 관련이 있다는 환각성 답변을 내놓으면서 음모론이 기승을 부리기도 했다.

김호준 기자