[뉴스속 용어]생성형 AI의 거짓말 '할루시네이션'

"사람은 하루에 얼마나 많은 돌을 먹어야 할까요"

"UC버클리 지질학자들에 따르면 하루 최소 하나의 작은 돌을 먹어야 합니다."

지난달 생성형 인공지능(AI) '제미나이'를 탑재한 구글의 새로운 검색 엔진 'AI오버뷰(Overview)'는 사용자의 다소 엉뚱한 질문에 이같은 황당한 답변을 내놓았다. X(옛 트위터) 등 사회관계망서비스(SNS)에선 "미국에 몇 명의 무슬림 대통령이 있느냐"고 묻자 AI오버뷰가 "최초의 무슬림 미국 대통령은 버락 오바마"라고 답하는 사례 등이 연달아 올라오며 논란이 됐다. 이런 오류가 알려지고 비판과 혹평 등이 이어지자 구글은 결국 AI오버뷰를 출시한 지 2주 만에 서비스를 축소한다고 발표했다.

이처럼 거대언어모델(LLM)과 같은 생성형 AI가 주어진 질문에 대해 잘못된 정보를 내놓거나 맥락과 관련 없는 내용을 출력하는 현상을 '할루시네이션(Hallucination)'이라고 한다. 우리 말로는 '환각' '환영' '환청' 등을 뜻한다.

할루시네이션이 생기는 원인은 광범위한 데이터 학습을 전제로 하는 생성형 AI의 통계적 특성 때문이다. LLM은 대량의 말뭉치 데이터를 구축하고 훈련하는 과정에서 언어의 패턴을 학습하고 이를 통해 주어진 입력에 대해 이어질 확률이 높은 다음 데이터를 예측해 텍스트를 생성하는데, 이 과정에서 사실과 다른 그럴듯한 거짓 정보가 임의로 만들어지거나 실제 있는 사실처럼 꾸며질 수 있다. 또 기존에 존재하지 않는 데이터에 대한 답변을 도출해야 할 경우, 학습된 기존의 패턴이 부적절하게 활용되기도 한다. 예를 들어, 2022년 이전의 데이터로 학습된 LLM이라면 2023년 이후의 상황에 대한 지식이 부족해 할루시네이션이 발생할 가능성이 커진다.

할루시네이션은 LLM뿐 아니라 이미지 등을 생성하는 멀티모달모델에서도 발생할 수 있다. 특정 인물이나 지역의 그림을 생성해 달라는 요청에 실존하지 않는 특징을 생성하거나, 물리적으로 성립하지 않는 그림을 그려내는 식이다.

이 때문에 챗GPT, 제미나이 등 생성형 AI 업계에선 할루시네이션을 최소화하는 것을 시급한 과제로 보고 있다. 데이터의 진위를 정확히 확인하지 못하는 생성형 AI의 특성상 할루시네이션이 필연적인 오류라고 보고 이를 개선하거나 방지하는 방법 연구 중이다. 특정 전문 분야의 데이터를 집중적으로 학습시켜 더 확실한 지식을 갖게 하거나, 특정 언어의 데이터를 추가로 학습시켜 다국어 능력을 향상시키는 방법 등이 이에 해당한다.

조인경 기자 ikjo@asiae.co.kr

아시아경제

경제

[뉴스속 용어]생성형 AI의 거짓말 '할루시네이션'