[뉴스속 용어]생성형 AI의 거짓말 '할루시네이션'

조인경 2024. 6. 12. 16:35
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

"사람은 하루에 얼마나 많은 돌을 먹어야 할까요""UC버클리 지질학자들에 따르면 하루 최소 하나의 작은 돌을 먹어야 합니다."

지난달 생성형 인공지능(AI) '제미나이'를 탑재한 구글의 새로운 검색 엔진 'AI오버뷰(Overview)'는 사용자의 다소 엉뚱한 질문에 이같은 황당한 답변을 내놓았다.

이 때문에 챗GPT, 제미나이 등 생성형 AI 업계에선 할루시네이션을 최소화하는 것을 시급한 과제로 보고 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

"사람은 하루에 얼마나 많은 돌을 먹어야 할까요"

"UC버클리 지질학자들에 따르면 하루 최소 하나의 작은 돌을 먹어야 합니다."

지난달 생성형 인공지능(AI) '제미나이'를 탑재한 구글의 새로운 검색 엔진 'AI오버뷰(Overview)'는 사용자의 다소 엉뚱한 질문에 이같은 황당한 답변을 내놓았다. X(옛 트위터) 등 사회관계망서비스(SNS)에선 "미국에 몇 명의 무슬림 대통령이 있느냐"고 묻자 AI오버뷰가 "최초의 무슬림 미국 대통령은 버락 오바마"라고 답하는 사례 등이 연달아 올라오며 논란이 됐다. 이런 오류가 알려지고 비판과 혹평 등이 이어지자 구글은 결국 AI오버뷰를 출시한 지 2주 만에 서비스를 축소한다고 발표했다.

이처럼 거대언어모델(LLM)과 같은 생성형 AI가 주어진 질문에 대해 잘못된 정보를 내놓거나 맥락과 관련 없는 내용을 출력하는 현상을 '할루시네이션(Hallucination)'이라고 한다. 우리 말로는 '환각' '환영' '환청' 등을 뜻한다.

할루시네이션이 생기는 원인은 광범위한 데이터 학습을 전제로 하는 생성형 AI의 통계적 특성 때문이다. LLM은 대량의 말뭉치 데이터를 구축하고 훈련하는 과정에서 언어의 패턴을 학습하고 이를 통해 주어진 입력에 대해 이어질 확률이 높은 다음 데이터를 예측해 텍스트를 생성하는데, 이 과정에서 사실과 다른 그럴듯한 거짓 정보가 임의로 만들어지거나 실제 있는 사실처럼 꾸며질 수 있다. 또 기존에 존재하지 않는 데이터에 대한 답변을 도출해야 할 경우, 학습된 기존의 패턴이 부적절하게 활용되기도 한다. 예를 들어, 2022년 이전의 데이터로 학습된 LLM이라면 2023년 이후의 상황에 대한 지식이 부족해 할루시네이션이 발생할 가능성이 커진다.

할루시네이션은 LLM뿐 아니라 이미지 등을 생성하는 멀티모달모델에서도 발생할 수 있다. 특정 인물이나 지역의 그림을 생성해 달라는 요청에 실존하지 않는 특징을 생성하거나, 물리적으로 성립하지 않는 그림을 그려내는 식이다.

이렇게 만들어진 잘못된 가짜 정보는 이용자들에게 큰 혼란을 야기할 뿐 아니라 의도된 거짓 뉴스를 생성하고 유포하는 일 등에 악용될 우려도 있다. 이는 명예 훼손이나 저작권 침해 등 다양한 법적 리스크로 이어질 수 있어 주의가 필요하다. 아울러 대화 과정에서 취득한 개인정보나 기업 기밀이 유출될 수 있는 보안 리스크도 간과할 수 없다.

이 때문에 챗GPT, 제미나이 등 생성형 AI 업계에선 할루시네이션을 최소화하는 것을 시급한 과제로 보고 있다. 데이터의 진위를 정확히 확인하지 못하는 생성형 AI의 특성상 할루시네이션이 필연적인 오류라고 보고 이를 개선하거나 방지하는 방법 연구 중이다. 특정 전문 분야의 데이터를 집중적으로 학습시켜 더 확실한 지식을 갖게 하거나, 특정 언어의 데이터를 추가로 학습시켜 다국어 능력을 향상시키는 방법 등이 이에 해당한다.

조인경 기자 ikjo@asiae.co.kr

Copyright © 아시아경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?