[장인철의 버추얼 호라이즌] ‘AI 환각’ 최소화에 도전하는 ‘솔라’의 기술
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
확률적으로 단어를 생성하는 거대언어모델(LLM) 인공지능(AI) 특성상 AI가 가끔 엉뚱한 답을 생성하는 'AI환각(할루시네이션)'은 고질적인 문제다.
정확한 답변을 위해 필요한 레퍼런스를 제공함으로써 LLM의 환각 가능성을 최소화하는 방식이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
확률적으로 단어를 생성하는 거대언어모델(LLM) 인공지능(AI) 특성상 AI가 가끔 엉뚱한 답을 생성하는 ‘AI환각(할루시네이션)’은 고질적인 문제다. 이 문제 해결을 위해 업스테이지는 ‘검색증강생성(RAGㆍRetrieval Augmented Generation)’이라는 기술을 적극 적용한다. 정확한 답변을 위해 필요한 레퍼런스를 제공함으로써 LLM의 환각 가능성을 최소화하는 방식이다.
예를 들어, 사용자가 "친구들과 함께 볼 수 있는 좋은 영화를 추천해 주세요. 1980년대 후반의 공포 영화를 좋아해요"라는 질문을 했다 치자. LLM이 영화 관련 데이터에 대한 훈련이 돼 있지 않은 경우, 환각 문제가 발생할 가능성이 높다. LLM의 핵심 기능작동 방식이 다음 단어 예측에 의존해 가장 그럴듯한 단어를 선택하는 방식이기 때문에 실제 그런 영화가 존재하지도 않음에도 “그럼요! 1980년대 유명 여배우가 출연한 '숲속의 비명'은 어때요?”라는 답을 내놓는 식이다.
이를 해결할 RAG의 첫 번째 단계는 자체 데이터를 ‘임베딩 모델(embedding model)’에 통합하는 것이다. 임베딩이란 쉽게 말해서 영화 질문의 경우, 자체 영화 관련 정보를 벡터화해 ‘벡터 데이터베이스’를 구축하는 방식이다. 영화 관련 벡터화 정보가 풍부해진 이 데이터베이스는 ‘검색ㆍ추출(Retriever)’ 부분에서 사용자의 쿼리와 관련된 올바른 정보를 찾는 데 도움을 준다.
‘답변검증(Answer Verification)'은 사용자에게 최종적으로 답변이 전달되기 전에 답변이 레퍼런스와 잘 맞는지 검증함으로써 제공된 정보의 정확성을 보장한다. 답변이 적절치 않을 경우엔 오답을 LLM으로 반송(Retry)해 수정할 기회를 제공한다. 요컨대 RAG는 데이터로 답변의 근거를 마련하고, 답변 검증을 통해 정확도를 확인하는 방식이다.
장인철 수석논설위원 icjang@hankookilbo.com
Copyright © 한국일보. 무단전재 및 재배포 금지.
- 열애 후폭풍? 한소희, 광고 재계약 실패·류준열, 홍보대사 하차 요구 | 한국일보
- '몸값 1조 원' 오타니 옆 4만 원짜리 가방 든 아내 | 한국일보
- '건국전쟁' 언급한 尹 "이승만ㆍ박정희의 위대한 결단이 오늘 번영의 토대" | 한국일보
- 이강인 보듬은 손흥민 "이제 똘똘 뭉쳐야"... 고개 숙여 사과한 이강인 "실망시켜 드려 죄송하다"
- 에일리, 열애설에 직접 입 열었다…"예쁘게 잘 만나고 있다" | 한국일보
- 한밤중 무단 외출 조두순, 징역 3개월 법정 구속 | 한국일보
- 리쌍 길, 직접 전한 근황 "난생 처음 입원…수술 성공" | 한국일보
- "이윤희를 아시나요?"...18년 전 사라진 딸 찾는 87세 아빠 | 한국일보
- 알츠하이머 생쥐에 '저탄고지' 식단 먹였더니…기억력 감퇴 늦춰 | 한국일보
- 재취업, 여행, 아르바이트... 집단사직 한 달, 전공의들은 지금 | 한국일보