KAIST "시간 오류 자동 진단…LLM 취약성 개선"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
시시각각 달라지는 현실 정보를 자동으로 반영해 거대언어모델(LLM)의 '시간 오류'를 찾는 평가기술이 국내에서 개발됐다.
KAIST는 전기 및 전자공학부 황의종 교수 연구팀과 마이크로소프트연구소(Microsoft Research)가 시간 데이터베이스 기술로 LLM의 시간 추론 능력을 자동으로 평가·진단하는 시스템을 개발했다고 14일 밝혔다.
무엇보다 현실 정보가 변경될 때 해당 내용을 데이터베이스에 업데이트하면 평가 문제와 정답, 검증 기준이 자동으로 반영되는 점이 강점이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
시시각각 달라지는 현실 정보를 자동으로 반영해 거대언어모델(LLM)의 '시간 오류'를 찾는 평가기술이 국내에서 개발됐다. 챗GPT에 "지난달 취임한 장관은 누구인가"라고 물었을 때 현재 장관이 아닌 1년 전 인물을 답으로 내놓는 시간 오류를 바로잡는 기능이다. 이는 인공지능(AI)의 신뢰성을 높여 '믿고 쓰는' AI 시대를 앞당기는 데 기여할 것으로 기대된다.

KAIST는 전기 및 전자공학부 황의종 교수 연구팀과 마이크로소프트연구소(Microsoft Research)가 시간 데이터베이스 기술로 LLM의 시간 추론 능력을 자동으로 평가·진단하는 시스템을 개발했다고 14일 밝혔다.
AI가 사용자의 신뢰를 얻기 위해선 변화하는 현실 정보를 정확히 이해해 제공하는 능력이 필수다. 하지만 기존 평가 방식은 정답 일치 여부만을 확인하거나 복잡한 시간 관계를 충분히 반영하지 못해 실제 환경에서 발생하는 질문 상황을 제대로 평가하기 어려운 한계를 보였다.
공동연구팀은 이를 해결하기 위해 '시간 데이터베이스(Temporal Database)' 설계 이론을 AI 평가에 최초로 도입했다.
시간 데이터베이스는 지난 40여년간 검증돼 온 산물이다. 이를 이용해 공동연구팀은 데이터의 시간적 흐름과 관계 구조로 사람이 평가용 문제를 직접 작성하지 않고도, 데이터베이스만으로 13가지 유형의 복잡한 시간 기반 문제가 자동 생성될 수 있게 했다.
자동 평가·진단 시스템은 데이터를 기반으로 평가 문제가 자동 생성되는 방식으로 전환했다는 점에서 혁신적이라는 평가를 받는다. 사람이 직접 문제를 만들어야 했던 기존의 틀을 깼다는 의미에서다.
또 데이터베이스를 기준으로 문제 생성은 물론 정답 도출과 검증 등 전체 과정을 자동화해 기존처럼 문제를 일일이 수정하지 않아도 되는 점은 유지보수 부담을 줄이는 요인이 된다.
무엇보다 현실 정보가 변경될 때 해당 내용을 데이터베이스에 업데이트하면 평가 문제와 정답, 검증 기준이 자동으로 반영되는 점이 강점이다.
단 최신 정보의 입력 자체는 외부 데이터나 관리자를 통해 이뤄진다. 자동 평가·진단 시스템은 데이터가 갱신된 이후 평가 전반을 자동으로 수행하는 구조로 운용된다.

공동연구팀은 단순히 최종 답이 '맞는지 틀리는지' 여부를 판단하는 기존 방식에서 벗어나 답변 과정에서 제시된 날짜, 기간의 논리적 타당성까지 검증하는 지표도 새롭게 도입했다.
이를 통해 겉보기에는 정답처럼 보이지만 시간적 근거가 잘못된 '시간 환각(Temporal Hallucination)' 현상을 기존보다 평균 21.7% 더 정확하게 탐지하는 성과를 거뒀다.
자동 평가·진단 시스템을 적용하면 정보가 변경됐을 때 데이터베이스만 갱신하면 돼 평가 유지비용을 절감하는 것과 동시에 입력 데이터양도 기존보다 평균 51% 줄어드는 효과를 갖게 된다고 공동연구팀은 강조했다.
황 교수는 "이번 연구는 고전적 데이터베이스 설계 이론이 최신 AI의 신뢰성 문제를 해결하는 데 중요한 역할을 할 수 있다는 것을 보여준 사례"라며 "방대한 전문 데이터를 평가 자원으로 활용한다면, 향후에는 의료·법률 등 다양한 분야에서도 자동 평가·진단 시스템이 AI 성능을 검증하는 데 이용될 수 있을 것으로 기대한다"고 말했다.
한편 이번 연구에는 KAIST 김소연 박사과정이 제1 저자로 참여하고, 마이크로소프트연구소의 진동 왕(Jindong Wang·현 윌리엄 앤 메리 대학교)과 싱 시에(Xing Xie) 연구원이 공동 저자로 참여했다. 연구 결과는 이달 AI 분야 학술대회 'ICLR 2026'에서 발표될 예정이다.
대전=정일웅 기자 jiw3061@asiae.co.kr
Copyright © 아시아경제. 무단전재 및 재배포 금지.
- "절대 가지마, 살아서 못 나온다" 경고에도 인산인해…충남 예산에 무슨 일이
- "밤에 절대 마시면 안돼, 여자는 특히"…불면증보다 심각한 증상 유발하는 음료[실험노트]
- "남의 집 주차장서 낯 뜨거운 애정행각" 분노…민망한 쓰레기까지 투척
- "3일만에 95명 사망"…'가장 위험한 1주일' 또 도마 위 오른 '송끄란'
- "가볍게 만졌을 뿐" 황당 주장…기내서 성추행으로 쫓겨난 中승객, 해명 보니
- "프레시백을 왜 캠핑장에" 비판 일자…백지영 "무지했다, 죄송"
- "국자 뜰 때마다 수십 개"…'후추겠지' 했던 샤브샤브 국물서 발견된 건
- "사는 낙이 사라졌다" 한국인들 한숨..."지금이 기회" 쓸어담는 외국인들
- "5일동안 굶어, 너무 배고파 죄 지었다"…편지 남기고 무인점포 턴 일용직
- "어디꺼냐", "너무 귀여워"…'김신영 그릇' 방송 1회만 '품절 대란'