‘AI 건망증’ 없앴다… 멀티모달 AI 정확도 2배 ↑

이준기 2026. 3. 24. 14:46
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

시각정보와 언어정보를 독립적으로 저장한 뒤 필요할 때 연결해 복합 질문에 정확하게 답할 수 있는 인공지능(AI) 기술이 개발됐다.

임수종 ETRI 언어지능연구실장은 "시각 지식과 언어 지식을 독립적으로 저장하고 필요할 때만 연결해 쓰는 새로운 멀티모달 AI 구조를 구현했다"며 "앞으로 정책·법령 정보, 제품 정보, 산업 데이터처럼 계속 새로운 정보가 추가되고 바뀌어 지속적으로 업데이트가 필요한 지능형 서비스 분야에서 활용할 수 있다"고 말했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

ETRI, ‘치명적 망각’ 문제 해결한 AI 기술 개발
시각·언어정보 각각 저장 후 필요 시 연결해 활용
정확도 70% 수준… 기존 AI 모델 대비 2배 향상
ETRI 연구진이 연속·복합 지식 편집 기술(MemEIC)에 대해 설명하고 있다. ETRI 제공.


시각정보와 언어정보를 독립적으로 저장한 뒤 필요할 때 연결해 복합 질문에 정확하게 답할 수 있는 인공지능(AI) 기술이 개발됐다.

AI가 새로운 정보를 배우거나 기존 정보를 수정하면 기존에 배운 지식을 잊어 버리는 '치명적 망각' 문제를 해결한 것으로, 멀티모달 AI 서비스 성능 향상에 기여할 것으로 기대된다.

한국전자통신연구원(ETRI)은 임수종 박사 연구팀이 포스텍, 성균관대 등과 공동으로 멀티모달 AI의 건망증을 해소할 수 있는 '연속·복합 지식 편집 기술'(MemEIC)을 개발했다고 24일 밝혔다.

챗GPT, 제미나이, 클로드처럼 이미지와 텍스트를 동시에 이해하는 멀티모달 AI가 빠르게 확산되고 있다.

하지만, 멀티모달 AI는 새 정보를 입력하거나 기존 정보를 수정하면 이전에 배운 지식까지 함께 잊어버리는 '치명적 망각' 현상이 발생하는 한계가 있다. AI가 새로운 것을 배우면 이전에 알던 것을 잊어 버리는 일종의 'AI 건망증'이다.

더욱이 시각정보와 언어정보를 동시에 수정해야 할 때는 두 종류의 지식이 뒤섞이면서 AI가 제대로 이해하지 못해 엉뚱한 답을 내놓는 일이 빈번하다.

예컨대 AI에 '두바이 쫀득 쿠키'(두쫀쿠) 사진(시각정보)을 보여주고 "두쫀쿠은 한국에서 인기가 많다"라는 언어정보를 차례로 학습시킨 뒤 "이 디지트는 어느 나라에서 인기가 많은가"라고 물으면 기존 AI는 "사진에 보이는 이미지는 초콜릿 트러플로 유럽에서 인기가 많습니다"라는 잘못된 답을 제시한다.

이는 일종의 '환각 현상'으로, 사진과 관련된 지식을 AI가 제대로 조합하지 못하기 때문이라고 연구팀은 설명했다.

기존에는 AI 내부의 핵심 수치를 직접 수정해 지식을 바꾸는 방식이 주로 쓰였다. 기존 모델의 내부 구조를 근본적으로 바뀌다 보니 지식 수정 과정에서 기존에 저장된 정보까지 영향을 받는 것이다.

ETRI가 개발한 연속·복합 지식 편집 기술(MemEIC) 개념도. ETRI 제공.


연구팀은 새로운 정보를 AI 내부가 아닌 외부 메모리에 저장하는 방식을 도입했다. 필요할 때만 정보를 불러와 쓰는 구조로, 기존 모델의 안정성을 유지하면서 새 정보를 유연하게 추가할 수 있다.

실제, MemEIC은 사람의 좌뇌와 우뇌 역할이 다르듯 이미지 관련 시각 정보는 '시각 어댑터'에, 텍스트 관련 언어 정보는 '언어 어댑터'에 각각 독립적으로 저장한다.

만약 AI가 이미지와 텍스트를 함께 이해해야 하는 복합 질문을 받으면 '지식 커넥터'가 두 정보를 문맥에 맞게 연결해 답을 만든다. 지식을 나눠 저장하고 필요할 때 연결하는 방식으로 서로 다른 정보가 뒤섞이는 내부 간섭 문제와 기존 지식이 훼손되는 문제를 최소화해 복합적인 추론이 가능한 AI 구조를 구현했다.

연구팀이 1278개 항목으로 구성된 복합 지식 편집 평가 기준(벤치마크)를 구축하고, 수백 건의 지식을 순차적으로 편집하는 실험을 한 결과, 정답률이 70%에 달했다.

이는 기존 기술의 정확도(36∼52%)에 비해 두 배 이상 향상된 성능이다.

또 새로운 지식을 추가한 뒤에도 기존 질문에 대한 답이 바뀌지 않는 응답 안정성도 확인됐다.

임수종 ETRI 언어지능연구실장은 "시각 지식과 언어 지식을 독립적으로 저장하고 필요할 때만 연결해 쓰는 새로운 멀티모달 AI 구조를 구현했다"며 "앞으로 정책·법령 정보, 제품 정보, 산업 데이터처럼 계속 새로운 정보가 추가되고 바뀌어 지속적으로 업데이트가 필요한 지능형 서비스 분야에서 활용할 수 있다"고 말했다.

연구결과는 지난해 말 세계적인 AI 학술대회(NeurIPS 2025)에서 발표됐다.

이준기 기자 bongchu@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.