‘이해할 수 있는 인공지능’ 가능하다

신뢰성과 활용 가능성 높이는 ‘설명가능 인공지능(XAI)’

[글] 최재식 KAIST 김재철AI대학원 교수·인이지 대표이사
[그림] 이솔 과학일러스트레이터·약사
[편집] 윤신영 기자
[기획] 사단법인 집현네트워크

최근 인공지능(AI), 특히 딥러닝 기반 기술은 금융, 의료, 국방, 제조 등 중요한 응용(mission critical) 분야에서 성능을 비약적으로 향상시키고 있다. 예측 정확도, 계산 효율성, 정보 해석력 측면에서 새로운 가능성을 열고 있다.

그러나, 기술은 발전하고 있지만, 신뢰성을 확보하거나 현장에서 실질적으로 널리 활용되는 데에는 어려움을 겪고 있다. 복잡한 내부 연산과 불투명한 의사결정 구조로 요약되는 '블랙박스' 특성 때문이다. 인공지능 모델이 제시하는 예측 결과에 대해 "왜 그렇게 나왔을까?"라고 물었을 때 이에 대한 설명이 부족하다면, 사용자는 해당 결과를 신뢰하거나 의사결정에 활용하기 어렵다. 특히 위험성이 높은 상황에서는 인공지능 모델이 과거의 데이터 패턴에만 의존해 오작동할 가능성이 높다. 이는 사용자의 자산과 안전에도 중대한 영향을 미칠 수 있다. 블랙박스 문제는 인공지능의 신뢰성과 투명성 확보를 위한 핵심적 난제로 부상하고 있다.

이런 문제를 해결하기 위해, 최근 설명가능 인공지능(Explainable AI, XAI)이라는 개념이 주목받고 있다. 설명가능 인공지능은 인공지능 시스템이 도출한 예측 결과와 그 과정을 인간이 이해할 수 있도록 지원하는 기술적 방법론을 포괄하는 개념이다. 모델의 투명성, 공정성, 견고성을 높이는 데 핵심적인 역할을 한다. 인공지능을 발전시킬 때, 예측 성능을 향상시키는 것 외에 결과의 해석 가능성, 오류 진단 능력, 사회적 수용성 제고를 동시에 추구하도록 해서 발전의 균형을 맞춘다.

다양한 설명가능 인공지능 기법을 이용하면 입력 변수의 중요도를 도출하거나 시각적 근거를 제공할 수 있다. 예측 신뢰도를 정량화할 수도 있다. 이를 통해 인공지능 모델의 결과를 검증하고 개선하는 데 실질적 도움을 줄 수 있다 (그림 1).

[그림 1] 인공지능 모델이 제시하는 예측 결과를 사용자가 받아들이지 못하거나 이해하지 못한다면, 예측 결과를 신뢰하거나 사용하기 어렵다. 설명가능 인공지능은 인공지능 시스템이 도출한 예측 결과와 그 과정을 인간이 이해할 수 있도록 해서 이런 문제를 해결한다.

고위험 분야 첨단 인공지능 모델에 설명가능 인공지능을 적용하는 일은 여러 측면에서 중요하다. 첫째, 모델의 예측 결과를 과학적으로 검증하고, 사용자가 모델의 예측을 신뢰하고 활용할 수 있도록 돕는다. 둘째, 모델이 어떤 입력 변수와 시공간적 패턴을 중요하게 고려하는지 파악함으로써, 기존에는 몰랐던 새로운 통찰을 데이터로부터 얻을 수도 있다. 셋째, 모델의 잠재적인 편향이나 취약점을 식별해 모델을 개선하고, 보다 견고하고 일반화 성능이 뛰어난 모델을 개발하는 데 기여할 수 있다.

| 설명가능 인공지능, 도대체 무엇이기에
설명가능 인공지능은 인공지능 시스템이 생성한 결과 및 예측의 근거를 인간이 이해 가능한 방식으로 표현해주는 기술 및 방법론을 총칭한다. 설명가능 인공지능의 주요 목적은 인공지능 모델의 작동 원리, 의사결정 과정, 예측에 기여한 주요 입력 특징, 그리고 잠재적 오류와 편향성을 설명하는 것이다. 특히 기상 및 기후 예측은 국민 안전과 재난 대응에 직결되기 때문에, 인공지능 예측 결과에 대한 투명성 및 신뢰성 확보가 필수다 (그림 2).

[그림 2] 기존 서비스와 AI 서비스의 차이. 기존 서비스는 기능과 결과가 결정적이고 예측가능한 반면, AI 서비스는 새로운 정보로 예상밖의 결과를 제공하는 경우가 많다. AI가 제공한 의사결정을 설명하는 것이 중요한 이유다.

인공지능 기반 의사결정 시스템의 발전사를 살펴보면, 초기에는 규칙 기반 전문가 시스템(Rule-based Expert Systems)이 중심이었다. 이들은 사전에 정의된 지식과 논리적 규칙을 이용해 결론을 도출했기 때문에, 그 근거를 사용자에게 명확히 설명할 수 있었다. 그러나 1990년대 후반 이후, 인공신경망 기반의 딥러닝 기술이 부상하면서 인공지능 시스템은 방대한 데이터를 기반으로 스스로 지식을 학습하는 블랙박스 형태로 진화했고, 예측 근거에 대한 직관적 해석이 어려워졌다.

특히 의료, 금융, 국방, 제조 등 고위험 인공지능 분야에서 블랙박스 모델에 대한 우려가 크다. 이들 분야의 사용자는 단순히 정확도가 높다는 이유만으로 인공지능 모델을 신뢰하지 못한다. 모델이 어떤 정보에 주목해 예측을 도출했는지 이해할 수 있어야 한다는 뜻이다. 이는 예측 결과의 수용성과 활용도, 나아가 예측 실패 시 원인을 규명하고 모델을 개선할 가능성에까지 영향을 미친다. 따라서 설명가능 인공지능은 인공지능 활용의 핵심 기술로 부상하고 있다.

또, 인공지능 모델의 설명성을 높이는 과정에서 모델이 학습 데이터에 과적합(학습 데이터를 지나치게 세세하게 학습해, 학습 데이터 외의 데이터를 만났을 때 성능이 오히려 떨어지는 현상)되는 현상이 줄어들고, 따라서 새로운 데이터를 만났을 때 성능이 올라가는 경우가 많다는 보고도 있다[1] (그림 3).

[그림 3] 다양한 인공지능 모델에 설명성을 높이는 노력을 기울인 결과, 인공지능 모델의 일반화 성능도 함께 좋아진 경우가 많았다.

| 어떤 기법이 있나?
설명가능 인공지능 기술은 다양한 모델 구조와 데이터 유형에 적용될 수 있도록 다채로운 기법으로 발전해왔다.

(BOX) 대표적인 설명가능 인공지능 기술 (그림 4)
입력 속성 기여도 기반 기법(Input Attribution): 입력 특징이 모델 예측에 기여한 정도를 수치화해주는 방식이다. 입력(예를 들어 온도, 습도, 압력 등)이 예측에 미치는 영향을 정량화하는 데 활용된다.
- SHAP(SHapley Additive exPlanations), IG(Integrated Gradients), DeepLIFT, LRP(Layer-wise Relevance Propagation)

내부 활성화 기반 기법: 모델 내부의 뉴런 활성값을 분석해 예측 근거를 추적한다. 멀티모델 데이터를 활용한 예측 시, 특정 이미지 영역이 예측 결과에 기여했는지를 시각적으로 보여준다.
- Grad-CAM(Gradient-weighted Class Activation Mapping), Guided Backpropagation

어텐션 기반 기법: 트랜스포머 계열 모델의 어텐션 가중치를 분석해 입력 간 상호작용을 시각화한다. 시공간 패턴 분석이 중요한 예측에 응용할 수 있다.
- AMTL, UV-Transformer, RETAIN

출력 기반 생성형 설명 기법(Generating Explanations): 자연어 또는 요약된 설명 문장을 생성한다. 인간 친화적인 설명을 생성해 비전문가도 결과를 이해할 수 있다.
- GenXAI, GPT-Explanations

시계열 특화 기법: 시계열 센터 데이터와 같이 시간축이 중요한 경우 모델의 시계열 구조에 맞춘 설명을 제공한다.
- N-BEATS, TimeSHAP, Explainable RNN

모델 근사화 기법(Surrogate Models): 복잡한 블랙박스 모델을 선형 회귀, 결정 트리 등 단순 모델로 근사해 해석력을 확보한다.
- Interpretable Model-agnostic Explanations (LIME), RUDDER, ReFiNE

규칙 기반 기법(Rule-based): 입력-출력 관계를 if-then 규칙의 집합으로 설명한다. 기상 현상의 규칙성을 파악하는 데 유용하다.
- KAARM, Anchors, BRL

모델 조합 기반 기법(Model Composition): 여러 설명 기법을 조합하거나 통계 기법과 결합해 복합 설명을 제공한다.
- AutoXAI, RuleMatrix, LIM

반사실적 및 대조적 설명(Counterfactual/Contrastive): 예측 결과를 변경하기 위해 입력 값이 어떻게 달라져야 하는지를 제시한다. 정책 개입 시뮬레이션에 활용 가능하다.
- F-ACE, DiVE

행동 기반 모델(Action Models): 강화학습 기반 모델의 의사결정을 설명한다. 위험 안전 대응 시나리오처럼 순차적 의사결정 상황에서 활용할 수 있다.
- PIPLT, VQ-GUT

[그림 4] 설명가능 인공지능 기술은 다양한 모델 구조와 데이터 유형에 적용될 수 있도록 다채로운 기법으로 발전해왔다.

이런 기법들은 서로 보완적으로 활용될 수 있으며, 모델의 구조나 데이터 유형에 따라 최적의 기법을 선택해 적용하는 것이 중요하다. 예를 들어, SHAP(SHapley Additive exPlanations)를 활용해 인공지능 예측 모델이 어떤 변수(예를 들어 고온)에 의존하는지를 정량적으로 분석하거나, Grad-CAM(Gradient-weighted Class Activation Mapping)을 활용해 이미지의 관심 영역을 표시하는 등의 활용이 가능하다. 어텐션 해석 기법은 시공간적 기상 패턴을 파악하는 데 유용하며, 반사실적 설명은 정책적 판단(예를 들어 예측 결과의 확인 조건)의 이해도를 높이는 데 활용될 수 있다.

최근에는 설명가능 인공지능의 활용 편의성을 높이기 위한 도구와 플랫폼도 등장하고 있다. KAIST 설명가능 인공지능연구센터는 2024년, 다양한 인공지능 모델에 손쉽게 설명 기능을 부여할 수 있는 '플러그앤드플레이(Plug-and-Play) 설명가능 인공지능 프레임워크'를 공개했다[2]. 이 프레임워크는 모델 구조에 따라 적합한 설명 알고리즘을 자동으로 추천하고, 시각화 결과 및 신뢰도 평가 지표까지 함께 제공하는 시스템으로 구성돼 있다. 인공지능 비전문가도 손쉽게 사용할 수 있어, 실제 기상 업무에 적용하기 좋은 실용적 도구로 평가된다.

설명가능 인공지능은 학술적 영역에서도 활발하게 논의되고 있다. 최근 국내외 설명가능 인공지능 연구자들은 함께 'XAI 2.0'이라는 선언문을 발표하고, 설명 가능성의 신뢰도 정량화, 사용자 중심 인터페이스, 윤리적 설명의 기준을 제시했다[3].

| 설명가능 인공지능, 어디에 응용될 수 있나

(1) 기상: 현업 사용자의 요구 반영한 플랫폼
기상 예측 분야에서 딥러닝 기반 기법을 활용하는 경우가 늘고 있다. 하지만 해석 불가능성은 실무 적용의 큰 장벽이다. 특히 강수 예측과 같은 고난도 예보에서, 예보관은 모델의 판단 근거 없이 결과를 신뢰하기 어렵다. 필자의 연구팀은 사용자 중심의 설명가능 인공지능을 기상 예측에 적용하고자 기상청 예보관을 대상으로 사용자 연구를 진행했다. 이를 통해 세 가지 주요 설명 요구 사항을 도출했다[2]. 도출한 각 요구사항에 적절한 설명가능 인공지능 기법을 매핑하고, 사용자 피드백을 반영한 인터페이스 시스템을 설계했다 (그림 5).

[그림 5] 사용자 중심 설명가능 인공지능 연구를 통해 개발한 세 가지 설명 기법의 사용자 인터페이스.

이후 현업 예보관을 대상으로 설문 및 인터뷰를 진행해 설명가능 인공지능이 도입됐을 때의 효과를 계량했다. 사용자 AB테스트를 통해 설명 기법이 추가될수록, 설명 결과의 표현이 쉬워질수록 모델 예측 결과의 신뢰도가 증가함을 확인할 수 있었다(평균 2.8에서 3.2로 증가했다. 신뢰도 1은 신뢰하지 않는다는 뜻이고 5는 매우 신뢰한다는 뜻이다). 정량 및 정성 평가 결과, 시범 구축한 설명가능 인공지능 시스템은 사용자 신뢰와 의사결정 효율을 높이는 데 다소 효과적이었으며, 사용자는 설명가능 인공지능 알고리즘 기반 설명보다 직관적인 설명을 선호하는 경향을 보였다. 기상 분야에 특화된 사용자 중심 설명가능 인공지능 기술의 필요성과 가능성을 보여주는 결과로, 향후 실용적인 인공지능-기상 시스템을 개발하기 위한 실증적 근거를 제공하고 있다.

(BOX) 기상청 예보관의 주요 설명 요구 사항
- 강수 유형 시나리오별로 통계적 성능을 분석할 것
- 모델의 입출력 원인을 제공할 것
- 출력 결과에 대한 신뢰도를 제공할 것

(2) 금융: 수상한 카드 사용 더 빨리 탐지
금융분야에서는 인공지능을 활용한 이상거래 탐지(Fraud Detection System)를 적극적으로 도입하고 있다. 온라인 금융이 활성화되면서 다양한 사용자들의 온라인 결제도 많아지고, 이상거래 시도도 늘어나고 있다. 기존에는 규칙(룰) 기반으로 위험 거래를 차단하는 경우가 많았는데, 규칙 기반 시스템은 (1) 신규 사기 유형에 대응하기 어렵고 (2) 지속적으로 규칙을 개발하기 어려우며 (3) 공격자가 이상거래 탐지 유형을 학습해 회피할 수 있다는 점이 한계점이다.

이에 반해, 인공지능 기반 탐지 시스템은 (1) 데이터에 기반한 학습으로 유연성과 적응성이 좋고 (2) 다양한 데이터 패턴을 활용할 수 있으며, (3) 오탐률과 미탐률을 개선할 수 있고 (4) 추가학습으로 지속적으로 성능을 개선할 수 있다는 장점이 있다.

다만, 인공지능 기반 이상거래 탐지 시스템은 의사결정이 명확하지 않을 수 있어서, 이를 설명해 그 정확성을 확인할 필요가 있다. 카카오뱅크는 이상거래 탐지에 설명가능 인공지능을 적용해서 이 문제를 해결했다[4].

카카오뱅크에 실제 있었던 이상거래 탐지 사례를 보자. 금요일 새벽, 한 17세 남학생이 카카오뱅크 미니(Mini) 카드로 아이스크림 할인점에서 약 7000원을 결제한 건을 이상거래로 탐지했다. 여기에 XAI를 적용한다면, 현업 전문가가 평소 모니터링을 통해 파악한 이상거래 패턴과 유사한지 여러 요인을 통해 살펴봄으로써 오탐률을 낮출 수 있다. 카카오뱅크는 이런 대용량 시스템에서 빠르게 의사 결정을 확인할 수 있는 알고리즘을 개발했다. 샘플링을 통해서 의사결정을 설명하는 알고리즘을 적용한다고 해보자. 기존에 설명한 패턴과 비슷해 빠르게 설명할 수 있는 경우라면, 모든 샘플을 다 확인하지 않았더라도 중도에 설명 결과를 제공할 수 있다. 이 방식으로 설명 시간을 10분의 1 이하로 줄였고, 계산 효율성도 높였다[5].

| 설명가능 인공지능이 더 발전하려면
인공지능 기술을 도입해 효율적으로 활용하기 위해서는, 예측 정확도를 넘어 모델의 해석 가능성과 사용자 신뢰를 꼭 확보해야 한다. 특히, 기상청 예보관이나 이상탐지 전문가가 인공지능을 현업에 활용하기 위해서는 설명가능 인공지능 기술을 통해 모델의 예측 및 추론 결과를 해설함으로써 신뢰도를 높일 필요가 있다.

국립기상과학원과의 협력 연구 결과에 따르면, 인공지능 모델의 추론 과정을 시각적이고 개념적으로 설명할 수 있었다. 또, 이런 설명 방식은 기상청의 현업 시스템에 통합돼 예측 근거를 제공하거나 국민 대상 예보 설명력을 향상시키고, 정책 신뢰도를 높이는 등 다양한 서비스 혁신의 기반이 될 것으로 기대된다. 사용자 설문 및 인터뷰를 통해, 예보관의 현업 활용성을 제고하기 위해서는 이해하기 쉬운 설명과 간단한 조작이 가능한 인터페이스 제공이 필요하다는 요구도 도출했다.

카카오뱅크의 이상거래 탐지 인공지능 시스템에 적용된 설명가능 인공지능은 이상탐지 전문가의 가설과 인공지능 탐지 시스템의 가설을 서로 비교한다. 새로운 이상거래 발생시 이를 비교해 좀 더 정확하고 빠르게 탐지하며, 대용량 온라인 시스템에 적용할 수 있다. 이를 통해 국내외에서 발생하는 이상거래를 빠르게 탐지해 고객에게 알리고 자산을 지킬 수 있게 됐다.

인공지능 모델 개발 이후에는, 설명가능 인공지능 기술을 통해 모델 의사결정의 근거를 직관적으로 전달할 수 있는 시각화 방식을 마련하고, 나아가 사용자 중심의 사람-컴퓨터 상호작용(Human-Computer Interaction, HCI)에 대한 전문적인 고려 또한 함께 이뤄져야 한다.

설명가능 인공지능을 더 넓은 곳에 적용하기 위해서는 여전히 기술적, 개념적, 실용적인 측면에서 어려움이 많다. 설명 결과의 일관성이 부족하고, 계산 비용이 많이 들며, 사용자 수용성을 확보할 필요가 있다. 설명가능 인공지능 기법이 단순한 변수 중요도 분석에 머무르고 있다는 한계도 제기된다. 데이터의 품질과 편향 문제, 그리고 실제 사용자의 수용성 확보 또한 중요한 고려 사항이다. 이에 따라 인공지능을 활용하는 전문 분야에 맞는 설명가능 인공지능 기술의 신뢰도, 평가 기준, 사용자 인터페이스 개선 등을 포괄하는 통합적 접근이 필요하다.

궁극적으로, 설명가능 인공지능 기술은 기술 중심이 아닌 사용자 중심의 접근 방식으로 개발되고 평가돼야 한다. 최종 사용자가 설명가능 인공지능 시스템의 설계, 개발, 평가 과정에 적극적으로 참여하도록 해, 그들의 요구사항과 피드백을 충분히 반영해야 한다. 설명이 사용자의 기존 업무 흐름에 자연스럽게 통합되고, 의사결정 과정을 실질적으로 지원하며, 새로운 통찰을 제공할 때 비로소 인공지능 기술은 신뢰를 얻고 성공적으로 채택될 수 있다. 신뢰는 단번에 형성되는 것이 아니다. 일관되고 신뢰할 수 있으며 진정으로 유용한 설명을 통해 점진적으로 쌓여가는 것이다 (그림 7).

[그림 7] 설명가능 인공지능 기술은 기술 중심이 아닌 사용자 중심의 접근 방식으로 개발되고 평가돼야 한다.

연구 측면에서는, 설명 결과의 일관성과 견고성이 사용자 신뢰 구축에 있어 중요한 요소라는 점을 고려해야 한다. 동일한 상황에서 설명가능 인공지능 기법이 매번 서로 다른 설명을 제공하거나, 입력 값의 작은 변화에 따라 설명이 과도하게 달라진다면, 사용자는 그 결과를 신뢰하기 어렵다. 따라서, 다양한 설명가능 인공지능 방법의 성능과 신뢰성을 객관적으로 비교, 평가할 수 있는 표준화된 벤치마크와 평가 지표의 개발이 필요하다. 설명 결과가 실제 모델 작동 방식을 얼마나 잘 반영하는지, 입력의 작은 변화에 대해 설명이 얼마나 안정적인지, 실제 사용자에게 얼마나 유용한지 등을 정량적으로 평가할 수 있는 평가 프레임워크가 구축된다면, 설명가능 인공지능 결과의 품질을 보증하고 사용자에게 일관된 수준의 설명을 제공하는 데 크게 기여할 수 있을 것이다.

| 참고문헌

Gunning, D., Stefik, M., Choi, J., Miller, T., Stumpf S., and Yang, G.-Z., 2019: XAI—Explainable Artificial Intelligence. Science Robotics 4(37).
Kim, S., Kim, S., Kim, G., Menadjiev, E., Lee, C., Chung, S., Kim, N., and Choi, J., 2025: PnPXAI: A Universal XAI Framework Providing Automatic Explanations Across Diverse Modalities and Models. https://github.com/OpenXAIProject/pnpxai
Longo, L., Brcic, M., Cabitza, F., Choi, J., Confalonieri, R., Del Ser, J., Guidotti, R., Hayashi, Y., Herrera, F., Holzinger, A., Jiang, R., Khosravi, H., Lecue, F., Malgieri, G., Páez, A., Samek, W., Schneider, J., Speith, T., and Stumpf, S., 2024: Explainable Artificial Intelligence (XAI) 2.0: A Manifesto of Open Challenges and Interdisciplinary Research Directions. Information Fusion 106: 102301.
인공지능, 너 이 문제 내 가설로 푼 거 맞니?: XAI 활용기, 2024:
https://tech.kakaobank.com/posts/2401-xai-application-and-shap-algorithm/
Lee, C., Park, Y., Lee, H., Yoo, Y., Han, D., Choi, J., Kim, G., Kim, N., Choi, J., Amortized Baseline Selection via Rank-Revealing QR for Efficient Model Explanation, 2025: The Conference on Information and Knowledge Management.

이 프로그램은 과학기술진흥기금 및 복권기금의 재원으로 운영되고 과학기술정보통신부와 한국과학창의재단의 지원을 받아 수행된 성과물로 우리나라의 과학기술 발전과 저소득 소외계층의 복지 증진에도 기여하고 있습니다.