[분석] 공부는 안 하고 '노가다'만···개혁신당 'AI 공약' 시스템

66만건 크롤링? 입력만 있고 지능은 없어
쿼리도 없이 쏟아 부으면 결국 잡탕 수렴
가중치 빠진 회의록, 집중력 분산 노이즈

이준석 개혁신당 대표가 지난 3월 9일 국회에서 'AI 선거 사무장' 애플리케이션 모형을 들고나와 퍼포먼스를 벌이고 있다. / 연합뉴스

개혁신당이 '인공지능(AI) 기반 공약 생성'을 위해 전국 지방의회 회의록 66만 건을 크롤링했다는 설명은 겉으로는 인상적이다. 데이터의 규모만 놓고 보면 분명히 압도적이다. 숫자는 크고, 표면적으로는 '많이 모았다'는 이준석 대표의 성과가 강조된다.

17일 여성경제신문 분석 결과 개혁신당의 AI 공약 생성 과정을 보면 컨텍스트창에 텍스트를 그대로 밀어 넣어 연산시키는 방식이다. 그런데 거대언어모델(LLM)은 목적을 이해해 공약을 만드는 존재가 아니라, 주어진 조건 안에서 패턴을 재배열하는 도구다. 노이즈를 넣으면 노이즈가 나온다. 이것이 GIGO(Garbage In, Garbage Out)다.

쿼리(Query)가 불분명하면 AI는 방황한다. 수십만 토큰의 텍스트 데이터만 던지는 것은 요리사에게 재료만 쥐어주고 아무 설명 없이 "요리해봐"라고 말하는 것과 같다. 재료가 아무리 많아도 방향이 정확하지 않으면 요리사도 길을 잃는다.

크롤링 데이터에는 무엇을 해결할 것인지, 어떤 문제를 우선할 것인지, 어떤 기준으로 판단할 것인지가 없다. 이 축이 빠지면 AI는 데이터를 정렬하지 못하고 표면적인 빈도만 따라간다. 결국 결과는 공약이나 정책이 아닌 입력된 평균을 문장으로 옮긴 수준에 머문다.

개혁신당이 확보한 66만 건의 회의록에는 정책적 가치가 있는 제안과 단순 민원이 동시에 포함돼 있다. 장기적인 문제와 일회성 불만이 뒤섞여 있다. 이 가운데 무엇을 더 중요하게 반영할지 결정하는 것이 가중치다. 파라미터 가중치는 학습 과정에서만 생성된다.

가중치가 빠진 상태의 모든 입력값은 동일한 신호로 처리된다. 중요한 문제와 사소한 의견이 같은 수준에서 반영되며, 결과는 평균값으로 수렴한다. 다양한 의견 반영과 거꾸로다. 아예 차이를 지워버리는 과정이다. 결국 AI는 '모두의 목소리'를 듣는 것이 아니라, '아무의 목소리도 아닌 결과'를 만들어낸다.

정제되지 않은 데이터는 구조적으로 노이즈를 포함한다. 중복된 발언, 감정적 표현, 사실과 의견의 혼재, 오류와 왜곡이 자연스럽게 섞여 있다. 이런 데이터는 그대로 사용할 수 없어 선별과 정제가 필요한 재료다.

쿼리·가중치·정제 없는 자칭 분석
공약 아닌 '평균 문장'만 재조합

데이터가 무차별 입력되면 AI는 노이즈 자체를 하나의 패턴으로 받아들인다. 입력이 정제되지 않은 상태에서 과잉 투입되면, 모델은 무엇이 중요한 신호인지 구분하지 못하고 전체를 평균적으로 반영한다. 그 결과 문장은 매끄럽고 자연스럽지만, 정작 핵심을 짚지 못하는 출력이 반복된다.

문제의 본질은 어텐션(Attention)이다. 데이터가 정리되지 않으면 AI는 어디에 집중해야 할지 판단하지 못한다. 결국 모든 정보에 얕게 반응하는 구조로 흘러간다. 이런 점에서 무차별 크롤링은 지능이라기보다 입력량에 의존한 하급 처리 방식에 가깝다. 차라리 목적에 맞는 데이터를 선별하고, 기준을 세운 뒤 분석·연산을 수행하는 쪽이 훨씬 높은 수준의 접근이다.

개혁신당 AI 공약 개발 시스템의 한계는 기술의 문제라기도 민망한 인공지능 구조에 대한 기본 지식 부재의 문제다. 쿼리가 없으면 방향이 없고, 가중치가 없으면 우선순위가 없으며, 정제가 없으면 품질이 없다. 세 가지 핵심 단계가 동시에 빠져 있다. 이 구조에서 생성되는 것은 정책이 아닌 죽은 문장 덩어리다.

프롬프트로 정해둔 점수 누가 믿나
정강 부합도 '입력된 방향' 재출력

개혁신당이 내세운 두 번째 AI 기능은 공약 검증이다. 생성된 공약을 정강 정책 부합도, 실현 가능성, 타 후보 공약 비교, 과거 대선 공약 비교 등의 항목으로 자동 점수화하고 개선 방향까지 제시한다는 설명이다. 이 역시 겉으로 보면 AI가 정치 분석을 대신하는 구조처럼 보인다.

하지만 구조를 들여다보면 엉망이다. 평가 기준을 프롬프트에 적어 넣고, LLM이 그 기준에 맞춰 점수를 출력하게 하는 방식에 가깝다. 이는 검증이라기보다 프롬프팅이라는 조작 가능 기법에 따른 결과 재생산이다. 인공지능이 몸으로 때워 연산한 것이 아닌 유도된 출력에 가깝다.

예를 들어 AI가 정강 정책 부합도를 평가하려면, 먼저 정강의 내용을 기준으로 입력받아야 한다. 결국 누군가 프롬프트에 당의 방향과 해석을 미리 정의해 넣는 과정이 필요하다. 또 그 기준에 따라 점수를 매기도록 하는 것이 일반적이다. 즉, 점수는 객관적 검증과 거리가 먼 사전에 설정된 방향의 수치화로 전락한다.

이준석 개혁신당 대표가 천하람 개혁신당 원내대표와 이주영 개혁신당 의원과 함께 LG AI연구원 AI 산업 진흥을 위한 현장 간담회에 참석했다. / 여성경제신문DB

실현 가능성? AI가 모르는 영역
비교 분석도 유사도 계산 수준

또한 공약 실현 가능성은 AI가 모르는 영역이다. 먼저 현실화 가능성을 판단하려면 예산, 법률, 행정 절차, 이해관계자 반응 등 복합적인 현실 변수들을 종합적으로 고려해야 한다. 이는 텍스트 정보만으로 완전히 판단하기 어렵다.

LLM은 이러한 현실 제약을 직접 경험하거나 검증하지 않는다. 단지 유사한 문맥에서 등장한 패턴을 바탕으로 그럴듯한 판단을 생성할 뿐이다. 이는 분석이라기보다 문장 기반 추정치에 가깝다. 이를 객관적 수치처럼 제시하는 순간 해석과 현실 사이의 간극이 발생한다.

타 후보 공약이나 과거 대선 공약과의 비교 역시 오류의 연장선이다. 기본적으로는 문장 간 유사도를 계산하는 방식이다. 코사인 유사도나 TF-IDF 같은 기법을 통해 단어 구성과 표현의 겹침 정도를 수치화하는 구조다. 하지만 이는 텍스트의 형태적 유사성을 측정하는 것이지, 정책의 맥락이나 정치적 의미를 이해하는 과정은 아니다. 결과적으로 비슷한 단어를 많이 쓰면 높은 점수가 나온다.

결국 검증은 사람이 해야 한다. 개혁신당 시스템의 핵심 문제는 기술의 적용 방식 이전에 '학습'이라는 개념 자체가 없다는 점이다. 특히 정치적 영역에서 AI는 평가나 판단의 주체를 대체할 수는 없다. 모든 이슈가 논쟁적이기 때문에 프롬프트로 고정하는 순간 왜곡이다. AI가 산출한 점수를 내미는 것은 유권자에 대한 모독이다.

☞코사인 유사도(Cosine Similarity) = 문장 두 개를 벡터로 바꿔 놓고 "각도가 얼마나 비슷하냐"만 보는 계산이다. 쉽게 말해 단어 구성이 겹치면 점수가 올라간다. 여기엔 맥락도, 의도도, 정책의 방향성도 없다. "복지 확대"와 "복지 축소"는 단어가 비슷하면 높은 점수가 나온다. 이걸로 공약을 비교한다는 건, 내용을 읽는 게 아니라 단어 그림자만 겹쳐보는 수준이다.

☞TF-IDF(Term Frequency – Inverse Document Frequency) = 문서에서 많이 나오지만 다른 데선 잘 안 나오는 단어에 점수를 더 주는 방식이다. 즉 "특이한 단어"를 잘 잡아낸다는 의미지, 중요한 정책을 골라낸다는 뜻은 아니다. 회의록에 특정 표현이 많이 반복되면 그게 중요한 정책처럼 떠오르지만 실제로는 그냥 자주 떠든 말일 뿐일 수 있다. 이런 걸로 공약을 뽑으면 결과는 뻔하다. 고민해서 만든 정책이 아닌 말 많이 나온 단어를 그럴듯하게 엮은 문장 묶음이 나온다.

여성경제신문 이상헌 기자
liberty@seoulmedia.co.kr

*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.

여성경제신문에서 직접 확인하세요. 해당 언론사로 이동합니다.

속보

[분석] 공부는 안 하고 '노가다'만···개혁신당 'AI 공약' 시스템