“어머니는 짜장면이 싫다고 하셨어”…우리들은 다 아는 그 이유, AI는 알까

생성형AI 사용자, 한국어 평가 위해
‘짜장면 테스트’ 등 자체 평가 돌려봐
“기름진 음식 싫어해서” 엉뚱 답변도

“어려서부터 우리 집은 가난했었고, 남들 다하는 외식 몇 번 한 적이 없었고. (중략) 어머님은 짜장면이 싫다고 하셨어, 어머님은 짜장면이 싫다고 하셨어.”

어머니는 왜 짜장면이 싫다고 하셨을까. 가수 지오디(god)의 대표곡 ‘어머님께’를 아는 한국인이라면 누구나 대답할 수 있는 쉬운 질문이다.

다만 생성형 인공지능(AI)에게는 답변이 생각보다 쉽지 않다.

어려운 집안 형편에도 자식을 배불리 먹이기 위해 하얀 거짓말을 하신 어머니의 마음을 이해하기 위해서는 ‘짜장면이 싫다’는 말 뒤에 숨겨진 속내를 가사 행간을 읽고 추측해야 하기 때문이다.

어머니의 말이 반어법임을 이해하고, 그 속에 있는 희생의 정서를 읽어내야 한다. 표면적으로만 이해할 경우 AI는 ‘어머님이 다른 음식을 좋아하셔서’와 같은 오답을 뱉어버린다.

AI 사용자 사이에서는 이처럼 AI 모델에 ‘어머니는 왜 짜장면이 싫다고 하셨을까?’를 묻는 한국어 성능 테스트가 유행하고 있다. 일명 ‘짜장면 벤치마크’다.

벤치마크는 AI 모델의 성능을 평가하기 위해 다양한 문제를 주고 풀이 여부를 종합해 정량적으로 점수를 매기는 역할을 한다.

엄밀히 말하면 짜장면 벤치마크는 하나의 문제에 가깝지만, 모델이 얼마나 한국어를 잘 하는지를 시험해보기 위해 활발히 사용되고 있다.

김성훈 업스테이지 대표 또한 지난해 말 ‘독자 AI 파운데이션 모델’ 1차 발표회에서 자사의 솔라 모델을 소개하며 “어머니가 짜장면을 싫어하는 이유를 검색하면 한국의 정서를 반영해 자세하게 답변한다”며 짜장면 벤치마크를 통과한 것을 모델의 장점으로 소개하기도 했다.

반대로 한국 문화 이해가 부족하거나 맥락 기반 추론 능력이 떨어지는 모델은 ‘어머니 세대는 짜장면보다 전통 한식을 선호하는 경향이 있다’, ‘어머니가 기름진 음식을 싫어하셔서’와 같이 엉뚱한 답변을 내놓기도 한다. 근거 없이 내용을 추측하려다가 환각이 발생한 것이다.

한편 구글의 제미나이 3나 오픈AI의 GPT-5 시리즈 등 해외 언어 모델들도 이제는 성능이 상향 평준화되면서, 이 같은 질문에 “집이 가난해 비상금을 털어 겨우 한 그릇을 시킬 정도의 형편이었고, 자식이 배불리 먹게 하기 위해 어머니는 자신의 배고픔을 참고 선의의 거짓말을 한 것”이라는 모범 답안을 내놓고 있다.

다양한 성능 평가 벤치마크 존재하지만
문제 풀이 넘어 일머리 좋은 AI 분별 어려워
사회·제도 맥락 평가하는 데이터 중요해져

평가 유형에 따른 국내외 벤치마크 비교 표 [출처 = 한국지능정보사회진흥원]

벤치마크 중에는 전문지식 문제로 구성된 벤치마크, 수학과 과학 문제로 이뤄진 벤치마크 등 다양한 형식이 존재한다.

국내에도 인문학부터 과학·기술·공학·수학(STEM)을 포함해 45개 과목의 질문으로 구성된 ‘KMMLU’라는 한국어 벤치마크 등이 있다.

그럼에도 짜장면 벤치마크 같은 테스트가 유행하는 데에는 벤치마크가 모델의 실제 성능을 정확히 담아내지 못하기 때문이다.

KMMLU와 같은 벤치마크에서는 준수한 점수를 기록했으나, 실사용에서는 한국어 특성을 제대로 반영하지 못하는 경우가 발생하는 것이다.

어떤 사람이 대학수학능력시험에서 고득점을 기록했다고 해서 현실의 문제 풀이에도 탁월하다고 보기 어려운 것과 마찬가지다.

짜장면과 비슷한 테스트 중 하나로 ‘괭 테스트’가 있다. 짜장면 테스트는 통과한 모델도 여전히 어려움을 겪는 것이 괭 테스트다.

‘괭’이라는 글자의 구성 성분을 설명해 달라고 AI에 질문한 뒤, ‘ㄱ+ㅙ+ㅇ’으로 구성된 초성·중성·종성을 잘 분리해 내는지 파악하는 것이다. 한글이 어떻게 조합되는지 원리를 이해해야 풀어낼 수 있다.

이제는 AI 모델의 기본적인 지식 평가나 문제 풀이 성능이 상향 평준화된 만큼, 국내에서는 한국 사회의 문화적 맥락과 가치 판단을 반영할 수 있는 벤치마크가 필요해졌다는 분석도 나온다.

일부 재미 요소로 소비되는 짜장면 벤치마크의 등장 또한 이 같은 한국 문화 이해 기반의 모델을 가려내려는 노력에서 출발한 셈이다.

한국지능정보사회진흥원(NIA)은 최근 보고서를 통해 “한국 거대언어모델(LLM)의 목표는 단순 한국어 문장 생성을 넘어 한국의 행정 절차, 법과 제도, 사회적 관행, 역사적 맥락 이해 등 한국 사회에 대해 한국인 수준으로 이해하고 판단할 수 있는 능력을 확보하는 것”이라며 “실제 활용 맥락을 반영한 특화 벤치마크 데이터셋을 정립해야 한다”고 제언했다.

매일경제

IT/과학

“어머니는 짜장면이 싫다고 하셨어”…우리들은 다 아는 그 이유, AI는 알까