[일상속문해력] ‘인공지능 말평’ 결과는

아이들이 말을 배우는 것을 보면 신기하다. 연필을 붙잡고 공부를 시킨 것도 아닌데, 꼬물꼬물한 입으로 ‘어마마, 빠빠’를 하더니 어느새 쉴 틈 없이 말을 쏟아내는 경지에 이른다. 그저 주변 사람들의 말을 듣고 따라 하면서, 자연스럽게 언어를 습득하는 모습은 참으로 놀랍다.

하루하루 말을 새롭게 배우는 아이들처럼 인공지능의 언어 실력도 향상되고 있다. 거대언어모델(Large Language Model·LLM)의 기술 발달로 인공지능이 배운 것이 많아지고, 스스로 학습하면서 말도 잘하게 된 것이다. 그렇다면 인공지능은 한국어를 얼마만큼 잘할까? 그 답을 알기 위해서는 인공지능에게 ‘읽기 시험’과 ‘쓰기 시험’을 보게 해야 한다.

넓은 의미에서 보면 문해력은 글을 읽고 쓰는 능력과 관련된 만큼, 인공지능의 문해력을 측정하기 위해서는 ‘이해 능력’과 ‘생성 능력’을 평가해야 한다. 그런데 그 평가가 쉽지 않다. 초등학생의 국어 문제와 대학 입시의 논술 문제가 다르고 수많은 국어 문제가 있는 것처럼, 인공지능의 말을 제대로 평가하기 위해서는 여러 시험 문제가 필요하다. 특히, 챗GPT와 같이 대규모 영어 데이터로 학습한 인공지능 언어모델 기술이 주도하는 환경에서 인공지능이 한국어를 얼마나 잘하는지를 살펴보려면 다양한 유형의 문제와 이를 확인할 수 있는 대규모 한국어 데이터가 필요하다.

그래서 국립국어원에서는 인공지능의 말을 평가할 수 있는 ‘인공지능(AI) 말평’이라는 ‘인공지능의 언어 능력 평가체계’를 구축하여, 인공지능이 볼 시험 문제를 열심히 만들고 있다. 올해에는 ‘감정 분석’과 ‘이야기 완성’이라는 두 개의 과제로 대회가 개최 중이다. 감정 분석 과제는 사람들이 어떤 감정으로 글을 썼는지 그 답을 알아맞히는 시험이다. 이 시험에서 높은 점수를 받은 인공지능일수록 사람의 감정을 이해하는 능력이 우수하다고 볼 수 있다.

다음으로 이야기 완성은 인공지능이 두 문장을 읽고, 앞뒤 문장 사이에 무슨 일이 있었는지 논리적으로 연결되는 새로운 문장을 생성하는 과제다. 생성 능력이 좋은 인공지능 언어모델은 챗봇, 자동 번역 등에 활용된다. 이 두 과제의 평가 결과가 11월 30일에 나온다고 하니, 올해의 인공지능 문해력 승자는 누구일지 기대된다.

이보라미 국립국어원 학예연구관

세계일보

사설칼럼

[일상속문해력] ‘인공지능 말평’ 결과는