구글 바드 “한글, AI 시대 경쟁력 있다… 문제는 데이터 양과 질”[한글시대 한글혁명]

■ 한글시대 한글혁명 - (上) ‘한국어 AI’ 경쟁력
“음소문자로 디지털화 쉽지만
텍스트 자료부족 해결 급선무”
구글 생성AI ‘바드’가 꼬집어
영어·중국어, 세계인터넷 지배
한국어 데이터는 0.6%에 불과
정부, 6년째 말뭉치 사업 지원
23억 어절 확보해 기업에 공개
전문가 “질적 자료도 담보해야”

구글의 생성형 인공지능(AI) ‘바드’(Bard)에게 ‘한글의 경쟁력을 평가해 달라’고 물었다. 바드는 3초가량 뜸을 들이더니 이런 답을 내놨다.

“한글은 AI 시대에 경쟁력 있는 문자라고 평가할 수 있습니다. 과학적이고 효율적인 문자 구조와 체계, 다양한 정보 표현 능력 등 AI 기술에 필요한 요소를 갖췄습니다. 다만, 자료 부족과 표준화 문제 등을 해결하려는 노력이 필요합니다.”

보다 구체적인 이유를 묻자 바드는 매끄러운 문장으로 “AI 시대에 가장 효율적인 언어는 자연어 처리(NLP)에 강한 언어”라면서 “한글은 음소문자로 음성학적 원리에 따라 소리를 표기하는 문자라 컴퓨터에서 처리하기 쉽고, 음성인식이나 NLP 등 AI 기술에 적용하기에 유리하다”고 답했다.

한글의 합리성과 과학성은 익히 알려진 만큼 AI 상용화 시대에 활용도가 높을 것이란 전망은 그리 놀랍지 않다. 대신 주목해야 할 지점은 바드가 꼬집은 ‘자료(데이터) 부족’이다. AI 대전환기, 한글 자료 부족이라는 장벽을 뛰어넘어야 한다는 문제를 제기했기 때문이다. 바드는 이와 관련해 “대규모 텍스트 데이터가 부족해 한글을 기반으로 한 AI 기술 개발에 어려움이 있다”고 했다.

한국어 텍스트 자료 부족은 AI 전문가들과 기업·서비스 개발자들의 오랜 과제다. 생성형 AI의 역량은 해당 언어·문자를 얼마나 정교하게 학습·분석하고 얼마큼의 데이터베이스를 구축했는지가 관건이기 때문이다. 챗GPT 출시 초기 한국어로 질문하면 부정확하거나 어색한 문장이 나열된 것도 결국 데이터가 부족한 게 원인이었다. 사용 인구가 7700만 명 안팎에 불과한 한국어는 전 세계 인구가 대부분 사용하는 영어나 자체 인구만 15억 명에 달하는 중국어 같은 지배적인 언어와 비교해 온라인 데이터 절대량 자체가 적다. 글로벌 인터넷상에서 한국어로 된 데이터는 0.6% 정도에 불과하고, 고급 지식으로 갈수록 더 찾기 어려운 게 현실이다. 자연스럽게 우수한 기술력을 가진 국내 기업들이 한국어 전용 거대언어모델(LLM)을 개발해도 학습량이 충분치 못하다 보니, 글로벌 빅테크 기업들과의 AI 경쟁에서도 밀릴 수밖에 없는 형국이다. 과학기술정보통신부의 지난해 ‘인공지능산업 실태조사’에서 AI 기업들이 투자 유치의 어려움이나, 국내 시장의 협소함 같은 문제보다 데이터 확보 문제를 사업 운영의 애로 사항으로 꼽은 이유다.

지난 3∼6일 서울 서초구 양재동 aT센터에서 열린 한글문화산업전시회에서 한글을 소재로 한 아이디어 상품이 소개됐다. 위 사진은 한글 자음을 끝부분에 끼운 수저 세트이며 아래 사진은 한글 ‘통’ 모양을 형상화한 연필꽂이의 모습. 연합뉴스

이에 AI를 미래 전략산업으로 꼽고 초격차 확보 전략을 강조하는 정부도 한국어 데이터 확보에 열을 올리고 있다. 정부는 문화체육관광부와 산하 기관인 국립국어원을 중심으로 한글의 산업화 지원 정책에 나서는 중이다. 컴퓨터가 읽을 수 있는 형태로 모아 놓은 총체적인 언어 자료인 말뭉치 구축 사업이 대표적이다. 2018년부터 지금까지 596억 원을 들여 56종, 23억 어절의 말뭉치를 확보해 공개 시스템인 ‘모두의 말뭉치’ 플랫폼을 통해 기업과 개인이 활용할 수 있도록 제공하고 있다. 자본력이나 투자 여력이 적은 중소 규모 사업자는 물론 대기업들도 이를 적극 활용하며 AI 서비스 고도화에 기여하고 있다는 평가다. 삼성전자가 상담 챗봇 서비스에 활용했고, SK텔레콤도 한국어 뉴스나 문서를 읽고 요약해 주는 AI 모델인 코바트를 모두의 말뭉치를 활용해 학습시켰다.

전문가와 기업들의 반응도 긍정적이다. 정부가 LLM 모델의 원재료가 되는 데이터를 확보해 제공하고 기업이 연구·개발(R&D)에 집중할 수 있는 환경을 만들어줘야 한다는 점에서다. AI NLP 전문가인 이연수 엔씨소프트 NLP센터장(상무)은 “AI가 파급력이 높긴 하지만 관련 사업을 벌일 때 수익을 내는 건 별개의 문제”라며 “데이터 확보에 들여야 하는 비용도 만만치 않고, 저작권 문제도 있는데 모두의 말뭉치는 국가에서 주도하는 프로젝트 중 AI 시장에 가장 유효했다고 본다”고 말했다. 김한샘 연세대 교수는 “영어나 중국어에 비해 절대적으로 부족한 한국어 데이터 확보까지 기업이 책임지면서 기술 개발을 병행하기가 어렵기 때문에 대기업 정도만 뛰어들 수밖에 없는 시장구조가 되는데, 이는 AI 산업 발전에 있어 바람직한 현상은 아니다”면서 “정부가 데이터를 지속적으로 쌓아 산업이 선순환할 수 있도록 해야 한다”고 말했다.

전문가들은 앞으론 양적인 데이터 구축에서 벗어나 정책적으로 질적인 데이터를 확보해야 한다고 강조했다. 김 교수는 “언어 데이터가 정제되지 않으면 AI도 편향된 답을 하고, 사람도 영향을 받을 수 있다”면서 “지금까지 AI 기술을 개발하는 집단들은 주로 양적인 언어를 쌓는 데 초점을 맞췄지만, 질적인 측면도 고려해야 한다”고 했다. 이 센터장은 “한글의 우수성과 관계없이 지식 사이즈가 작다는 태생적인 한계를 극복하기 위해 한글·한국어 데이터를 모으는 것도 중요하지만, 영어 데이터도 한국어로 잘 접근할 수 있도록 해야 한다”고 말했다.

■ 외국인 발음 교육부터 수어 번역까지… ‘한국어 AI’ 서비스 날개

‘한글문화산업전시회’ 32곳 참여
글씨교정 돕는 신기술도 눈길

“인공지능(AI)을 활용해 다문화 가정 학생들에게 한국어와 한글을 더 효과적으로 가르칠 수 있는 거죠. AI가 어색한 발음부터 억양을 잡아줄 수 있거든요. 제대로 된 보조 교사인 셈이죠.”

지난 4일 서울 서초구 aT센터에서 열린 ‘2023 한글문화산업전시회’에선 다문화 가족 청소년들과 외국인들이 눈에 띄었다. AI 에듀테크 기업인 한컴지니케이가 연 ‘AI 한국어 말하기 대회’ 참가자들로, 주어진 원고를 읽으면 AI가 학습자 음성의 일치도를 따져 평가해 우열을 가렸다. 거대언어모델(LLM)을 기반으로 한 생성 AI가 올바른 발음, 띄어쓰기, 속도 등 발화에 필요한 요소를 정확하게 잡아낼 수 있기 때문이다. 이오암 한컴지니케이 본부장은 “교육에 있어서도 AI로 학생과 교사 모두의 능률을 올릴 수 있게 됐다”면서 “해외에서 한국어를 배우려는 수요가 높아지는 상황에 효과적으로 대응할 수 있을 것”이라고 말했다.

이날 전시에선 32개 기업이 한글·한국어와 AI 기술을 결합한 서비스를 선보였다. 셀바스AI는 AI로 필기 인식을 하고 글씨 교정까지 돕는 ‘셀비 펜 가이드’를 전시했다. 디지털 펜으로 작성된 손 글씨의 필순과 글씨체를 평가해 교정해 주는 솔루션이다. 한컴지니케이의 AI 서비스가 한국어 말하기를 교정한다면, 셀비 펜은 제대로 된 한글 쓰기를 돕는 셈이다. 소셜벤처인 이큐포올은 딥러닝 및 자연어 처리(NLP)를 기반으로 수어 번역 아바타 솔루션을 내놨다. 한글 읽기에 서툰 청각장애인이라도 온라인상에 수어로 소통하는 아바타를 통해 한국어를 빠르게 이해할 수 있는 기술이다. 이인구 이큐포올 대표는 “수어는 한국어와 태생이 달라 번역 기술이 필요하다”면서 “AI 기술을 통해 장애인과 비장애인의 벽을 허물 수 있다는 점에서 의미가 있다”고 설명했다.

한국어·한글을 접목한 다양한 아이디어를 갖춘 AI 스타트업들이 수준 높은 서비스를 선보인 데는 제한 없는 데이터 활용이 뒷받침된 영향이 크다. 생성형 AI 학습의 기반이 되는 말뭉치 데이터를 정부로부터 제공받고 있어서다. 문화체육관광부 관계자는 “AI 고도화를 위해 데이터 확보가 중요하단 점에서 현장과 소통해 말뭉치 데이터를 구축하고 있다”며 “AI 산업이 활성화하면서 해외에선 데이터 저작권 문제도 대두되고 있는데 기업들이 원활하게 한국어를 기반으로 한 경쟁력 있는 기술을 개발할 수 있도록 공공 데이터를 확보하는 것이 중요하다”고 설명했다.

문화일보·문화체육관광부 공동기획

유승목 기자 mok@munhwa.com

이 기사에 대해 어떻게 생각하시나요?

문화일보에서 직접 확인하세요. 해당 언론사로 이동합니다.