3월부터 전국 초등학교에 깔리는 'AI 펭톡' 20년간 AI 연구 한우물 '빛 본다'
다음 달 전국 6000여 개 초등학교에 인공지능(AI) 영어 원어민 선생님이 투입된다. 교육부와 한국방송공사(EBS)가 기획하고 한국전자통신연구원(ETRI)이 주축이 돼 개발한 영어 말하기 연습 시스템 ‘AI 펭톡’이다. 초등학교 3~6학년 학생들이 활용할 수 있는 이 대화형 원어 교육 시스템은 학생과 여러 주제를 놓고 영어로 대화를 나눈다. 학생의 말을 정확히 인식하고 발음과 강세는 물론 표현까지 세부적으로 평가해 스스로 영어를 학습할 수 있도록 돕는다.
AI펭톡은 ETRI가 1990년대부터 개발해 온 음성인식과 자연어 대화처리 기술의 집약체다. 2010년 기술을 완성한 이후 기술 이전을 통해 국내 영어교육 시장 곳곳에서 이미 널리 활용하고 있다. 이미 상업화된 기술이 정해진 대답을 정확하게 발음하는지를 검증하는 수준이었다면 AI펭톡은 시나리오 없이 주제를 줘도 사람에 가깝게 자연스런 대화를 이어갈 수 있는 게 특징이다. 공교육에 대규모로 AI를 활용한 외국어 교육을 도입하는 것은 세계에서 처음이다.
● 학습에 도움 86%...세계가 주목
2일 대전 유성구 ETRI에서 만난 박전규 ETRI 인공지능연구소 복합지능연구실장은 “AI펭톡은 초등학생 2만 명 이상이 발음한 5000시간 분량의 영어 발음 데이터를 학습했다”며 “음성 높낮이가 성인과 다르고 발음 유창성도 성인보다 상대적으로 떨어지는 아이들의 영어 음성 인식률을 90%까지 높였다”고 말했다.
AI펭톡은 지난해 4월 전국 45개 초등 4학년 733명을 대상으로 1차 시범활용을 거쳐 나온 사용자 경험과 데이터를 학습해 한층 고도화됐다. 지난해 11월 2일부터 12월 7일까지 전국 186개 초등학고 3~6학년 3만 420명을 대상으로 진행한 2차 시범활용에서 학습에 도움이 된다는 응답은 86%로 높았다.
세계 최초로 공교육에 AI 외국어 교육이 도입되는 만큼 한국에서 진행되는 언어 AI의 활용 가능성에 전세계가 주목하고 있다. AI펭톡의 교육 경험은 올해 4월 유네스코에 보고서로 제출될 예정이다. 박 실장은 “2018년부터 유네스코가 관심을 보여 개발도상국에 AI를 이용한 외국어 교육을 공급하는 방안을 논의해 왔다”고 말했다.
국내 연구자들이 지난 20여년간 한국어 특화 AI를 앞세운 연구는 이미 존재감을 드러냈다. ETRI 연구진이 개발한 언어처리 AI '엑소브레인'이 대표적이다. 2018년 구글이 다국어 언어 AI ‘버트’를 발표하자 ETRI는 엑소브레인을 이용해 한국어 독해 성능을 버트보다 4.5% 높인 ‘코버트’를 공개하기도 했다. 평창 동계올림픽에서는 한국어를 7개 국어로 자동통역하는 서비스를 올림픽 사상 처음으로 공개하기도 했다.
● "언어 AI는 언어와는 무관...데이터와 알고리즘이 성능 좌우"
한국어에만 특화된 AI는 다른 외국어에 활용하기 어려울 것이라는 지적이 있다. 하지만 데이터의 특성에 제약을 받지 않는 AI 기술인 기계학습과 심층학습(딥러닝)이 보급되면서 언어 장벽이 점차 사라지고 있다. 김영길 ETRI 인공지능연구소 언어지능연구실장은 “언어 AI를 연구할 때 한국어 특성도 일부 필요하지만 딥러닝이 등장하면서 전반적으로는 언어 자체의 특성과 무관해졌다”며 “순수하게 알고리즘의 성능을 가지고 경쟁하는 것”이라고 말했다.
미국의 전기차 회사 테슬라 창업자 일론 머스크가 세운 ‘오픈AI’는 지난해 범용언어 AI인 ‘GPT-3’를 공개했다. 엄청난 양의 데이터를 학습하는 범용 AI는 특정 분야에 특화된 기존 언어 AI와 달리 대화, 질의응답, 번역, 프로그램 작성 등 다양한 작업을 모두 수행한다. GPT-3도 3000억 단어를 학습해 인간이 작성한 문장과 구분하기가 어려울 정도의 문장 작성능력을 보이며 충격을 줬다. 한국 연구자들 사이에서도 '한국형 GPT-3'를 만들어야 한다는 주장이 제기되고 있다.
하지만 한편에선 냉정히 따져봐야 한다는 견해도 있다. 우선 새로운 지식 데이터를 학습시키려면 기존에 학습한 데이터를 모두 새로 학습시켜야 한다는 단점이 있다. 엄청난 컴퓨팅 자원이 필요한 것도 개발을 주저하게 하는 이유다. GPT-3는 학습에 마이크로소프트의 중앙처리장치(CPU) 코어 28만 5000개와 그래픽처리장치(GPU)1만 개, 400기가비트의 네트워크를 사용했다. 현재 마이크로소프트가 독점 운영권을 갖고 있다.
전문가들은 당장 GPT-3 규모의 범용 AI를 구축하는 데 어려움이 있는 만큼 축적한 기술을 활용하면서 범국가 수준의 범용 AI를 구축해야 한다고 조언한다. AI펭톡도 처음에 쓰인 음성 데이터는 1500시간 분량이었지만 1차 시범활용을 거치며 데이터를 5000시간으로 늘려 성능을 빠르게 높였다. 올해 상반기에는 세종학당과 AI 기반 한국어 말하기 학습서비스를 실시해 외국인의 한국어 음성 대화를 수집할 예정이다. 민옥기 ETRI 인공지능연구소 지능정보연구본부장은 “수집한 언어 데이터는 GPT-3의 수십 분의 1 규모지만 모델을 최적화해 활용하며 학습을 통해 점차 데이터를 늘리는 자율 성장 방식도 가능하다”고 말했다.
김명준 ETRI 원장은 “언어 AI 연구를 꾸준히 진행해 온 결과 ETRI에만 AI 분야 과학기술인용색인(SCI)급 논문을 발표하거나 특허를 낸 연구자가 644명”이라며 “20년을 쌓아 온 언어 AI 연구가 이미 교육과 챗봇 등 다양한 분야에 활용되는 것처럼 한국형 범용 언어 AI도 장기간 축적한 기술 역량에서 탄생할 것”이라고 말했다.
[조승한 기자 shinjsh@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.