[한국어와 인공지능]⑥ 50개 언어 번역하는 시스트란, "언어쌍마다 다른 모델 적용"

2014년 5월 토종 번역 소프트웨어 업체 씨에스엘아이(CSLi)가 프랑스의 자동번역 솔루션 개발기업인 시스트란(SYSTRAN)을 550억원에 깜짝 인수하고 사명을 시스트란인터내셔널로 바꿨다.

1992년 설립된 CSLi는 번역 소프트웨어와 음성 통역 시스템을 만들었고 삼성전자 갤럭시S4와 갤럭시S5에 관련 소프트웨어를 납품한 적이 있다. 이 회사가 인수한 시스트란은 1968년 설립된 번역 프로그램 개발 회사로 구글에 번역 프로그램을 납품하기도 했다.

2014년 CSLi가 시스트란을 인수했을 때 ‘네이버가 구글을 인수한 격’이라는 평가가 나왔다. 시스트란인터내셔널은 CSLi 창업자인 루커스 지 회장이 최대주주다. 시스트란인터내셔널의 본사는 한국에 있지만, 최고기술책임자(CTO)는 프랑스에 있다.

이 회사는 11월 1일 인공신경망 기술 기반 기계 번역 엔진 ‘PNMT(Pure Neural Machine Translation)’를 한국 및 아시아 시장에서 정식 판매한다고 발표했다. 이에 앞서 지난 8월부터 프랑스 등 유럽 국가에서 PNMT를 판매해왔다.

회사 측은 “기존의 기계 번역이 구(句) 단위로 번역이 이뤄지지만, PNMT는 문장이나 문단 단위로 번역하고 문맥도 고려하기 때문에 매끄러운 번역이 가능하다”고 설명했다.

서울 서초구 양재동 본사에서 최창남 시스트란 대표를 최근 만나 시스트란의 통번역 시스템 구현 원리, 사업 계획, 한국어 기반 인공지능의 현재와 미래에 대해 들어봤다.

― 시스트란의 기계 번역 엔진을 설명해달라.

“과거 번역 엔진은 유사한 문장을 찾아주는 통계 기반 엔진과 문법과 구조에 맞춰 단어를 찾는 규칙 기반 엔진으로 나뉘었다. 최근엔 두 가지의 장점을 결합한 하이브리드 방식이 유행하고 있다.

시스트란의 번역엔진 원리. 밑에 문장은 통계 기반 번역 엔진으로 번역한 문장, 맨 위 문장은 딥러닝 기반 번역 엔진으로 번역한 문장/김민지 인턴 기자

시스트란은 여기서 한 단계 더 나아가 세계 최초로 딥러닝(인공 신경망에 기반을 둔 기계학습) 기반 번역 엔진을 내놓았다. 입력문장(번역해야 할 문장)과 출력문장(번역 완료된 문장)을 하나의 쌍으로 두고 가장 적합한 표현이나 번역 결과물을 딥러닝을 통해 찾아내는 방식이다.

기존 통계 기반 기계번역은 ‘구’ 단위로 번역했다면, 인공 신경망 기계번역은 ‘문장’ 단위로도 번역한다. 문장을 입력하면 기존에 입력된 데이터(특정 문장을 넣었을 때 특정 문장으로 해석된다는 수많은 공식들)에서 필요한 단어들을 끌어올리고 최적화된 가중치를 찾아 필요 단어를 배열해 번역문을 제공한다. 이때 가중치는 딥러닝을 통해 꾸준히 학습 돼 만들어진 것이다.”

― 또 다른 특징이 있나.

“시스트란의 언어개발도구(LDK·Language Development Kit)도 주목해 볼 필요가 있다. LDK는 각 국 언어에 맞는 법칙과 말뭉치를 기반으로 오류를 바로 잡게 만드는 솔루션이다. 문법적 오류나 오타를 바로 잡는, 번역 완료 문장을 도출하기 직전에 작동하는 전(前)처리 엔진이다.

이 도구에는 요약, 고유명사 인식, 언어 종류 분석, 감정 분석, 문법 오류와 카테고리 분석, 문장 구조 분석 기능이 포함돼 있다.

시스트란은 LDK를 개인 개발자나 벤처기업이 사용할 수 있도록 소스코드를 시스트란닷아이오(SYSTRAN.io)를 통해 공개하고 있다. 개발자들은 시스트란에 요청하면 응용 프로그램 인터페이스(API)를 가져다 쓸 수 있다. 시스트란을 중심으로 생태계를 만들기 위한 조치다.

다른 회사의 개발자들은 이를 통해 시스트란의 기술과 정보를 얻고 시스트란은 그들의 플랫폼 참여를 통해 부족한 인력을 대체하는 효과를 얻을 수 있다. 시스트란닷아이오를 통해 인공 신경망 개발자 사이에 강력한 네트워크를 형성하는 것이 우리의 목적이다.

시스트란은 기술을 경쟁사에 오픈소스로 제공한다고 해서 위협이 되지 않을 것이라는 자신감을 갖고 있다. 꼭 필요한 노하우와 핵심 기술은 비공개이기 때문이다.”

― 기계학습에 필요한 데이터로 무엇을 쓰나.

“시스트란이 자체 확보한 말뭉치(코퍼스·Corpus)와 언어별로 각국 전문 기관과의 협약을 통해 확보한 말뭉치를 쓴다. 말뭉치는 언어 데이터베이스로 컴퓨터가 자연어 처리하는 데 필수적인 요소이다.

문서를 디지털화해 사용된 모든 어휘를 문장, 어절, 형태소별로 추려낸 후 각각 특성을 부여해 말뭉치를 만든다. 문맥에 따라 의미도 부여한다. 동사의 다양한 활용형태도 말뭉치다. 말뭉치의 범위를 넓히면 이 양은 더 방대해진다. 같은 언어라도 고어, 방언까지 포함할 수 있기 때문이다.

한국어 말뭉치는 만드는 게 쉽지 않다. 방대한 양의 문서를 디지털화하고 문장, 어절, 형태소별로 추려낸 후 특성을 부여하는 태깅(꼬리표를 다는 작업)을 하는데 시간과 비용이 엄청나게 필요하다.”

― 구글 번역과 네이버 번역 등과 어떻게 다른가.

“각 언어의 특성을 연구하고 언어학적 전문성을 반영시킨 것이 구글과 다르다. 시스트란과 구글은 인공신경망의 구조(Network Architecture)가 다르다. 구글은 하나의 규칙을 기반으로 모든언어를 번역하지만, 시스트란은 언어마다 다른 규칙으로 번역한다.

시스트란의 PNMT는 중국어-영어, 영어-독일어 등 32개의 언어쌍을 지원한다. 12월엔 PNMT에 언어쌍 28개를 추가해 업그레이드 할 계획이다. 네이버랩스의 제품은 2가지 언어쌍(영어-중국어와 한국어-영어)만을 지원한다.

또 네이버랩스는 글자수 200자 이상이 될 경우 처리 속도가 느려지지만, PNMT는 긴 문장을 번역해도 빠르게 안정적인 번역이 가능하다. 무엇보다 시스트란의 자연어 처리(NLP)모델 경험치를 네이버가 따라올 수 없을 것이다.”

― 산업별 특화 번역 솔루션도 개발 중인 것으로 알고 있다.

“맞다. 그 점도 구글이나 마이크로소프트, 네이버 등과의 차별점이다. 시스트란은 각 산업 분야별로 특화된 번역 솔루션을 제공한다. 헬스케어, 법률관련 분야, 특허, 국방, IT 등 각 분야별로 쓰이는 언어는 조금씩 차이가 있다.

각 산업 분야에 따라 만들어진 말뭉치 역시 달라진다. 시스트란은 분야별 사전과 데이터를 바탕으로 각 분야에 맞는 최고의 번역 결과를 찾아준다. 시스트란이 LDK로 문장을 세밀하게 분석하고 인공지능을 통해 기계를 꾸준히 학습시킨 덕분이다. 시스트란의 번역 엔진은 사용하면 사용할 수록 정교해지고 똑똑해진다. 시스트란은 각 산업별 번역 솔루션 비즈니스를 할 계획이다.”

― 기계 번역 시장이 얼마나 성장할 것으로 보나.

“기계번역이 60% 이상의 번역률을 보여주면 여러 산업분야에서 수요가 늘어나게 될 것이다. 사용자의 기대 수준까지 올리는 투자를 진행해 다양한 산업영역에서 언어처리 인공지능을 받아들이는 순간이 오면 시장은 폭발적으로 확대될 것이다. 관광객이 쓰는 통번역 프로그램을 넘어서 다양한 앱이 나올 수 있을 것으로 본다. SYSTRAN.io를 운영하는 이유이기도 하다.”

― 시스트란은 중국 쑤앙창 시범 기지에 입주하는 등 해외 사업에도 신경 쓰고 있다.

“중국에서는 SYSTRAN.io의 API를 공개할 예정이다. 또 이 기술을 이용해 홈페이지 번역 서비스 ‘시스트란링크스(SYSTRANlinks)’를 출시할 계획이다. 일본 시장의 경우 일본NTT도코모와 조인트벤처(JV)를 설립해 공략에 나선다.

한글과컴퓨터와 함께 해외 시장에 나갈 준비도 착착 진행 중이다. 지난해 이 회사와 한컴인터프리라는 한작법인을 설립했고 내년에는 한컴의 글로벌 오피스 프로그램 ‘한컴 네오'에 시스트란의 다국어 번역 엔진 PNMT 기술을 적용할 예정이다.”

― 기계 번역 개발하면서 어려운 점은?

“한국어 기반 데이터를 확보하는 것이 어렵다. 데이터를 축적해 개량하고 보수해 나갈 엔지니어가 전반적으로 부족하다. 특히 인공지능 분야가 발전하면서 한국에서 자연어 처리하는 엔지니어를 찾기가 어려워졌다.

미국이나 유럽 등에서 연구하고 있는 한국인 유학생을 고용하려고 해도 국내에는 잘 들어오려 하지 않는다. 정부와 산업계가 협력해 생태계를 키울 필요가 있다.”

― 올해 매출은 얼마나 되나.

“2013년 CLSi와 프랑스 시스트란의 매출 합계는 353억원이었다. 2015년 시스트란의 매출은 280억원이었고, 올해는 개발에만 집중하느라 250억원 수준으로 떨어질 것으로 보인다. 딥러닝이 적용된 새 번역엔진 PNMT가 본격적으로 팔리는 내년엔 500억원까지 매출이 올라갈 것이다.”

조선비즈에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

[한국어와 인공지능]⑥ 50개 언어 번역하는 시스트란, "언어쌍마다 다른 모델 적용"