"옛날에 백조 한 마리가 살았다" 구글 번역기 돌려보니..'알파고'는 이세돌도 이기는데, 구글 한글 번역은 왜 부실할까
구글의 인공지능(AI) 프로그램 ‘알파고(AlphaGo)’는 지난 3월 이세돌 9단에 완승을 하면서 한국 사회에 큰 충격을 안겼다. 인간 두뇌가 머지않아 인공지능에 자리를 내줄 것이라는 우려가 현실로 다가온 순간이었다. 국내외 전문가들과 언론은 알파고라는 첨단 기계를 만든 구글의 혁신을 높이 평가했다.
구글은 알파고 외에도 자사의 기계학습(머신러닝) 알고리즘(algorithm·일정한 원칙에 따라 정보를 처리하는 기술)을 번역기에도 적용하고 있다. 그러나 ‘구글 번역기’는 알파고의 성취가 무색할 정도로 완성도가 떨어져 국내외 사용자들의 비판을 받고 있다. 경우의 수가 우주 원자 수보다 많다는 바둑에서 세계 최고수(最高手)를 꺾는 구글의 시스템이 비교적 간단해 보이는 번역 영역에서는 인간보다 못한 이유가 무엇일까?
구글 번역기에서 한국어를 영어로 번역하거나 영어를 한국어로 문장을 번역하면 개별 단어를 직역해 어설프게 엮어놓은 결과를 얻을 때가 많다. 의미 전달은 가능한 수준의 번역이지만, 개별 문장의 흐름이 매끄럽지 못하거나 오역한 단어를 동반한다. 예를 들어 ‘밤(栗)을 먹었다’에서 원래 의미인 ‘밤(chestnut)’을 ‘밤(night)’으로 인식해 ‘I ate the night’로 번역하는 식이다. 반대로 ‘I could not save my wife(나는 아내를 구할 수 없었다)’는 ‘나는 나의 아내를 저장할 수 없었다’라고 오역한다.

구글은 알파고와 구글 번역에 사용하는 머신러닝 알고리즘에 차이가 있다고 설명한다. 알파고는 인간의 뇌를 표방한 최첨단 방식으로 경우의 수를 줄여나가면서 최선의 수를 찾는 방식이지만, 번역기는 특정 문구가 번역된 수백만 개의 사례 중 가장 비슷한 번역 패턴을 찾아내는 식이다. 그런데 한국어의 경우 번역된 자료 수가 턱없이 부족해 엉성한 번역이 나오는 것이다.
알파고는 머신러닝 중에서도 기계가 스스로 학습하는 ‘딥러닝(deep learning)’을 사용한다. 데이비드 실버(David Silver) 구글 딥마인드 리서치 담당 과학자는 “바둑은 경우의 수가 너무 많아 전통적으로 해 온 것처럼 모든 가능한 수에 대해 탐색하는 방식의 인공지능으로 바둑을 배울 수 없었다”면서 “경우의 수를 얼마나 효과적으로 줄이느냐가 알파고 알고리즘의 핵심”이라고 말했다.
딥마인드는 이 문제를 해결하기 위해 수백 층의 신경망으로 구성된 인간의 뇌를 표방한 ‘심층 신경망(deep neural network)’ 방식을 도입했다. 심층 신경망은 ‘정책망(policy network)’과 ‘가치망(value network)’ 2개로 구성된다. 정책망이 다음 돌을 놓을 수를 찾아내고, 가치망이 각 수에 대한 승률을 예측해, 컴퓨터가 처리해야 할 경우의 수를 획기적으로 줄였다.
구글 번역 알고리즘은 알파고처럼 고도화된 심층 신경망을 활용하지 않는다. 구글 번역은 인터넷상에 올라온 수많은 문서를 학습하는데, 기존에 사람들이 각 나라 언어로 번역해놓은 수억개의 자료를 토대로 언어를 2개씩 짝을 지어 분류한다.
이후 통계적 학습 기법(statistical machine translation)을 이용해 번역 모델을 구축한다. 구글 번역에 특정 문구를 입력하면 구글은 그 문구가 번역된 수백만개의 사례를 분석해 기존 자료 내에서 가장 유사한 번역 패턴(유형)을 찾아낸다. 이 유형을 적용해 가장 적절한 번역 문구를 보여주는 것이다.
이 방식은 사람이 직접 번역한 고품질 자료가 많을수록 번역이 정확해지고, 적을수록 번역의 질이 떨어진다. ‘밤’이라는 단어를 ‘night’로 번역한 사례는 많은데 ‘chestnut’은 적으면, 해당 단어를 정확하게 인식 못 하는 식이다. 번역 과정에서 사람의 개입은 없지만, 사람의 도움 없이는 사실상 번역이 어려운 셈이다.
구글 관계자는 “한국어-영어 번역 자료는 전체 번역 자료의 1%도 안 될 정도로 자료가 부족해 번역의 완성도가 떨어진다”며 “반면 한국어-일본어, 영어-프랑스어 등 고품질 번역 자료가 많은 쌍은 번역이 상대적으로 매끄럽다”고 설명했다. 이어 “영어와 한국어의 어순(語順)이 다르다는 점도 번역을 어렵게 하는 요인”이라고 덧붙였다.
제프 딘 구글 선임연구원은 “번역에도 심층 신경망을 도입하는 방안을 논의하고 있으며, 신경망 기술이 번역에 적용되면 한국어를 포함한 번역의 질이 높아질 것”이라고 말했다.
- Copyrights ⓒ 조선일보 & chosun.com, 무단 전재 및 재배포 금지 -
Copyright © 조선일보. 무단전재 및 재배포 금지.
- 배현진, ‘당심 70%’ 경선 규칙 “서울 당협 대부분 반대”
- ”1인당 GDP, 한국과 격차 더 벌어졌다” 충격받은 일본
- 큰 나무가 쓰러진 자리마다 작은 나무가 뿌리를 내렸다
- “한국분들 친부모로 생각하고 품속으로…” 우크라 北포로가 쓴 친필편지
- 조지호 “계엄 해제 직후 尹, ‘덕분에 빨리 끝났다’ 말해”…법정서 증언
- 한동훈 “‘필리버스터’ 장동혁 노고 많았다...함께 싸워야 할 때”
- 전호준 “전연인 폭행 의혹 벗었다, 난 피해자”
- 통일교, 전재수에 시계 사줬나… 경찰, 불가리코리아 압수수색
- 호전성 때문? 이탈리아 국가서 ‘Si(그래)!’ 삭제… 國歌 수정하는 나라들
- 정부 “日 오염수 방류 인근 바다서 삼중수소 6회 검출… 기준치의 37분의 1 수준”