오지 언어도 우리말로 척척… SF 속 ‘만능 번역기’ 현실로
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
200개의 서로 다른 언어를 번역할 수 있는 인공지능(AI) 모델이 나왔다.
마르타 R 코스타 주사 메타 AI 연구팀 연구원은 "지금껏 온라인에서 거의 번역되지 않았던 언어를 사용하는 사람들이 인터넷 및 기타 기술에 접근하는 데 우리 기술이 도움이 될 것"이라며 "교육에 활용되길 바라며 여전히 오역이 발생할 수 있기 때문에 계속 기술을 발전시키겠다"고 했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
주류언어 모델로 소수언어 학습
인도 희귀어 등 200개 언어 구사
온라인 디지털 격차 해소 기대
200개의 서로 다른 언어를 번역할 수 있는 인공지능(AI) 모델이 나왔다. 소수 언어를 사용하고 있어 디지털 시대를 따라가지 못하는 이들이 겪는 디지털 격차를 줄이는 데 기여할 것으로 보인다.
페이스북의 모기업인 메타의 AI 연구팀은 온라인 다국어 번역 AI 도구인 ‘NLLB-200’을 개발하고 연구 결과를 6일(현지 시간) 국제학술지 ‘네이처’에 공개했다. NLLB는 ‘어떤 언어도 낙오되지 않는다(No Language Left Behind)’는 의미다.
인공신경망 학습을 기반으로 하는 번역 AI 모델은 학습하는 언어의 양이 많아질수록 해당 언어의 번역 품질이 좋아진다. AI 모델은 온라인 데이터를 학습에 활용한다. 언어 종류별로 학습에 활용할 수 있는 데이터양이 다르다. 데이터의 상당수가 영어, 프랑스어 등 주류 언어로 쓰여 있고 루간다어, 아스투리아어 같은 소수 언어는 찾기 힘들다. 한국어도 마찬가지다.
메타 AI 연구팀은 “기존 번역 도구 대부분은 소수 언어 번역 서비스를 제공하지 않거나 제공한다고 하더라도 번역의 정확도가 떨어졌다”면서 “누구나 언어가 달라도 온라인 게시물을 자유롭게 읽고 가상세계에서 만날 수 있게 하기 위해 이번 모델을 만들었다”고 밝혔다.
연구팀은 NLLB-200을 만들기 위해 ‘전이학습’을 이용했다. 전이학습은 한 작업에 대해 훈련된 모델을 유사한 작업을 수행하는 모델의 기초로 활용하는 AI 훈련법이다. 주류 언어를 많이 학습한 모델을 토대로 소수 언어를 학습시키는 방식으로 적용했다. 이때 문법 구조가 유사하거나 같은 문자를 쓰는 언어는 서로 언어 데이터 사이의 연관성을 높여 학습시켰고 문장 구조가 다른 언어는 연관성을 적게 만들어 학습시켜 번역 품질을 높였다.
소수 언어의 학습 데이터양을 늘리는 시도도 했다. 데이터 마이닝 도구 ‘레이저3(LASER-3)’를 이용해 알파벳 기반의 소수 언어 148개의 온라인 데이터, 비알파벳 기반의 소수 언어 1465개의 데이터를 마이닝하여 학습시켰다. 데이터 마이닝이란 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다. 연구팀이 개발한 NLLB-200을 평가한 결과도 공개했다. NLLB-200은 기계번역 성능을 평가하는 도구인 ‘BLEU 점수’가 기존 번역 모델에 비해 44% 높았다. 일부 아프리카와 인도 희귀 언어의 경우 최근 등장한 번역 모델에 비해 NLLB-200의 BLEU 점수가 70% 더 높은 것으로 나타났다.
AI를 연구하는 오세준 홍익대 수학교육과 교수는 이번 연구 결과에 대해 “메타 AI 연구팀이 언어별로 번역이 잘 이뤄졌는지 평가할 수 있는 도구 ‘플로레스-200(FLORES-200)’을 만든 점이 눈에 띈다”면서 “문맥을 잘 이해하고 번역했는지를 평가하는 도구로 플로레스-200을 이용해 번역 품질을 계속 높여갈 것으로 보인다”고 말했다.
마르타 R 코스타 주사 메타 AI 연구팀 연구원은 “지금껏 온라인에서 거의 번역되지 않았던 언어를 사용하는 사람들이 인터넷 및 기타 기술에 접근하는 데 우리 기술이 도움이 될 것”이라며 “교육에 활용되길 바라며 여전히 오역이 발생할 수 있기 때문에 계속 기술을 발전시키겠다”고 했다.
이채린 동아사이언스 기자 rini113@donga.com
Copyright © 동아일보. 무단전재 및 재배포 금지.
- “환자 지키겠다”던 서울의대 교수들 9일만에 “휴진” 왜 돌아섰나
- 9일부터 北 오물풍선 살포 가능성…軍 “대북확성기 즉각 설치”
- “바다를 사수하라” 한미일 사상 첫 합동 해상 수색구조 훈련…中 겨냥 결속 강화
- 한국, 싱가포르 7-0 완파…2026 북중미 월드컵 亞지역 3차예선 진출
- 日 “유네스코 자문기구, 사도광산 세계유산 보류”
- ‘싸움닭’ 이재명의 변신 뒤에는…‘정책 멘토’ 이한주,‘新명계’ 김민석
- 잠들기 위해 술을 마시거나 약국에서 수면제를 사서 먹어본 적이 있다
- 尹 “北, 비열한 도발까지 감행…결코 좌시 않을 것”
- 전용기 vs 천하람, ‘민생회복지원금’ 놓고 찬반 팽팽[중립기어]
- 스페이스X 우주선 4차 시험비행 성공적 마무리…머스크 “역사적 성취”