구글, 70개 언어 실시간 통역 ‘제미나이 3.5 라이브 트랜슬레이트’ 출시

원호섭 기자(wonc@mk.co.kr) 2026. 6. 10. 13:27
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

말 끝까지 기다리지 않고 번역
70개 이상 언어 자동으로 인식
화자 억양·속도·감정 반영한 음성
제미나이 3.5 라이브 트랜슬레이트
구글이 사람의 말을 거의 실시간으로 통역하는 차세대 음성 번역 인공지능(AI) 모델 ‘제미나이 3.5 라이브 트랜슬레이트(Gemini 3.5 Live Translate)’를 공개했다. 기존 번역 서비스가 화자의 발언이 끝난 뒤 번역하는 방식이었다면, 새 모델은 말을 듣는 동시에 번역 음성을 생성해 실제 통역사에 가까운 자연스러운 대화를 구현한 것이 특징이다.

구글은 9일(현지시간) 제미나이 3.5 라이브 트랜슬레이트를 공개하고 구글 번역, 구글 미트, 제미나이 라이브 API 등에 순차 적용한다고 밝혔다.

이번 모델은 70개 이상 언어를 자동으로 인식할 수 있다. 사용자가 사전에 언어를 설정할 필요 없이 대화를 듣고 언어를 판별해 번역한다. 여러 언어가 섞여 있는 환경에서도 작동한다.

가장 큰 변화는 번역 방식이다. 기존 실시간 번역 시스템은 한 사람이 말을 마칠 때까지 기다린 뒤 번역 결과를 내놓는 구조였다. 이 때문에 대화 흐름이 자주 끊기고 어색한 침묵이 발생했다.

반면 제미나이 3.5 라이브 트랜슬레이트는 음성이 입력되는 즉시 번역을 시작한다. 번역 품질을 높이기 위해 문맥을 일부 기다리면서도 최대한 빠르게 결과를 생성하는 균형을 AI가 스스로 판단한다. 구글은 “발화자보다 몇 초 정도만 뒤처진 상태로 자연스럽게 통역이 이어진다”고 설명했다.

단순히 단어를 바꾸는 수준도 아니다. 화자의 억양과 말하는 속도, 음 높이, 감정 표현까지 최대한 유지해 번역 음성을 생성한다. 기계가 읽는 듯한 단조로운 음성이 아니라 원래 화자의 말투를 반영한 자연스러운 음성 번역을 목표로 했다.

실제 활용 범위도 넓다. 구글은 다국어 회의, 국제 전화, 수업, 방송, 고객 상담, 관광 가이드, 차량 호출 서비스 등 다양한 환경에서 활용할 수 있다고 설명했다. 특히 소음이 많은 장소나 여러 사람이 동시에 말하는 상황에서도 동작할 수 있도록 설계됐다.

구글의 동남아시아 플랫폼 기업 그랩은 이미 해당 기술을 시험 중이다. 그랩은 운전자와 승객 간 다국어 통화를 실시간에 가깝게 번역하는 기능을 테스트하고 있다. 그랩 이용자들은 매달 1000만건 이상 음성 통화를 이용한다. 구글은 기업용 화상회의 서비스인 구글 미트에도 해당 기술을 적용한다. 지금까지는 5개 언어만 지원했지만 앞으로는 70개 이상 언어를 지원한다. 영어를 중심으로 번역하던 기존 방식에서 벗어나 하나의 회의에서 2000개 이상 언어 조합 간 통역이 가능해진다.

기업고객 대상 비공개 시험 서비스는 이달부터 시작되며 연내 일반 기업고객으로 확대될 예정이다.

일반 소비자는 이날부터 안드로이드와 iOS용 구글 번역 앱에서 이용할 수 있다. 이어폰을 연결하면 상대방 말을 실시간으로 번역해 들을 수 있다. 안드로이드에는 새로 추가된 ‘리스닝 모드’도 제공된다. 사용자가 전화 통화하듯 스마트폰을 귀에 대면 번역 음성을 이어폰 없이도 들을 수 있다.

구글은 “20년 전 기계번역 실험으로 시작한 기술이 이제 매달 수조 개 단어를 번역하는 서비스로 성장했다”며 “언어장벽 없이 자연스럽게 대화할 수 있는 미래에 한 걸음 더 다가섰다”고 밝혔다.

[실리콘밸리 원호섭 특파원]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지