방언에 성조까지 분석···16개 언어 지원하는 '갤럭시 AI' 개발 과정은
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
삼성전자(005930)가 온디바이스 실시간 통·번역 기능을 제공하는 '갤럭시 인공지능(AI)'의 언어 모델 개발을 위해 전 세계 20여개 연구개발(R&D) 센터에서 연구 중이라고 25일 소개했다.
갤럭시 AI의 온디바이스 실시간 통·번역 기능은 현재 16개 언어를 지원한다.
삼성리서치 요르단 연구소(SRJO)는 아랍어 방언을 이해하면서 답변은 표준 아랍어로 할 수 있는 언어 모델을 개발했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
20여개 R&D센터에서 연구 총력
삼성전자(005930)가 온디바이스 실시간 통·번역 기능을 제공하는 ‘갤럭시 인공지능(AI)’의 언어 모델 개발을 위해 전 세계 20여개 연구개발(R&D) 센터에서 연구 중이라고 25일 소개했다.
갤럭시 AI의 온디바이스 실시간 통·번역 기능은 현재 16개 언어를 지원한다. 이에 더해 연내 스웨덴어, 네덜란드어, 루마니아어, 튀르키예어 등 4개 언어를 추가해 총 20개 언어를 지원할 계획이다.
삼성전자는 갤럭시 AI의 언어 모델이 언어의 특성·문법에 대한 정량 평가, 문화에 대한 지식·이해를 검증하는 정성 평가를 거친다. 일례로 20여개국 4억명 이상이 사용하는 아랍어의 경우 표준 아랍어인 풋스하(Fusha)와 일상생활에서 사용하는 방언인 암미야(Ammiyya)를 모두 학습해야 한다. 아랍어 방언은 30여 종에 달한다.
삼성리서치 요르단 연구소(SRJO)는 아랍어 방언을 이해하면서 답변은 표준 아랍어로 할 수 있는 언어 모델을 개발했다. 이를 위해 각기 다른 방언의 음성 녹음 데이터를 수집하고 텍스트로 변환하는 과정을 거쳤다.
전 세계 약 1억명이 사용하는 베트남어는 성조 체계를 면밀히 분석했다. 예를 들어 베트남어 단어 '마(Ma)'는 성조에 따라 엄마(Má), 무덤(Mả), 귀신(Ma) 등 전혀 다른 의미를 지닌다. 삼성리서치 베트남 연구소(SRV)는 성조의 미세한 차이를 인식할 수 있도록 음성 데이터를 매우 정교하게 다듬고 정제하는 과정을 거쳤다. 정확한 성조 구분을 위해 한 단어를 0.02초 전후의 짧은 프레임으로 잘라내고 이를 데이터베이스화 했다.
중남미 22개국의 공식 언어인 스페인어는 국가와 지역 별로 다른 단어의 특성 등을 반영했다.
2억 8000만명이 사용하는 인도네시아어를 갤럭시 AI로 개발할 때에는 인간의 뇌가 학습하는 과정과 유사한 ‘인공신경망번역(NMT)’ 방식을 사용했다. 인도네시아어는 관사·복수형·동사의 시제 변화가 없어 상대적으로 배우기 쉽지만 문장의 맥락을 충분히 파악하지 못하면 내용을 이해할 수 없기 때문이다. 삼성리서치 인도네시아 연구소(SRIN)는 단어가 아닌 ‘문장 단위’로 언어를 학습시켜 갤럭시 AI가 의사소통의 맥락과 규칙을 이해할 수 있도록 했다.
진동영 기자 jin@sedaily.comCopyright © 서울경제. 무단전재 및 재배포 금지.
- '성폭행범 두둔하는 도시인가' 혐오 확산에…밀양시, 사과문 발표한다
- 한동훈 '尹, 대단히 박력 있는 리더…성공한 대통령으로 남길 누구보다 바라'
- 소방당국, 화성 아리셀 공장 화재 현장서 실종자 수색 이틀째
- 'AI 거품론'에 엔비디아·슈퍼마이크로·퀄컴·ARM 급락
- ‘고환 은행’을 아시나요?…암 걸린 남자아이 고환 동결
- 화재 7% 감소 발표 이듬해 2% 증가…이름값 못하는 ‘범정부 대책’
- '450% 용적률 다 못 줍니다'…수그러든 신도시 장밋빛 재건축 전망
- 한동훈 '尹, 대단히 박력 있는 리더…성공한 대통령으로 남길 누구보다 바라'
- 백종원 VS 연돈볼카츠 가맹점 ‘매출 보장 공방전’…공정위서 판가름
- '김치 아무나 못먹는대…역대급 '金배추' 대란' '괴담' 돌더니 결국…