돌고래 소리, AI는 무슨 뜻인지 안다…구글 AI 모델 '돌핀젬마' 개발

(사진=구글)

언어를 해독하는 구글 번역기처럼, 돌고래의 언어를 해독하는 인공지능(AI) 번역기가 개발됐다. 돌고래와 인간의 의사소통이 가능해질 전망이다.

구글은 15일(현지시간) 공식 블로그를 통해 돌고래의 발성 구조를 학습해 특유의 소리를 해독하는 인공지능(AI) 모델 '돌핀젬마(DolphinGemma)'를 개발했다고 발표했다.

돌핀젬마는 구글과 조지아 공대 연구진, 야생 돌고래 프로젝트(WDP) 현장 연구팀이 함께 개발한 모델이다. WDP는 1985년부터 수중 돌고래 연구 프로젝트를 수행해오고 있다.

수십 년간 수집한 수중 영상 및 오디오 데이터를 보유하고 있다.

돌고래는 개별 단어로 구성된 문장으로 의사소통을 하며, 여기에는 복잡한 패턴이 존재한다고 알려져 있다. 돌고래 소리의 의미를 파악하기 위해선 자연스러운 소리 시퀀스 내의 구조와 잠재적 의미를 이해하고, 언어를 나타낼 수 있는 패턴과 규칙을 찾아내는 것이 중요하다.

이를 위해 구글은 WDP의 방대한 데이터셋을 활용했다. 돌고래와 해양 포유류의 음성 통신의 음향 신호인 버스트 펄스 소리를 비롯, 어미 돌고래와 재결합할 때 나오는 휘파람, 먹이를 찾을 때 활용하는 '클릭 버즈' 등의 데이터가 포함된다.

이렇게 개발된 돌핀젬마는 구글의 AI 모델 젬마를 기반으로 구축됐다. 약 4억 개의 매개변수를 보유한 이 모델은 구글 '픽셀폰'으로 실행되도록 설계됐다. 돌핀젬마는 오디오 입력·출력 모델로 작동하며, 자연스러운 돌고래 소리 시퀀스를 처리해 패턴과 구조를 파악한다.

돌고래 소리를 스펙트로그램으로 시각화한 이미지. (사진=구글)

이는 인간 언어에 대한 대규모언어모델(LLM)이 문장의 다음 단어나 토큰을 예측하는 방식과 유사하다. 돌핀젬마는 돌고래 소리의 패턴을 추론할 수 있다.

이에 궁극적으로 돌고래가 좋아하는 물체를 지칭하기 위해 만든 합성음과 함께 이러한 패턴을 강화하면, 돌고래와 상호 작용할 수 있는 공통 어휘를 형성할 수 있을 것으로 예상된다.

돌고래와 소통하기 위해선 일명 챗(CHAT)이라는 시스템을 활용해야 한다. 챗은 돌고래 소리를 직접 해독하는 것이 아닌 인간과 돌고래의 소통을 위해 더 단순한 어휘를 구축하도록 설계된 수중 컴퓨터다.

돌고래의 소리에 대한 이해가 더 깊어질수록 이러한 소리 또한 시스템에 추가될 수 있다. WDP 연구진은 돌핀젬마를 통해 돌고래 소리에서 추출한 패턴과 단어 의미를 더욱 정교하게 처리할 수 있을 것으로 보고 있다.

챗 시스템 하드웨어 내부의 구글 픽셀폰이 탑재돼 있다. (사진=구글)

더불어 픽셀폰을 사용하면 맞춤형 하드웨어의 필요성이 획기적으로 줄어들고, 시스템 유지 관리가 용이해지며, 전력 소비가 감소하고, 기기의 비용과 크기가 작아질 것으로 예상된다.

연구진은 올여름부터 돌핀젬마를 오픈소스로 공유할 계획이다. 더불어 다른 고래류 소통 연구에도 AI 모델과 픽셀폰 등을 활용할 방침이다.

구글 측은 "돌고래 의사소통을 이해하기 위한 여정은 길지만, WDP의 헌신적인 현장 연구, 조지아 공대의 엔지니어링 전문 지식, 그리고 구글의 기술력이 결합되어 흥미로운 새로운 가능성을 열어가고 있다"라고 했다.

AI포스트(AIPOST) 진광성 기자

■ 보도자료 및 광고, 비즈니스 협업 문의 aipostkorea@naver.com

Copyright © AI포스트(AIPOST)