수천만년 전 공룡 발자국 소리도 ‘정확히’ 알아낸다…AI 음향 생성 기술 개발

이정호 기자 2026. 5. 26. 15:29
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

KAIST·포스텍·소니AI, ‘파바스’ 공동 개발
질량·속도 고려해 현실성 높은 소리 생성
소리 생성 AI ‘파바스’ 개념도. KAIST 제공

인공지능(AI)을 이용해 화면 속 상황에 딱 들어맞는 소리를 생성하는 기술이 개발됐다. 공상과학(SF) 영화 속 공룡 모습을 분석해 몸무게와 걸음 속도를 계산하고, 이를 통해 지면에서 나타날 발자국 소리를 정확히 만들어내는 식이다. 영상 콘텐츠는 물론 증강현실(AR)과 가상현실(VR) 등을 구현할 때 현장감을 높일 방법이 될 것으로 보인다.

오태현 KAIST(카이스트) 전산학부 교수팀은 포스텍·소니AI 연구진과 함께 영상 속에서 나타나는 물리적 상황을 정확히 이해해 현실감 있는 소리를 만들어내는 AI 기술 ‘파바스’를 개발했다고 26일 밝혔다. 이번 연구 결과는 영상 기반 AI 분야의 세계적 학술대회인 ‘CVPR 2026’에서 상위 1% 우수 연구 결과로 선정돼 다음 달 6일 구두 발표 논문으로 공개된다.

파바스의 핵심은 화면에 나타나는 물체의 질량과 속도를 AI가 스스로 추론해 적절한 소리를 만들어내는 점이다. 예를 들어 공룡이 땅 위를 걷는 화면이 나타날 경우 이에 맞는 발자국 소리를 예측해 산출하는 것이다. 해당 동물의 몸무게와 발을 옮기는 속도 등을 고려해 적절한 소리를 뽑아낸다. 덩치가 크고 무거워 보이는 동물이 빠르게 걷는 소리와, 작고 가벼운 동물이 느리게 걷는 소리에서 분명한 차이점이 나타나게 된다.

지금도 소리를 만들어내는 상용 AI 제품은 있지만, 작동 방식이 파바스와는 크게 다르다. 기존 AI는 화면 속에 등장하는 사물이 무엇이냐에만 집중한다. 덩치가 큰 코끼리과 작은 코끼리가 특정 바위와 부딪치는 충돌음은 서로 다를 텐데도 코끼리만 등장했다 하면 비슷한 소리를 내놓는 식이다.

그런데 파바스는 화면 속 물체의 물리적 특성을 총체적으로 고려해 진짜 같은 소리를 만들어내는 것이다. 연구진은 “(파바스는) 현실 세계의 물리 법칙과 인과 관계를 이해한다는 뜻”이라고 밝혔다.

연구진은 파바스로 영화나 드라마에 등장하는 콘텐츠에 어울릴 소리를 자동 제작하는 것은 물론 AR과 VR, 각종 시뮬레이션에서 사용자의 몰입감을 높일 수 있을 것이라고 전망했다. 광고나 게임, 애니메이션에도 폭넓게 쓰일 수 있다. 연구진은 앞으로 질량과 속도뿐 아니라 재질, 마찰, 접촉 방식 등도 고려한 기술을 내놓을 예정이다.

오 교수는 “향후 텍스트·영상·음성 등 다양한 정보를 동시에 이해하고 처리하는 ‘차세대 멀티모달 AI’의 핵심 기반 기술로 확장될 수 있을 것”이라고 말했다.

이정호 기자 run@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.