묵직한 공룡 발걸음 계산해 현실감↑…AI가 맞춤형 효과음 생성
관객들은 거대한 공룡이 걸어오는 영화 장면에서 땅이 울리는 묵직한 저주파 소리를 기대한다. 영상에서 움직이는 물체의 무게와 속도 등 물리적 특성을 고려해 맞춤형 효과음을 생성하는 인공지능(AI) 모델이 개발됐다.
KAIST는 오태현 전산학부 교수팀이 포스텍, 일본 소니AI와 함께 영상 속 물리적 상황을 분석해 현실감 있는 소리를 생성하는 AI 기술 '파바스(PAVAS)'를 개발했다고 26일 밝혔다. 연구결과는 컴퓨터 비전 분야 학술대회 'CVPR 2026' 상위 1% 이내 구두 발표 논문으로 채택돼 6월 6일 발표 예정이다.
구글의 '비오(Veo) 3', 바이트댄스의 '시댄스(Seedance) 2.0' 등 영상과 오디오를 동시에 생성하는 AI 기술이 발전하고 있다. 실제 제작 현장에서는 영상 생성 이후 효과음을 추가하거나 음향을 보완하는 후작업 수요가 큰 상황이다.
기존 영상 음향 생성 AI는 화면 속에서 사물의 형태나 장면의 정보에 의존해 효과음을 생성했다. 무게나 속도에 따른 물리적 특성까지는 충분히 반영하지 못했다. 왜 특정 소리가 발생해야 하는지에 대한 물리적 원인을 고려하지 않는다는 뜻이다.

연구팀은 AI가 주변 환경과 움직임 맥락을 분석해 물체의 무게나 속도를 추론하고 계산값을 소리 생성 과정에 반영하도록 한 파바스를 개발했다.
실험 결과 파바스는 물체 간 충돌이나 타격 등 물리적 상호작용이 발생하는 장면에서 실제 환경과 매우 유사한 소리를 생성했다. 물체의 질량과 속도가 달라질 때 소리의 크기와 음색이 자연스럽게 변화하며 현실감 있는 음향을 구현했다.
연구팀은 "현실 세계의 물리 법칙과 인과관계까지 이해하는 AI 분야의 새로운 가능성을 제시했다"며 "콘텐츠 음향 제작 자동화뿐 아니라 증강현실(AR)·가상현실(VR) 콘텐츠, 메타버스, 로보틱스 시뮬레이션 등 다양한 분야에서 더욱 몰입감 있는 사용자 경험을 제공할 수 있을 것"이라고 기대했다.
오 교수는 "기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해 왔다면 이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 있다"며 "향후 텍스트·영상·음성 등 다양한 정보를 동시에 이해하고 처리하는 차세대 멀티모달 AI의 핵심 기반 기술로 확장될 수 있을 것"이라고 밝혔다.
<참고 자료>
- (사전 공개 논문) arxiv.org/abs/2512.08282
- (프로젝트 웹사이트) physics-aware-video-to-audio-synthesis.github.io

[이병구 기자 2bottle9@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.