“쿵쿵∼공룡이 실제 걸어오는 듯”, AI로 장면에 딱 맞는 음향 생성

KAIST, 영상 속 물리적 특성 반영… 소리 생성 AI 개발
물체 질량·속도 등 추론해 장면 맞춤형 효과음 생성

영상 속 물체의 물리적 특성을 추론해 보다 현실감 있는 음향을 생성해 주는 AI 기술 ‘파바스’. 챗GPT가 그린 일러스트.

영상 속 사물의 무게, 크기, 움직임 등 눈에 보이지 않는 물리적 특성을 추론해 장면에 적합한 효과음을 생성하는 인공지능(AI) 기술이 개발됐다.

앞으로 증강현실(AR)·가상현실(VR) 콘텐츠, 메타버스, 로보틱스 시뮬레이션 등 다양한 분야에서 몰입감 있는 사용자 경험을 제공하는 데 쓰일 것으로 기대된다.

KAIST는 오태현 카이스트 전산학부 교수 연구팀이 포스텍, 소니 AI 등과 함께 영상 속 물리적 상황을 반영해 보다 현실감 있는 소리를 만드는 AI 기술 ‘파바스’(PAVAS)를 개발했다고 26일 밝혔다.

영상에서 소리를 생성하는 영상-음향 생성 AI 기술은 영화와 게임, 가상현실 등 다양한 콘텐츠 분야에서 빠르게 발전하고 있다.

하지만 기존 AI 기술은 주로 장면의 시각적 특징이나 패턴에 기반한 상관관계 학습에 의존해 실제 물리적 상황을 충분히 반영하지 못하는 한계가 있다. 더욱이 숫자로 제시되지 않은 비가시적 물리량을 추론하고 이를 음향 생성에 반영하는 것은 기술적으로 매우 어려운 고난도에 해당한다.

가령, 영화 ‘쥬라기 공원’에서 거대한 공룡이 걸어오는 장면을 보면 관객들은 땅이 울리는 듯한 묵직한 저주파음을 떠올린다. 이는 인간이 공룡 크기와 무게, 움직임 등 물리적 정보를 떠올리며 소리를 예측하기 때문이다.

물리적 특성을 반영한 파바스의 영상-음향 생성 개념도. KAIST 제공.

연구팀은 AI가 특정 장면 속 주변 환경과 물체 움직임 등의 맥락을 분석·추정한 결과를 소리 생성 과정에 반영하도록 설계했다.

‘왜 이런 소리가 발생하나’에 대한 물리적 원인까지 AI가 이해하도록 구현한 것이다.

기술 검증 결과, AI는 물체 간 충돌이나 타격 등 물리적 상호 작용이 발생하는 장면에서 실제 환경과 매우 비슷한 소리를 만들어 냈다.

특히 물체의 질량과 속도가 달라질 때 소리 크기와 음색도 자연스럽게 변화하는 등 보다 현실감 있는 음향도 구현했다.

기존 상용 AI 모델들이 영상과 오디오를 함께 생성하는 데 집중했다면, 파바스는 영상 속 객체의 움직임 등을 분석해 장면과 맞아떨어지는 효과음을 만들어 준다고 연구팀은 설명했다.

오태현 KAIST 교수는 “이번 연구는 AI가 물리량과 인과관계를 이해하도록 설계한 게 특징”이라며 “앞으로 텍스트, 영상, 음성 등 다양한 정보를 동시에 이해하고 처리하는 차세대 멀티모달 AI 기술로 확장될 수 있을 것”이라고 말했다.

연구 결과는 컴퓨터 비전 분야 학술대회 ‘컴퓨터 비전 및 패턴 인식 콘퍼런스(CVPR) 2026’에서 전체 논문 중 상위 1% 이내 선정된 ‘구두 발표 논문’으로 채택돼 다음달 6일 발표될 예정이다.

이준기 기자 bongchu@dt.co.kr

디지털타임스

IT/과학

“쿵쿵∼공룡이 실제 걸어오는 듯”, AI로 장면에 딱 맞는 음향 생성