AI, 직접 만든 영상에 소리까지 자연스럽게 입혀준다

KAIST·포스텍·소니 공동개발
AI가 영상 속 상황 이해하고
적당한 소리까지 자동으로 생성

영상 속 티라노사우르스가 성큼성큼 다가온다. 공룡이 걸음을 내딛을 때마다 ‘쿵’ 소리가 울려퍼진다. 땅이 떨리는 소리, 흙먼지가 날리는 소리, 주변 나뭇잎이 떨리는 소리까지 모두 생생하다. 영상은 물론 소리까지도 모두 인공지능(AI)이 직접 만들었다.

AI로 영상을 만드는 기술이 한 단계 더 진화했다. 지금까지는 영상 자체에만 집중했다면, 앞으로는 영상에 맞는 음향 효과까지 AI가 자동으로 입혀준다.

오태현 KAIST 전산학부 교수는 영상 속 상황을 이해하고, 현실감 있는 소리를 생성하는 AI 기술 ‘파바스(PAVAS)’를 개발했다고 26일 밝혔다. KAIST와 포스텍, 소니 AI 연구진이 공동으로 개발한 성과다.

AI가 단편영화를 만들 정도로 영상 생성 기술이 발전했지만, 지금까지 효과음은 별도의 영역이었다. 제작진은 영상에 맞는 효과음을 따로 제작해 입히는 방식으로 영상을 완성했다. 소리를 만들어주는 AI도 있지만, 사람이 영상 상황에 맞는 소리를 따로 만들어야 했다.

이번에 개발된 AI는 영상 속 물체의 질량과 속도 등 눈에 보이지 않는 물리 정보를 스스로 추론해 소리를 만든다. AI가 직접 주변 환경과 움직임을 분석해 상황에 맞는 소리를 만들어준다.

예를 들어, 운석이 떨어지는 영상이 있다면 AI가 장면 속 상황을 이해하고 실제 운석이 떨어지는 것 같은 소리를 만들어낸다. 연구진은 영상 속 물리량을 추정하고 적합한 음향을 생성할 수 있도록 AI를 설계했다.

이는 AI가 물리적 상황을 이해하고 소리의 원인까지 분석할 수 있다는 의미다. 기술 검증 결과, 물체끼리 충돌하는 등의 물리적 상호작용이 발생해쓸 때 AI는 실제와 유사한 소리를 생성했다. 물체의 질량과 속도가 달라지면 AI는 소리의 크기와 음색도 자연스럽게 바꿨다.

구글의 ‘비오3’, 바이트댄스의 ‘시댄스 2.0’ 같은 기존의 영상 생성 AI는 자연스러운 영상을 만들더라도 추후 음향 보완 작업이 필수였다. 파바스를 활용하면 음향 보정까지 영상 작업의 전 과정을 AI에 전적으로 맡길 수 있게 된다.

기존 AI는 상황과 소리의 상관관계를 대규모로 학습하고 적당한 소리를 입히는 수준에 그쳤다면, 파바스는 타당한 소리를 직접 추론하고 만든다.

연구진은 이번 기술이 ‘물리적으로 일관된 생성 AI’의 가능성을 제시했다고 설명했다. 오 교수는 “기존 AI가 데이터와 모델 규모를 키우는 방식으로 발전했다면, 이번 AI는 물리량과 인과관계를 직접 이해한다는 게 차별점”이라고 했다.

이번 연구 성과는 컴퓨터 비전 분야 세계 최고 학회인 ‘CVPR 2026’의 상위 1% 논문으로 인정받아, 오는 6월 6일 학회에서 구두 발표가 진행될 예정이다.

매일경제