"공룡 발소리까지 재현"…카이스트, 물리법칙 이해하는 효과음 AI 개발

김성현 2026. 5. 26. 08:46
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오현빈 포항공과대학교 통합과정 연구원(왼쪽부터), 타키다 유타 소니 AI 연구원, 우에사카 토시미츠 소니 AI 연구원, 오태현 KAIST 전산학부 부교수, 미츠후지 유키 소니 AI 부사장 [사진=카이스트]

카이스트(KAIST)가 영상 속 물체의 질량·속도 등 물리적 특성을 스스로 추론해 현실감 있는 효과음을 생성하는 AI 기술을 개발했다.

카이스트는 전산학부 오태현 교수 연구팀이 포스텍, 소니 AI(Sony AI)와 공동으로 영상-음향 생성 AI '파바스(PAVAS)'를 개발했다고 26일 밝혔다.

기존 영상-음향 생성 AI는 화면 속 사물의 형태나 장면 정보에 주로 의존해 소리를 만들어냈다. 물체의 무게나 이동 속도에 따라 달라지는 음향 특성을 충분히 반영하지 못한 한계가 있었다. 파바스는 이를 극복하기 위해 AI가 영상 속 물체의 질량·속도 등 눈에 보이지 않는 물리 정보를 스스로 추론한 뒤 이를 음향 생성 과정에 반영하도록 설계됐다. 단순히 '무엇이 보이는지'를 인식하는 수준을 넘어 '왜 이런 소리가 발생해야 하는지'에 대한 물리적 인과관계까지 AI가 이해하는 방식이다.

검증 결과, 파바스는 물체 간 충돌·타격 장면에서 실제 환경과 유사한 소리를 생성했다. 특히 물체의 질량과 속도가 달라질 때 음량과 음색이 자연스럽게 변화하는 등 현실감 있는 음향 구현에 성공했다.

연구팀은 이 기술이 '물리적으로 일관된 생성 AI(피지컬 AI)' 분야의 새로운 가능성을 제시한다고 설명했다. 구글 '비오(Veo) 3', 바이트댄스 '시댄스 2.0' 등 기존 상용 AI 모델이 영상·오디오 동시 생성에 집중한 것과 달리, 파바스는 기존 영상에 장면과 정밀하게 맞아떨어지는 효과음을 추가하는 후반 작업에 특화됐다. 실제 영화·광고·게임 제작 현장에서 후반 음향 작업 수요가 신규 영상 생성보다 훨씬 크다는 점에서 실용성이 높다는 평가다.

향후 AR·VR 콘텐츠, 메타버스, 로보틱스 시뮬레이션 등에도 적용 가능하다.

오태현 교수는 "기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해 왔다면, 이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 있다"며 "차세대 멀티모달 AI의 핵심 기반 기술로 확장될 수 있을 것"이라고 말했다.

이번 연구는 세계 최고 권위 컴퓨터 비전 학술대회 'CVPR 2026'에서 전체 논문 상위 1% 이내에만 주어지는 오랄(Oral) 발표 논문으로 채택됐다. 발표는 오는 6월 6일 예정이다. 포스텍 오현빈 통합과정 학생이 제1저자로 참여했으며, 소니 AI 연구원들이 공동 저자로 이름을 올렸다.