영상 속 물체 질량·속도 추론해 맞춤형 효과음 생성 AI 개발

대전CBS 인상준 기자 2026. 5. 26. 15:00
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

PAVAS 기술 개념도. KAIST 제공


한국과학기술원(KAIST)는 전산학부 오태현 교수 연구팀이 포스텍(POSTECH), 소니 AI 공동 연구진과 함께 영상 속 물리적 상황을 이해해 보다 현실감 있는 소리를 생성하는 인공지능(AI) 기술 '파바스(PAVAS)'를 개발했다고 26일 밝혔다.

이번 기술에는 영상 속 물체의 질량과 속도 등 눈에 보이지 않는 물리 정보를 AI가 스스로 추론하도록 설계됐다. 일반적인 영상에는 물체의 정확한 무게나 속도가 숫자로 제시되지 않지만, 연구팀은 AI가 주변 환경과 움직임의 맥락을 분석해 이를 추정하고, 그 결과를 소리 생성 과정에 반영하도록 했다.

연구팀의 AI는 물체 간 충돌이나 타격 등 물리적 상호작용이 발생하는 장면에서 실제 환경과 매우 유사한 소리를 생성했다. 특히 물체의 질량과 속도가 달라질 때 소리의 크기와 음색도 자연스럽게 변화하는 등 보다 현실감 있는 음향을 구현했다.

기존 상용 AI 모델들이 영상과 오디오를 함께 생성하는 데 집중했다면, 파바스는 영상 속 객체의 움직임과 충돌 특성을 분석해 장면과 정밀하게 맞아떨어지는 현실적인 효과음을 생성한다는 점에서 차별성을 갖는다.

연구팀은 이번 기술이 '물리적으로 일관된 생성 AI(Physical AI)' 분야의 새로운 가능성을 제시했다고 설명했다. 물리적으로 일관된 생성 AI는 단순히 그럴듯한 결과를 만드는 수준을 넘어, 현실 세계의 물리 법칙과 인과관계까지 이해하는 AI를 의미한다.

향후 이 기술은 콘텐츠 음향 제작 자동화는 물론, 증강현실(AR)·가상현실(VR) 콘텐츠, 메타버스, 로보틱스 시뮬레이션 등 다양한 분야에서 더욱 몰입감 있는 사용자 경험을 제공할 수 있을 것으로 기대된다.

오태현 교수는 "이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 있다"며 "향후 텍스트·영상·음성 등 다양한 정보를 동시에 이해하고 처리하는 차세대 멀티모달 AI의 핵심 기반 기술로 확장될 수 있을 것"이라고 말했다.

※CBS노컷뉴스는 여러분의 제보로 함께 세상을 바꿉니다. 각종 비리와 부당대우, 사건사고와 미담 등 모든 얘깃거리를 알려주세요.
  • 이메일 :jebo@cbs.co.kr
  • 카카오톡 :@노컷뉴스
  • 사이트 :https://url.kr/b71afn

대전CBS 인상준 기자 sky0705in@cbs.co.kr

진실은 노컷, 거짓은 칼컷

Copyright © 노컷뉴스. 무단전재 및 재배포 금지.