사진과 목소리만 있으면 “이게 된다”…‘나의 아바타’ 만들어볼까
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
싱가포르 난양공대 연구진이 인공지능(AI) 기술을 이용, 오디오 클립과 얼굴 사진만 있으면 대화하는 사람의 표정과 머리 움직임이 반영된 사실적인 영상을 만드는 프로그램을 개발했다.
쉬지안 루 난양공대 컴퓨터공학과 교수 연구진은 6000명 이상의 사람이 만든 100만 개 이상의 시청각 비디오 클립을 기반으로 현실적인 3D 기반의 영상을 제작하는 AI를 개발했다고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
음성+사진=>영상 AI 개발
자연스런 움직임, 표정 구현
AI 비서, 헬스케어 산업 활용 기대

쉬지안 루 난양공대 컴퓨터공학과 교수 연구진은 6000명 이상의 사람이 만든 100만 개 이상의 시청각 비디오 클립을 기반으로 현실적인 3D 기반의 영상을 제작하는 AI를 개발했다고 밝혔다. 연구 결과는 학술지 ‘패턴 인식’ 11월호에 게재됐다.
연구진의 성과는 간단하다. 예를 들어 “모두 새해 복 많이 받아(Happy New Year Everybody)”라는 음성 클립과 사람 얼굴 사진만 있으면 이를 결합, 사진 속에 있는 얼굴이 “모두 새해 복 많이 받아”라는 말을 자연스럽게 하는 영상을 만들어 준다. 이전 기술과 달라진 점을 꼽자면 오디오 클립이 의미하는 특징을 파악해 자연스럽게 고개를 움직이면서 얼굴에 드러나는 감정까지 조절할 수 있다는 점이다. 앞서 언급한 “새해 복 많이 받아”라는 말은 일반적으로 좋은 감정의 표현인 만큼, 이를 재현한 영상 속 인물은 밝은 모습으로 이 말을 재생한다.
연구진은 이러한 기술이 현실적인 가상 비서, 챗봇을 가능케 하는 만큼 다양한 산업에 응용될 수 있을 것으로 기대하고 있다. 또한 언어 장애, 안면 장애가 있는 사람이 아바타를 이용해 자기 생각과 감정을 전달할 수 있도록 돕는 의사소통 기구로도 활용될 수 있다.
루 교수는 “오디오 녹음과 정적인 이미지만을 사용해 만들어진 영상은 정확한 입술 움직임, 생생한 표정, 자연스러운 머리 포즈로 완성된다”라며 “개인이 말하는 매우 사실적인 비디오를 만드는 것을 가능케 함으로써 우리의 연구가 미칠 영향은 상당히 크다”라고 말했다.
참고문헌 DOI: 10.1016/j.patcog.2023.109865
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 1094회 로또 1등 각 21억원씩…‘6 7 15 22 26 40…41’ - 매일경제
- 車사고 낸후, 가해자 부탁받고 피해자 설득해 합의 봐줬더니…날강도로 돌변한 가해자 [어쩌다
- 오픈AI서 쫓겨난 CEO 샘 올트먼 어디가나 봤더니... - 매일경제
- 한동훈이라는 전에 없었던 정치엘리트 유형 [노원명 에세이] - 매일경제
- ‘한 돈’ 돌반지 40만원 웃돌아…가계 팍팍한데, 내다 팔아? - 매일경제
- “우리도 서울 편입될까요?”…메가시티에 수도권 관심 쏠렸다 - 매일경제
- ‘머스크 X’ 이러다 ‘X’ 되겠네…광고주 줄줄이 이탈 - 매일경제
- “시장이 기막혀”…전세값은 고공행진인데, 매맷값은 ‘요지부동’, 왜? - 매일경제
- “강남 대체 도시 명목이라더니”…서울 편입 외치는 또 다른 이곳 - 매일경제
- [단독] 디펜딩 챔피언 왕조 구축 첫걸음…LG, 플럿코 대체자로 좌완 디트리히 엔스 영입 유력 - MK