모나리자가 눈 부릅뜨고 랩… 단숨에 700만뷰 찍은 AI 영상, 뭐길래

박선민 기자 2024. 4. 24. 17:41
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

마이크로소프트의 AI 신기술 VASA-1을 이용해 제작한 랩하는 모나리자 영상. /엑스

레오나르도 다빈치의 모나리자 그림이 마치 살아있는 듯 두눈을 부릅뜨고 랩을 하는 영상이 화제를 모으고 있다. 이 영상은 마이크로소프트(MS)의 새로운 인공지능(AI) 모델 ‘VASA-1′을 활용, 단일 인물 사진과 음성 파일만으로 제작된 것이다.

24일 기준 한 엑스(옛 트위터)에 올라온 영상 조회수는 700만회가 넘는다. 지난 18일 올라왔다는 점을 감안하면 일주일도 지나지 않아 폭발적인 관심을 끈 것이다.

영상을 자세히 보면, 모나리자는 눈을 깜빡이거나 치켜뜨며 익살스러운 표정으로 미국 유명 배우 앤 핸서웨이가 과거 한 방송에서 공개한 극성 파파라치 디스랩을 부른다.

영상을 게재한 ‘AI 교육가’ 최민씨는 “마이크로소프트가 막 VASA-1를 개발했다”며 “이 AI 기술로 단일 이미지에 오디오 클립을 결합해 사진이 노래하거나 말하도록 만들 수 있다. 알리바바의 ‘EMO’와 비슷하다”고 설명했다. EMO는 사용자가 인물 혹은 캐릭터 이미지에 오디오를 입력하면 위 영상처럼 오디오 내용에 따라 움직이는 기술을 말한다. 화제가 된 랩하는 모나리자 영상에는 모나리자 사진 한 장과 앤 핸서웨이가 방송에서 부른 디스랩 음성 파일 하나만이 접목된 셈이다.

앞서 MS는 지난 19일 AI 모델 VASA-1을 발표했다. 단일 인물 사진과 음성 파일만으로 ‘말하는 얼굴’을 생성하는 기술이다. 만화 캐릭터나 사진, 그림을 실시간으로 노래하거나 말하게 만들 수 있다. 이 과정에서 얼굴 움직임을 사실적으로 구현한다. 전면 이미지뿐만 아니라 좌우 방향의 모습으로도 적용이 가능하며, 사용자의 눈동자 방향, 머리의 거리, 심지어 감정까지 표현할 수 있는 기능을 갖췄다.

MS는 교육 형평성을 강화하고 의사소통에 어려움이 있는 사람들을 위해 VASA-1을 개발했다고 한다.

다만 MS는 혹시 모를 악용 가능성을 우려해 기술을 즉시 배포하지는 않을 예정이다. 마이크로소프트 연구팀은 “해당 기술이 규정에 따라 책임감 있게 사용될 것이라는 확신이 들 때까지 온라인 데모나 제품을 출시할 계획이 없다”며 “다른 생성 기술과 마찬가지로 사람을 사칭하는 데 오용될 가능성이 있다”고 했다. 그러면서 “우리는 실제 인물을 오해할 소지가 있거나 유해한 내용을 생성하는 행위에 반대하며, 우리의 첨단 위변조 탐지 기술을 적용하기 위해 노력하고 있다”고 덧붙였다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?