“한 여성이 빨간 치마 입고 도쿄를 걸어” 입력했더니…깜짝 놀랄 일이

오픈AI, 이번엔 AI ‘소라’ 공개
텍스트 입력하면 동영상 전환

오픈AI가 공개한 텍스트 투 비디오 모델 ‘소라’로 생성된 영상. <오픈AI>

거대언어모델(LLM)을 기반으로 하는 인공지능 챗GPT를 만드는 오픈AI가 텍스트를 입력하면 동영상을 만들어주는 AI ‘소라(Sora)’를 공개했다.

15일(현지시간) 오픈AI는 홈페이지를 통해 “사람들이 실제 상호작용이 필요한 문제를 해결하는 데 도움이 되도록 움직이는 물리적 세계를 이해하고 시뮬레이션할 수 있도록 AI를 교육하고 있다”고 밝히면서 ‘텍스트 투 비디오(Text to Video)’ 모델인 소라를 공개했다. 소라는 최대 1분 길이의 동영상을 생성할 수 있고, 기존의 텍스트 투 비디오에 비해 시각적 품질이 뛰어나며, 프롬프트의 내용에 충실한 그림을 그려준다.

오픈AI는 ‘세련된 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고 검은색 지갑을 들고 있습니다. 선글라스와 빨간 립스틱을 착용하고 있습니다. 그녀는 자신감 있고 자연스럽게 걷습니다. 길은 축축하고 반사되어 화려한 조명이 거울 효과를 만들어 냅니다. 많은 보행자가 걸어갑니다’라고 상세한 프롬프트에 맞춰 만들어진 영상을 공개했다.

오픈AI에 따르면 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장하여 더 길게 만들 수 있다. 모델에 한 번에 여러 프레임을 예측할 수 있는 기능을 제공해 피사체가 일시적으로 시야에서 사라져도 동일하게 유지되도록 하는 까다로운 문제를 해결했다.

GPT 모델과 마찬가지로 소라는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 갖고 있다.

오픈AI에 따르면 동영상과 이미지를 패치라고 하는 작은 데이터 단위의 모음으로 표현했고, 데이터를 표현하는 방식을 통합해 이전보다 더 디퓨전모델을 잘 훈련시킬 수 있었다.

소라는 텍스트 설명만으로 동영상을 생성할 수 있을 뿐만 아니라 기존의 정지 이미지를 가져와서 동영상을 생성할 수도 있다. 또한 기존 동영상을 가져와서 확장하거나 누락된 프레임을 채울 수도 있다.

[실리콘밸리=이덕주 특파원]

매일경제

경제

“한 여성이 빨간 치마 입고 도쿄를 걸어” 입력했더니…깜짝 놀랄 일이