“한 여성이 빨간 치마 입고 도쿄를 걸어” 입력했더니…깜짝 놀랄 일이
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
거대언어모델(LLM)을 기반으로 하는 인공지능 챗GPT를 만드는 오픈AI가 텍스트를 입력하면 동영상을 만들어주는 AI '소라(Sora)'를 공개했다.
15일(현지시간) 오픈AI는 홈페이지를 통해 "사람들이 실제 상호작용이 필요한 문제를 해결하는 데 도움이 되도록 움직이는 물리적 세계를 이해하고 시뮬레이션할 수 있도록 AI를 교육하고 있다"고 밝히면서 '텍스트 투 비디오(Text to Video)' 모델인 소라를 공개했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
텍스트 입력하면 동영상 전환
15일(현지시간) 오픈AI는 홈페이지를 통해 “사람들이 실제 상호작용이 필요한 문제를 해결하는 데 도움이 되도록 움직이는 물리적 세계를 이해하고 시뮬레이션할 수 있도록 AI를 교육하고 있다”고 밝히면서 ‘텍스트 투 비디오(Text to Video)’ 모델인 소라를 공개했다. 소라는 최대 1분 길이의 동영상을 생성할 수 있고, 기존의 텍스트 투 비디오에 비해 시각적 품질이 뛰어나며, 프롬프트의 내용에 충실한 그림을 그려준다.
오픈AI는 ‘세련된 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고 검은색 지갑을 들고 있습니다. 선글라스와 빨간 립스틱을 착용하고 있습니다. 그녀는 자신감 있고 자연스럽게 걷습니다. 길은 축축하고 반사되어 화려한 조명이 거울 효과를 만들어 냅니다. 많은 보행자가 걸어갑니다’라고 상세한 프롬프트에 맞춰 만들어진 영상을 공개했다.
오픈AI에 따르면 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장하여 더 길게 만들 수 있다. 모델에 한 번에 여러 프레임을 예측할 수 있는 기능을 제공해 피사체가 일시적으로 시야에서 사라져도 동일하게 유지되도록 하는 까다로운 문제를 해결했다.
GPT 모델과 마찬가지로 소라는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 갖고 있다.
오픈AI에 따르면 동영상과 이미지를 패치라고 하는 작은 데이터 단위의 모음으로 표현했고, 데이터를 표현하는 방식을 통합해 이전보다 더 디퓨전모델을 잘 훈련시킬 수 있었다.
소라는 텍스트 설명만으로 동영상을 생성할 수 있을 뿐만 아니라 기존의 정지 이미지를 가져와서 동영상을 생성할 수도 있다. 또한 기존 동영상을 가져와서 확장하거나 누락된 프레임을 채울 수도 있다.
[실리콘밸리=이덕주 특파원]
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “이강인 국가대표 자격 영구 박탈해달라”…대한체육회 징계 민원 접수 - 매일경제
- 10대 소녀팬 몰고 다녔던 ‘고교야구 전설’…우석대 총장 됐다 - 매일경제
- [속보] 대한축구협회, 클린스만 대표팀 감독에게 경질 통보 - 매일경제
- 삼성전자 어쩌나...7년 반만에 ‘이 기업’에 아시아 시총 추월당했다 - 매일경제
- “불매, 죽을 때까지 안사먹는다”…이강인 모델 쓴 기업도 날벼락 - 매일경제
- ‘슈퍼을’ 회사 5곳이 전세계에서 떵떵…“부르는 게 값” 이것 뭐길래 - 매일경제
- 오늘의 운세 2024년 2월 16일 金(음력 1월 7일) - 매일경제
- 빚내서 산 집 결국 반토막까지…노도강 영끌족의 눈물 - 매일경제
- “항공권이 가장 저렴한 때는”…알고 떠나면 더 좋은 여행 꿀팁 [여책저책] - 매일경제
- “잘할 거니까, 저만 잘하면 돼요” 맞대결 앞둔 김하성과 이정후의 이구동성 [MK현장] - MK스포츠