중국판 '소라' 등장...최대 16초짜리 AI 영상 생성
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
중국에서 미국 오픈AI의 텍스트투비디오 생성 모델 '소라(Sora)'를 벤치마킹한 인공지능(AI) 영상 생성 모델을 발표했다.
27일 중국 성수커지(ShengShu)가 칭화대와 협력해 개발한 중국 AI 초거대 모델 '비두(Vidu)'를 발표했다.
이 모델은 장시간, 높은 일치성, 높은 동태성 등 특징을 가지는 모델로서, 중국 언론과 업계 관계자들은 이 모델이 중국 최초의 '소라'급 영상 모델이라고 평가하고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(지디넷코리아=유효정 중국 전문기자)중국에서 미국 오픈AI의 텍스트투비디오 생성 모델 '소라(Sora)'를 벤치마킹한 인공지능(AI) 영상 생성 모델을 발표했다.
27일 중국 성수커지(ShengShu)가 칭화대와 협력해 개발한 중국 AI 초거대 모델 '비두(Vidu)'를 발표했다. 이 모델은 장시간, 높은 일치성, 높은 동태성 등 특징을 가지는 모델로서, 중국 언론과 업계 관계자들은 이 모델이 중국 최초의 '소라'급 영상 모델이라고 평가하고 있다.
이 모델은 '중관춘포럼미래인공지능선봉포럼'에서 처음 공개됐다.


비두는 원클릭으로 최대 16초 길이와 최대 1080p 해상도의 영상 생성을 지원하는 독창적 '유빗(U-ViT)' 아키텍처를 사용했다고 설명했다.
U-ViT은 소라처럼, 디퓨전(이미지 데이터에 노이즈를 추가 및 제거하며 이미지를 생성)과 트랜스포머(텍스트 맥락을 통해 이미지를 생성) 방식을 결합해 구성된 아키텍처다.
회사측에 따르면 U-ViT 아키텍처는 소라가 채택한 DiT 아키텍처보다 먼저 2022년 9월 개발팀이 제안한 것으로 디퓨전과 트랜스포머를 통합한 세계 최초의 아키텍처다.
개발팀은 앞서 U-ViT 융합 아키텍처를 기반으로 한 세계 최초 다중 모드 확산 모델인 유니디퓨저(UniDiffuser)를 오픈소스화하고 U-ViT 아키텍처의 대규모 확장성 검증을 완료했다고도 설명했다.
비두에 따르면 비두는 실제 물리적 세계를 시뮬레이션 할 수 있을뿐 아니라 창의력과 높은 시공간적 일관성 등을 갖추고 있다.
성수커지는 칭화대 인공지능연구원 출신 인력이 지난해 3월 설립한 AI 스타트업으로 알리바바, 텐센트, 바이트댄스 등 출신 인력으로 구성됐다.
유효정 중국 전문기자(hjyoo@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.
- "'음악판 소라' 수노 넘을까"…포자랩스, 음악 생성 AI 시장 공략 본격화
- 오픈AI에 자극 받은 어도비…'소라' 위협할 동영상 생성기 만든다
- 오픈AI에 딴지 건 유튜브…"소라, 유튜브 동영상 활용 약관 위반"
- 텍스트 입력하면 영상 뚝딱…오픈AI '소라'가 선보인 기술, 韓 기업도 내놨다
- 외신이 바라본 'BTS: 아리랑'..."세기의 컴백, 흔치 않은 영예"
- 시니어는 주니어보다 '직장 내 스트레스'에 더 강할까
- 마이크로소프트, 윈도11 안정성·품질 손본다
- 테슬라, 연내 자율주행 100억 마일 돌파…현대차는?
- 펄어비스 '붉은사막', 출시 초반 돌풍…첫날 200만장 팔려
- 오픈AI, 인력 두 배 확충…경쟁력 확보 '안간힘'