중국판 오픈AI, 소라 넘어선 동영상AI 첫선…“국수 먹는 남성 놀라워”

이상덕 기자(asiris27@mk.co.kr) 2024. 6. 10. 10:18
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

전 세계가 오픈AI가 개발한 동영상 생성 인공지능(AI)인 소라(Sora)의 공개 사용을 기다리고 있는 가운데, 중국내 틱톡 경쟁사인 콰이쇼우(Kuaishou)가 중국판 소라를 10일 발표했다.

클링은 1080p 해상도에 초당 30프레임으로 단 하나의 프롬프트로 2분 분량의 비디오를 생성할 수 있다는 점에서 오픈AI 소라를 능가한 것으로 보인다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

틱톡 경쟁사인 콰이쇼우(Kuaishou)
프롬프트 입력 한번에 2분 영상 생성
중국 텍스트 투 비디오 모델 경쟁력 강화
“실제 영상 5초 불과해, 더 지켜봐야”
콰이쇼우(Kuaishou)가 중국판 소라를 10일 발표했다.
전 세계가 오픈AI가 개발한 동영상 생성 인공지능(AI)인 소라(Sora)의 공개 사용을 기다리고 있는 가운데, 중국내 틱톡 경쟁사인 콰이쇼우(Kuaishou)가 중국판 소라를 10일 발표했다.

클링(Kling)이라는 모델은 오픈 액세스 형태로 제공되며, 일부에 있어서는 소라보다 더 뛰어난 것으로 알려졌다. 콰이쇼우는 작년 윌 스미스 동영상을 시연해 비판받았다. 스미스의 얼굴이 악마 같이 일그러졌고, 국수 형태를 알아보기 힘들었기 때문이다. 하지만 이번에는 ‘한 중국 남성이 테이블에 앉아 젓가락으로 국수를 먹는다’는 프롬프트에 대한 시연으로 주변을 놀라게했다.

영상 속 AI 캐릭터가 흡사 사람과 같았고, 손가락, 면발 등에 대한 오류가 보이지 않아서다. 클링은 1080p 해상도에 초당 30프레임으로 단 하나의 프롬프트로 2분 분량의 비디오를 생성할 수 있다는 점에서 오픈AI 소라를 능가한 것으로 보인다. 다만 실제로 어느 정도 컴퓨팅 파워를 소모하는지 등에 대해선 알려진 것이 없다. 또 콰이쇼우는 세계의 물리적 특성을 정확하게 시뮬레이션한다고 덧붙였다. 또 공개한 영상은 모두 5초짜리다.

확산 트랜스포머 아키텍처를 활용하는 클링은 풍부한 텍스트 프롬프트를 생생한 장면으로 변환한다. 3D VAE와 가변 해상도 훈련을 통한 다양한 종횡비 지원을 통해 클링은 전신사진 한 장만으로도 완벽한 표현과 사지 움직임을 가능하게 하는 진보된 3D 얼굴 및 신체 재구성 기술을 갖추고 있다는 것이 회사 측 설명이다.

이번 발표를 놓고 중국이 인공지능 모델 구축 분야에서 점점 앞서 나가고 있는 것으로 보인다. 오픈AI는 올해 말까지 소라를 출시할 계획이라고 밝혔지만, 중국의 텍스트 투 비디오 모델을 따라잡기에는 너무 늦을 수도 있다는 것이 중론이다. 클링은 중국의 첫 번째 비디오 생성 모델이 아니다. 지난 4월에 출시된 비두 에이아이(Vidu AI)는 16초 길이 영상을 생성했다.

콰이쇼우(Kuaishou)가 생성한 기타치는 팬더 동영상
콰이쇼우(Kuaishou)가 생성한 커피 마시는 토끼

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?