[팽동현의 테크딥다이브] 글만 써도 생생하게 살아움직인다… 영상생성 오픈AI `소라` 눈길

샘 올트먼 오픈AI CEO가 자신의 X를 통해 이용자 요청을 받아 '소라'로 제작한 영상 이미지 캡처.

오픈AI가 지난 15일(현지시간) 발표한 영상 생성 AI(인공지능) '소라(Sora)'에 대한 관심이 높아진다. 유튜브와 넷플릭스, 틱톡, 인스타 릴스 등 플랫폼들의 현재 입지를 보면 영상 생성AI가 관련 업계와 시장에 미칠 파급력은 상당할 것이란 전망이 나온다.

지난 16일(현지시간) 샘 올트먼 오픈AI CEO(최고경영자)는 자신의 X(옛 트위터)를 통해 "소라가 뭘 할 수 있는지 보여주고 싶으니, 보고 싶은 영상에 대한 설명을 댓글로 달면 몇 개 제작해보겠다"고 게시글을 올렸다. 여기에는 이후 약 1만5000개의 댓글이 달렸다.

올트먼은 △화성에서 열린 미래형 드론 경주 △두 골든리트리버가 산에서 진행하는 팟캐스트 △할머니 인플루언서가 시골 주방에서 하는 뇨끼 요리 강의 △다양한 동물들이 바다 위에서 펼치는 자전거 경주 등 요청에 맞춰 제작한 10초 분량 영상들을 게시했다. 모두 분량은 짧지만 상당한 품질을 보였다.

영상 생성 AI를 공개한 것은 오픈AI가 처음은 아니다. 앞서 2020년 10월 구글은 자사 AI모델 람다 기반으로 입력된 텍스트를 영상으로 바꿔주는 '이마젠(Imagen) 비디오'와 '페나키(Phenaki)'를 발표한 바 있다. '이마젠 비디오'는 제작 가능한 영상의 분량이 5초 정도에 불과했고 '페나키'는 2분가량까지 가능하지만 품질이 그에 못 미쳤다.

또한 영상 생성AI로 메타가 지난해 9월 '메이크-어-비디오'를, 구글도 12월에 '비디오 포엣'을 발표했지만 이들 서비스가 대중에 공개되지는 않았다. 때문에 이 분야에선 이미 서비스를 제공 중인 미국 AI스타트업 런웨이(Runway)가 흔히 대표적인 주자로 꼽혀왔고, 지난해 구글·엔비디아·세일즈포스로부터 1억4100만달러(약 1883억원) 투자를 받고 생성 영상의 길이를 18초까지 확대하는 등 서비스를 고도화하며 앞서나가는 것으로 보였다.

이번에 등장한 오픈AI '소라'는 품질과 분량을 모두 일정 수준 이상 충족하면서 앞으로 일반 사용자들도 활용 가능할 것으로 전망되면서 AI 생태계에 어떤 영향을 미칠 지 세간의 시선이 쏠린다. 오픈AI 측은 "여러 캐릭터와 특정 유형의 동작, 복잡한 장면 등 최대 1분 길이의 동영상을 빠르게 제작할 수 있다"면서 "언어에 대한 깊은 이해를 바탕으로 프롬프트를 정확하게 해석하고 생동감 넘치는 감정을 표현하는 매력적인 캐릭터를 생성할 수 있고, 하나의 동영상 내에서 캐릭터와 시각적 스타일을 정확하게 유지하는 여러 장면을 만들 수 있다"고 설명했다.

오픈AI는 우선 '소라'를 제한된 수의 창작자만 사용할 수 있도록 하고, 자사 제품에 통합하기 전에 안전성을 테스트할 계획이다. 영상 생성 시기와 부적절한 콘텐츠 포함 여부를 파악하는 도구를 구축하고 있고, 향후 자사 제품과 통합 시엔 분류를 위한 메타데이터도 삽입할 예정이다.

'소라'는 이미지 생성 AI에 주로 쓰 이고 있는 디퓨전(확산) 모델로 구동된다. 이와 관련해 '스테이블 디퓨전'으로 유명한 스태빌리티AI도 지난해 영상 생성 AI로 분야를 넓혔고, 구글도 최근 시공간 확산 모델이라는 '루미에르'에 대한 정보를 깃허브에 공개하는 등 개발을 이어가고 있다.

오픈AI는 "소라는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반이 되며, 이런 기능은 AGI(범용AI)를 실현하는 데 중요한 이정표가 될 것"이라고 밝혔다.팽동현기자 dhp@dt.co.kr

디지털타임스

IT/과학

[팽동현의 테크딥다이브] 글만 써도 생생하게 살아움직인다… 영상생성 오픈AI `소라` 눈길