“한달에 1000만원 벌어볼까”…요즘 인플루언서들은 ‘이것’ 공부한다는데 [더인플루언서]

몇 문장 입력하면 동영상 제작 뚝딱
하반기 오픈AI ‘소라’ 모두에게 풀려
텍스트·음성·비디오 모두 AI로 생성
AI도구 잘 다루면 SNS수익화 쉬워져
새로운 기술 직접 써보고 공부해야

오픈AI가 공개한 인공지능 모델 ‘소라(Sora)’를 통해 만든 동영상의 한 장면. 오픈AI

생성형 인공지능(AI)은 크리에이터(창작자) 생태계에 어떤 변화를 가져오고 있을까요.

최근 정보기술(IT) 업계에서는 누구나 아이디어만 있으면 손쉽게 ‘킬러 콘텐츠(고품질 영상)’을 만들 수 있는 시대가 눈앞에 다가왔다는 평가가 나옵니다.

특히 영화, 드라마, 광고 등 제작에 막대한 비용과 시간이 들기 때문에 일반인들이 제작에 엄두를 내기 어려웠던 영역에서 유의미한 기술 혁신이 이뤄지고 있습니다.

생성형 AI는 사용자와 자연어로 소통하며 스토리 개요, 보고서 등 텍스트부터 이미지, 동영상, 오디오와 같은 멀티모달 콘텐츠에 이르기까지 완전히 새로운 데이터를 생성할 수 있는 인공지능을 의미합니다.

특히 올해는 AI가 텍스트 기반 채팅을 넘어 음성, 비디오까지 통달하는 멀티모달 모델로 완전히 대중화되는 원년이 될 것이라는 전망입니다.

미국 CNBC는 “챗봇과 이미지 생성기가 소비자, 기업에 진출하고 있는 지금, 비디오는 생성형AI의 다음 개척지가 될 수 있다”라고 진단했습니다.

오픈AI ‘소라’ 하반기 일반인도 쓴다

인플루언서들 사이에서는 올해 하반기에 시장 판도가 뒤바뀔 수 있다는 예상이 나옵니다.

텍스트를 입력하면 동영상을 만들어주는 오픈AI의 ‘소라(Sora)’의 하반기 출시가 유력하기 때문입니다. 지난 2월 공개된 ‘소라’는 현재 소수의 창작자만 사용할 수 있습니다.

미라 무라티 오픈AI 최고기술책임자(CTO)는 이달 월스트리트저널(WSJ)과 인터뷰에서 “일반인이 소라를 올해 중으로 사용하게 될 수 있을 것”이라면서 “수개월 내에 이뤄질 수 있다”고 밝힌 바 있습니다.

앞서 챗GPT 개발사 오픈AI는 지난 2월 15일 텍스트를 입력하면 동영상을 만들어주는 ‘텍스트 투 비디오(Text to Video)’ AI 모델인 ‘소라(Sora)’를 공개했습니다.

오픈AI가 공개한 데모 버전에 따르면 소라는 프롬프트(AI에 내리는 지시)에 따라 최대 1분 길이의 고퀄리티 동영상을 생성할 수 있어요. 실제 촬영한 것처럼 보이는 화면부터 컴퓨터그래픽(CG), 애니메이션 처럼 보이는 영상을 만들기까지 우리가 해야할 일은 단순히 몇 문장을 입력하는 것이 전부입니다.

예를 들어 “스타일리한 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있다. 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고 검은색 지갑을 들고 있다”고 텍스트를 입력하자 이에 맞춰 여성이 실제로 도쿄 거리를 걷는 영상이 뚝딱 만들어졌어요.

특히 기존 ‘텍스트 투 비디오’ AI에 비해 어색한 부분이 없고 결과물의 수준이 실제와 구분하기 어려울 정도로 정교해 많은 이들을 놀라게 했죠. 이밖에 오픈AI가 공개한 시연에는 눈 덮인 초원을 달리는 매머드, 녹아내리는 촛불을 응시하는 괴물 등의 동영상이 포함됐습니다. 정지된 이미지를 입력해 동영상을 생성할 수 있고 기존 동영상을 합성하거나 누락된 프레임을 채우는 것도 가능하다고 합니다.

중국 인터넷 보안 기업 치후360 창립자 저우훙이는 오픈AI의 발표 직후 웨이보(중국판 트위터)에 올린 장문의 글을 통해 “소라가 광고와 영화 예고편 업계를 완전히 흔들 것”이라고 전망했습니다.

오픈AI가 ‘소라’를 개발한 이유는 ‘멀티모달’이 AI 대중화를 이끌 것이라는 판단에 따른 것으로 보여요. 프롬프터에 문장을 입력했을 때 문장만 생성하는 대규모언어모델(LLM)과 달리 멀티모달 AI는 텍스트, 이미지, 음성, 영상 등을 제한 없이 모두 생성합니다.

오픈AI의 최고운영책임자(COO) 브래드 라이트캡은 “세상을 인식하고 상호작용할 때 우리는 사물을 보고 듣고 말한다”라며 “세상은 멀티모달”이라고 강조했습니다.

틱톡 계정서 활동하는 ‘소라’

오픈AI는 ‘소라’를 공개한 당일 틱톡 계정을 만들고 소라로 생성한 영상을 올리기 시작했어요.

“검은색 후드 맨투맨을 입은 컴푸터 해커 래브라도 리트리버가 컴퓨터 앞에 앉아 매우 빠르게 타이핑을 할 때 개의 얼굴에 화면의 눈부신 빛이 뿜어져 나옵니다”라는 프롬프트로 생성된 영상. 오픈AI 틱톡 캡처

소라가 만드는 동영상이 틱톡과 같은 숏폼에서 활용도가 높은 만큼, 틱톡에서 이를 홍보하기 시작했다는 분석입니다. 당장 상업적으로 이용가능한 완성도를 갖췄다는 자신감을 내비쳤다는 평가도 있어요.

오픈AI는 동영상에 배경음악을 포함시켜서 콘텐츠를 업로드 시키고 있는데요. 각 영상마다 어떤 프롬프트를 사용해 만들어졌는지 공개하고 있어 눈길을 끕니다.

AI가 만든 영상에 거부감은 없었을까요. 오히려 뜨거운 반응이 나오고 있습니다.

예컨대 강아지가 컴퓨터를 하는 영상은 조회수가 수백만회에 달했습니다. 계정 자체의 팔로워도 수십만에 육박하고 있다고 합니다.

달아오른 빅테크 AI 동영상 경쟁

AI 대중화 시대를 맞아 동영상 개발 경쟁이 달아오르고 있습니다. 앞서 설명드린 ‘소라’처럼 AI는 실사에 가까울 정도로 기술력 수준이 올라왔습니다.

특히 동영상 AI의 경우 데이터 확보, 처리 속도 등 기술적인 난제가 많아 빅테크 입장에서는 수많은 AI스타트업들과 차별화가 가능한 영역이라는 분석입니다. 유튜브, 틱톡 등에서 바로 사용이 가능해 활용도가 높고 수많은 유료 이용자를 모을수도 있겠죠.

오픈AI가 월등히 뛰어난 성능의 동영상 생성 AI 모델을 내놓으면서 다른 기업들은 비상이 걸린 모양새입니다. 더욱이 오픈AI가 소라를 올해 하반기 일반인에게 공개할 경우 주도권이 오픈AI로 기울 수 있다는 전망까지 나오고 있습니다.

오픈AI가 ‘소라’를 공개한 날, 구글은 자체 개발한 멀티모달 AI 모델 제미나이 1.0 프로의 업데이트 버전을 공개했어요.

구글은 제미나이 1.5가 기존 1.0보다 동시에 정보를 처리할 수 있는 능력이 크게 향상됐다고 밝혔는데요. 구글에 따르면 약 1시간 분량의 동영상, 11시간 분량의 음성, 70만개 이상의 단어를 한 번에 처리할 수 있다고 합니다. 구글은 데모 영상을 통해 제미나이 1.5가 44분 길이의 영화 줄거리를 요약하는 모습도 보여줬습니다.

반격하는 메타와 구글, 강점은 ‘플랫폼’

메타와 구글의 강점은 이미 수십억명의 사용자를 보유하고 있는 소셜미디어 플랫폼의 존재입니다.

사용자들 입장에서는 콘텐츠를 올릴 플랫폼 내에서 자연스럽게 동영상까지 만들 수 있다면 훨씬 편리할테죠. 내장된 도구 성능이 훌륭하다면 굳이 외부 툴을 사용할 유인이 떨어지게 될 것입니다.

페이스북, 인스타그램을 서비스하는 세계 최대 소셜미디어 기업 메타가 공개한 텍스트를 비디오로 만드는 에뮤 비디오(Emu Video) 데모. 메타

지난해 11월 메타AI 는 블로그를 통해 ‘에뮤 비디오’를 공개한 바 있습니다. 에뮤 비디오는 텍스트를 입력하면 그림을 그려주고, 지시에 맞춰서 그림이 움직이죠.

출시 당시엔 텍스트를 동영상으로 바꿔주는 구글 ‘이마겐 비디오’의 대항마로 꼽혔어요. 마크 저커버그 메타 최고경영자(CEO)는 이러한 기능을 인스타그램과 페이스북에 탑재할 가능성을 시사한 바 있습니다. 현재 탑재돼 있는 이미지 편집기능에 에뮤 에디트를 추가할 경우 사용자들은 훨씬 편리하게 이미지를 생성할 수 있을 것으로 기대됩니다.

스타트업들도 오픈AI 등 빅테크와 정면 대결을 피할 수 없게 됐습니다. 이미지 생성 엔진 ‘스테이블 디퓨전’을 만든 스태빌리티AI가 지난해 11월 비디오 생성 모델을 내놨습니다. 이미지 생성AI로 유명한 미드저니도 ‘텍스트 투 비디오’ 모델을 준비하고 있는 것으로 알려졌어요. AI 영상 편집툴을 만드는 런웨이ML은 ‘젠-2’라는 동영상 생성 서비스를 하고 있습니다.

국내에서는 생성AI 전문 기업 딥브레인AI, 트웰브랩스 등이 관련 기술을 축적하고 서비스를 내놓고 있습니다.

그래서, 일반인에겐 기회일까?

유튜버 등 일반 창작자들도 이같은 AI 기술 발전에 주목하고 있습니다. 앞으로 AI를 사용하는 창작자와 그렇지 않은 창작자들 사이에 격차가 벌어질 수 있다는 전망입니다. 새롭게 등장한 도구이니만큼 기존에 창작자가 아니었던 사람들도 기능을 익혀서 시장에 진입할 수 있는 기회가 될 수 있습니다.

인플루언서 업계 한 관계자는 “유튜브, 인스타그램, 틱톡 등 거대 소셜미디어가 탑재하는 AI 도구를 사용하는 방법만 잘 익혀두어도 수익화가 가능한 채널을 여러개 만들어 돌릴 수 있을 것”이라고 전했습니다.

실제로 구글 등 포털사이트에 ‘AI영상 자동화’ 등 키워드를 검색하면 수많은 관련 콘텐츠가 뜨고 있습니다. 예컨대 ‘AI숏폼 자동화로 월 1000만원 버는 법’ 같은 마케팅이 난무하고 있어요. AI영상 수익화와 관련해서 ‘왕도’가 없기 때문에 자극적인 홍보 문구에 현혹되지 말아야 한다고 전문가들은 조언합니다. 무엇보다 중요한 것은 내가 새로운 기술을 직접 써보고 노하우를 쌓는 것이겠죠. 기술이 고도화되고 시장이 열리는 초기 시점이니만큼 선구자가 되기 위해서는 자신이 직접 기술을 써보고 공부하는 것이 중요하다는 판단입니다.

구글이 딥마인드와 함께 개발해 공개한 유튜브 쇼츠 AI 도구 드림트랙 이미지. 유튜브

최근엔 유튜브 쇼츠의 AI 도구인 ‘드림 트랙(Dream Track)’에 창작자들의 관심이 높았다고 합니다. 드림 트랙은 아티스트 목소리로 최대 30초 길이의 사운드트랙을 생성할 수 있는 도구인데요. 프롬프트(지시어)에 아이디어를 입력하면 유명 아티스트의 목소리로 숏폼 콘텐츠를 만드는 시대가 성큼 다가온 셈입니다.

이에 대해 데이터 및 분석 플랫폼 data.ai는 “2024년 모바일 시장에서 AI을 통해 다음 혁신의 물결이 일어날 것이고, 소비자들의 콘텐츠 소비 방식은 더욱 확고해질 것”이라고 분석했습니다.

data.ai에 따르면 올해 생성형 AI 앱이나 생성형 AI 기능이 포함된 앱의 다운로드 수가 전년 대비 40% 증가해 이러한 앱 다운로드 수가 23억 건을 돌파할 것으로 예상됩니다.

물리세계 이해하는 AI의 등장?

오픈AI는 ‘소라’를 전격 공개하면서 ‘움직이는 물리적 세계를 이해하고 시뮬레이션하는 방법을 AI에 가르치고 있다’고 밝혔어요. 소라가 물리적 세계를 AI에게 학습시키는 과정에서 나온 결과물이고, 이는 ‘소라’로 생성된 영상들의 품질이 매우 높은 이유라는 설명입니다.

다시 말해 ‘소라’가 사용자가 프롬프트에서 요구한 것들뿐만 아니라 그것들이 물리적 세계에 어떻게 존재하는지도 이해하고 있다는 것입니다.

가령 공을 하늘로 던지면 다시 땅으로 떨어지고 유리에 사물이 비친다는 것은 인간만이 알고 있는 물리적 세계에 대한 지식인데요. 기존에는 AI가 학습하기 어려운 것들이었지만, 이제는 AI가 수많은 동영상 학습을 통해 물리적 세계를 이해할 수 있게 됐다는 것이죠. 마치 인간이 아기일때부터 현실세계의 움직임을 지켜보면서 자연스럽게 물리적 세계의 법칙을 이해하게 된 것처럼 말입니다.

일각에서는 이를 두고 일반세계모델(General World Models) 개념을 가져오기도 합니다. ‘일반세계모델’의 개념은 2018년 당시 구글브레인 소속이었던 ‘데이비드 하’가 논문을 통해서 소개한 개념으로 알려졌는데요. AI가 일반세계의 물리적 법칙을 이해하도록 학습을 시킨다는 것이죠.

AI가 물리적 세계를 이해하는 것은 ‘꿈의 AI’로 불리는 인공일반지능(AGI)에 다가가는 중요한 여정이 될 수 있어 주목을 받고 있습니다. 실제로 오픈AI 연구진은 소라가 AGI로 가는 이정표가 될 것이라는 자신감을 보였다고 해요. 인간과 동등하거나, 필적할만한 지능을 갖춘 AI가 바로 AGI입니다. 주어진 모든 상황에서 인간처럼 추론, 학습, 문제 해결 능력을 갖춘 강력한 AI죠.

마크 저커버그 메타 CEO는 소셜네트워크 스레드에 게시한 동영상에서 구체적으로 “거의 모든 분야에서 인간 지능에 가깝거나 능가하는 AGI를 자체적으로 구축한 뒤 개발자들에게 공개할 계획”이라고 밝힌 바 있습니다.

샘 올트먼 오픈 AI CEO는 “AGI로 가는 기간은 짧지만 (기술적) 도약은 느리게 진행될 것(short timeline, slow takeoff)”이라며 “느린 도약이란 매년 전년보다 훨씬 나은 새 모델을 출시하는 연속적인 과정을 의미한다”고 했습니다.

AGI 개발에 AI영상이 중요한 이유

빅테크들이 치열하게 벌일 AI 동영상 경쟁에서 AGI를 위한 기술 개선이 이뤄질 수 있다는 전망이 나옵니다.

AI를 활용해 생성하는 동영상의 경우 기존 소셜미디어 시장 패러다임을 바뀔 수 있을 뿐만 아니라 수억에서 수십억에 달하는 일반 사용자를 끌어들일 수 있는 ‘킬러 서비스’가 될 수 있기 때문입니다.

특히 더 많은 사용자가 모일수록 AI 학습을 위한 데이터가 쌓이고, 인간처럼 생각하고 행동하는 AI 학습과 개발에 다가갈 수 있다는 분석입니다.

이러한 측면에서 크리에이터 생태계, 나아가 엔터테인먼트 산업에서의 AI사용을 앞으로 눈여겨볼 필요가 있습니다.

암 셰이저 캐릭터AI 최고경영자(CEO)는 엔터테인먼트가 일공일반지능(AGI)의 첫 번째 사용 사례가 될 수 있다고 강조했어요. 리차드 캐리스 엔비디아 미디어·엔터테이먼트 책임은 올해 최초의 생성AI ‘장편영화’가 등장할 것이라고 예상했습니다. 그는 “35mm 필름 카메라로 촬영하는 영화 제작자는 동일한 콘텐츠를 생성AI를 통해 70mm 영화로 제작할 수 있다”고 했습니다.

갈수록 정교해지는 영상AI 기술에 대한 우려도 끊임없이 제기될 것으로 예상됩니다. 머신러닝 기업 클래리티에 따르면 AI로 생성한 딥페이크 수는 전년 대비 900%나 증가한 것으로 나타났습니다.

오픈AI는 소라가 생성한 비디오 클립을 식별하는 ‘분류기’를 구축하고 있어 AI가 생성한 콘텐츠를 식별하는 데 도움이 될 수 있는 특정 데이터를 동영상에 첨부한다고 밝혔습니다. 소라가 생성하는 동영상에는 실제와 구별하기 위한 워터마크가 표시될 것으로 전망됩니다.

마치며

인간에게 유익한 방향으로 기술을 발전시키되 이를 적절히 통제하는 지혜가 필요한 시점입니다. 이는 사회적으로 모두가 함께 고민해야 할 문제입니다.

개인적으로는 ‘AI도구’를 활용해 나만의 ‘몽상’을 실제 작품(아웃풋)으로 만들어보는 기회를 가져보면 어떨까요. 긴 글 읽어주셔서 감사합니다.

<황순민 기자의 더 인플루언서> 연재를 시작합니다. 바야흐로 누구나 인플루언서가 될 수 있는 기회가 열렸습니다. 자신만의 오리지널리티(Originality)를 구축하고 신선한 콘텐츠를 만들어내는 인플루언서 생태계를 소개하겠습니다. 네이버 기자페이지를 구독하시면 다음 기사를 쉽게 받아보실 수 있습니다.

이 기사에 대해 어떻게 생각하시나요?

매일경제에서 직접 확인하세요. 해당 언론사로 이동합니다.