"치마 입고 걸어라" 명령에 영상 '뚝딱'…오픈AI 뜨거운 야심작 [팩플]
윤상언 2024. 2. 16. 16:37

오픈AI가 15일(현지시간) 이용자의 명령어로 동영상을 제작하는 생성 인공지능(AI) 모델 ‘소라(Sora)’를 공개했다. 텍스트, 이미지에 이어 동영상까지 AI가 만들어주는 시대로 전환이 가속화되고 있다.
━
오픈AI는 이날 자사 홈페이지에 “이용자의 명령어에 맞게 시각적 품질을 유지하면서, 약 1분 분량 영상을 제작할 수 있다”며 소라를 공개했다. 예컨대, ‘멋지게 차려입은 여성이 네온사인 가득한 일본 도쿄의 길을 걷는다’는 명령어를 넣으면 관련 영상을 AI가 만드는 식이다. 다만 오픈AI는 “물리적으로 지나치게 복잡한 풍경에 대한 명령어를 넣으면 해석을 못할 수 있고, 쿠키를 베어먹었는데 그 자리에 쿠키가 사라지지 않고 그대로 있는 등 아직 기능적인 한계는 존재한다”고 덧붙였다.
무슨 일이야
오픈AI는 이날 자사 홈페이지에 “이용자의 명령어에 맞게 시각적 품질을 유지하면서, 약 1분 분량 영상을 제작할 수 있다”며 소라를 공개했다. 예컨대, ‘멋지게 차려입은 여성이 네온사인 가득한 일본 도쿄의 길을 걷는다’는 명령어를 넣으면 관련 영상을 AI가 만드는 식이다. 다만 오픈AI는 “물리적으로 지나치게 복잡한 풍경에 대한 명령어를 넣으면 해석을 못할 수 있고, 쿠키를 베어먹었는데 그 자리에 쿠키가 사라지지 않고 그대로 있는 등 아직 기능적인 한계는 존재한다”고 덧붙였다.
샘 올트먼 오픈AI 최고경영자(CEO)는 이날 소셜미디어 엑스(X)를 통해 “오늘부터 ‘레드 팀(기능이나 보안의 문제가 있는지 살펴보는 팀)’을 만들고, 일부 창작자에 한해 소라를 사용할 수 있도록 할 것”이라고 밝혔다.
━
영상 생성 AI 기술은 일반인공지능(AGI·인간 이상의 지능을 보유한 AI) 개발에 필수적인 기술이다. 오픈AI는 이날 블로그에서 “소라가 현실 세계를 이해하고 모사하는 능력을 가진 것은, AGI를 개발하는 데 중요한 이정표가 될 것”이라고 밝혔다.
영상 생성 AI 모델 개발을 둘러싼 빅테크 간 경쟁은 갈수록 격화되고 있다. 앞서 메타도 지난해 9월 영상 생성AI 모델 ‘메이크 어 비디오(Make-A-Video)’의 연구 성과를 공개했고, 구글도 지난해 말 명령어로 짧은 동영상을 만드는 생성AI 모델 ‘비디오 포엣(Video Poet)’을 발표했다. 두 AI 모델은 일반 사용자에게 공개되지는 않았다.
왜 중요해
영상 생성 AI 기술은 일반인공지능(AGI·인간 이상의 지능을 보유한 AI) 개발에 필수적인 기술이다. 오픈AI는 이날 블로그에서 “소라가 현실 세계를 이해하고 모사하는 능력을 가진 것은, AGI를 개발하는 데 중요한 이정표가 될 것”이라고 밝혔다.
영상 생성 AI 모델 개발을 둘러싼 빅테크 간 경쟁은 갈수록 격화되고 있다. 앞서 메타도 지난해 9월 영상 생성AI 모델 ‘메이크 어 비디오(Make-A-Video)’의 연구 성과를 공개했고, 구글도 지난해 말 명령어로 짧은 동영상을 만드는 생성AI 모델 ‘비디오 포엣(Video Poet)’을 발표했다. 두 AI 모델은 일반 사용자에게 공개되지는 않았다.

━
이걸 알아야 해
기술 발전에 따라, 영상 제작 AI 기술을 악용할 수 있다는 우려도 커진다. 지난달 미국의 유명 가수 테일러 스위프트의 얼굴을 AI 기술로 음란물과 합성한 ‘딥페이크’ 사진이 X를 통해 유통되며 논란이 일었다. 이에 일론 머스크 X 최고경영자(CEO)는 콘텐트를 상시 검열할 인력 100명을 충원하는 등의 대책을 발표했다. 유사 사례 재발을 방지하기 위해 최근 오픈AI, 구글, 메타 등 빅테크 기업들은 딥페이크 악용을 방지하는 정책을 만들기 위한 공동협약을 맺기로 했다. 앞서 지난 7일 메타는 생성AI 콘텐트가 페이스북이나 인스타그램 등의 플랫폼에 게시되면 이를 식별할 수 있는 기능을 시행할 것이라고 발표했다.
━
구글은 이날 자사의 대규모언어모델(LLM) 기능을 향상한 ‘제미나이 1.5 프로’를 공개했다. 한 번에 동시에 처리할 수 있는 정보의 양을 늘린 것이 특징이다. 구글은 오픈AI의 LLM인 ‘GPT-4 터보’의 정보처리량이 12만8000 토큰(token)이지만, 제미나이 1.5프로는 최대 100만 토큰이라고 밝혔다. 구글은 “1시간 분량의 영상, 11시간 분량의 음성 파일을 한 번에 처리할 수 있는 수준”이라고 설명했다.
더 알면 좋은 것
구글은 이날 자사의 대규모언어모델(LLM) 기능을 향상한 ‘제미나이 1.5 프로’를 공개했다. 한 번에 동시에 처리할 수 있는 정보의 양을 늘린 것이 특징이다. 구글은 오픈AI의 LLM인 ‘GPT-4 터보’의 정보처리량이 12만8000 토큰(token)이지만, 제미나이 1.5프로는 최대 100만 토큰이라고 밝혔다. 구글은 “1시간 분량의 영상, 11시간 분량의 음성 파일을 한 번에 처리할 수 있는 수준”이라고 설명했다.
윤상언 기자 youn.sangun@joongang.co.kr
Copyright © 중앙일보. 무단전재 및 재배포 금지.
중앙일보에서 직접 확인하세요. 해당 언론사로 이동합니다.
- 25만원 여관방, 생선 날랐다…'조폭 에이스' 마흔에 닥친 일 | 중앙일보
- "먹고 죽으라네" 물 부탁한 기성용에, '막내' 손흥민 한 행동 | 중앙일보
- "너무 적나라한 나체" 경주 보문단지 낯뜨거운 조각상의 최후 | 중앙일보
- 주먹 안날렸다? 사과문 실종 왜?...이강인 '핑퐁게이트' 의문 셋 | 중앙일보
- 손흥민 손가락 탈구 다음날…경기장서 물병놀이한 탁구 3인방 (사진 4장) | 중앙일보
- 삼성·LG·효성 창업주 나왔다…'재벌 셋' 예언한 명당 어디 | 중앙일보
- 식중독에 육신 무너지는데도…참 놀랍다, 붓다의 마지막 말 | 중앙일보
- [단독] 로펌 손 들어준 고법판사, 퇴직 후 곧장 그 로펌 갔다 [고법판사 엑소더스] | 중앙일보
- 점유율 70% 대박…인도 열광한 '채식 초코파이' 한국 과자였다 | 중앙일보
- "스위프트는 지구 살해자" 욕먹은 로맨틱 비행, 대안 뜬 이것 | 중앙일보