문장쓰니 … 동영상이 뚝딱

이상덕 2022. 11. 3. 12:21
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

구글 AI 뉴욕 콘퍼런스
동영상 생성모델 선보여
400개 언어 학습한 번역도

문장을 입력했더니 나무 위에 걸려 있는 풍선이 바람에 흔들리는 동영상이 곧바로 나타났다. 구글이 문장을 동영상으로 전환해주는 생성모델(Generative AI)을 선보였다.

2일(현지시간) 구글이 미국 뉴욕 사무실에서 인공지능(AI) 연례 콘퍼런스인 'AI@: 불가능을 탐험하다'를 열고 △동영상을 제작하고 △소설을 쓰며 △홍수와 산불을 예측하고 △아프리카 소수 부족과 번역 애플리케이션(앱)을 이용해 소통하는 등 각종 AI 기술을 대거 선보였다.

순다르 피차이 구글 최고경영자(CEO)는 "구글은 AI가 사람들을 돕는 서비스로 정착할 수 있도록 최선의 노력을 기울이고 있다"면서 "이러한 기술은 삶에 큰 도움이 될 것"이라고 말했다. 또 전설적 프로그래머인 제프 딘 구글리서치 부사장은 "AI는 수십억 명이 겪고 있는 실생활 문제에 도움이 됐다"면서 "앞으로 AI 기술을 사용해 삶이 개선되기를 바란다"고 말했다.

이날 가장 시선을 끈 것은 생성모델이었다. 올 들어 실리콘밸리에서는 생성모델 붐이 일었다. 마이크로소프트가 투자한 오픈AI가 달리2를 업데이트했다. 문장을 입력하면 사람이 그린 듯한 그림을 그리는 AI다. 이어 미드저니, 노블AI 등 수많은 생성모델 스타트업이 부상했다.

하지만 이날 구글은 한 걸음 더 나아갔다. 문장을 입력하면 이미지뿐 아니라 동영상과 음악을 창작하는 단계로 진화했다. 구글은 '이매진 비디오' '페나키' 모델을 선보였다. 구글 AI는 문장만으로 동물원에서 움직이는 기린 등을 동영상으로 전환하는 모습을 보여줬다. 이매진 비디오는 초당 24초 프레임으로 최대 1280×768 해상도 비디오를 생성해낸다. 움직임이 아직은 완벽히 자연스럽지는 않았다. 하지만 동영상을 생성한다는 점에서 진일보했다는 평가를 받았다. 또 이런 AI를 활용하면 빈센트 반 고흐 스타일의 그림까지 동영상으로 만들어낼 수 있다고 덧붙였다.

아울러 구글은 자유롭게 그림을 그리는 'AI 테스트 키친 시즌2'를 선보였다. 구글 AI 챗봇 람다2와 연동돼 간단한 문장 입력만으로 도시 이미지를 생성하고 친근한 캐릭터를 만들 수 있는 것이 특징이다. 또 구글은 6초 길이 음성만으로 사람 목소리를 재현하고 음악까지 작성하는 '오디오 LM 기술'을 선보였다. 그동안 음성 AI는 길게는 수시간, 짧게는 수십 분에 달하는 시간이 있어야 학습하고 성대모사를 할 수 있었다. 그런데 구글이 그 시간을 극한으로 단축한 것이다. 아울러 람다를 활용해 짧은 문장을 작성하면 AI가 다음 문장을 이어 작성하는 '워드크래프트'를 내놓았다.

구글 번역 AI는 보다 진화했다. 구글은 "1000개 언어 번역을 지원하는 AI를 개발하고 있다"면서 "이를 통해 보다 많은 사람이 편리하게 대화할 수 있을 것"이라고 말했다. 구글은 이날 400개 언어로 학습된 '유니버설 스피치 모델(USM)'을 개발했다고 밝혔다. 그러면서 현재 지구상에는 7000개에 달하는 언어가 있어 소통하기가 어렵다며 아프리카와 동남아시아 등 오지에 있는 부족의 언어까지 구글로 통역할 수 있는 시대가 올 것이라고 주장한다.

이 밖에 공익적 목적을 위해 홍수를 예측할 수 있는 AI를 선보였다. 전 세계 어느 지역에서 홍수가 날 수 있는지 AI로 실시간 분석하는 것이다. 해당 AI는 2017년 처음 선보였는데 현재는 브라질, 콜롬비아 등 18개국으로 확대됐다.

[실리콘밸리/이상덕 특파원]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?