스태빌리티AI, 오디오 생성 AI 공개…95초짜리 CD 음질

(지디넷코리아=김우용 기자)이미지 생성 AI '스테이블디퓨전' 개발사 스태빌리티AI가 자연어로 CD 음질의 음악을 만드는 인공지능 모델을 공개했다.

13일(현지시간) 외신에 따르면, 스태빌리티AI는 디퓨전 모델에 기반한 음악 생성 AI 모델 '스테이블 오디오'를 출시한다고 발표했다.

스테이블오디오는 고품질 44.1kHZ 음악을 생성할 수 있다. 모델은 오디오 메타데이터와 파일 지속시간, 시작 시간 등을 학습했으며, 약 12억개 매개변수로 구성됐다. 이전의 음악 생성기보다 오디오 내용과 길이를 더 효과적으로 제어할 수 있다고 회사측은 설명했다.

예시로 제시된 프롬프트에 의하면, 원시부족 타악기와 브라스 연주를 활용한 열정적인 예고편 음악, 85 BPM 힙합 비트와 멜로디, 빠른 메탈 드럼과 기타 연주 기반의 데스메탈, 116 BPM 락 드럼 루프, 90 BPM 피아노 솔로 연주 등을 생성할 수 있다. 음악뿐 아니라 비행기 기장의 안내방송, 사람으로 붐비는 식당의 소음 등 효과음 샘플도 만들어준다.

스태빌리티AI는 모델 학습을 위해 음악 자산 제공사인 오디오스팍스와 제휴해 음악, 음향효과, 단일 악기 스템, 관련 텍스트 메타 데이터 등 80만 오디오 파일 데이터세트의 라이선스를 확보했다. 모델에 1만9천500시간 데이터를 공급한 결과 스테이블오디오는 들었던 특정 소리를 모방하는 방법을 알게 됐다.

스테이블오디오는 스테이블디퓨전과 유사하고 가변자동인코더(VAE), 텍스트인코더, U-Net 기반 조건부 디퓨전모델 등을 포함한다. 불필요한 노이즈를 제거하면서 중요 부분을 유지하는 방식으로 오디오 파일을 압축하며, 빠르게 학습하면서 새로운 오디오를 더 빠르게 생성할 수 있다. 어떤 종류의 오디오를 생성하는지 설명해주기도 한다.

아키텍처는 추론 시간을 줄이기 위해 단순하고 압축된 오디오 표현으로 작동한다. 엔비디아 A100 GPU에서 1초 안에 44.1kHZ 샘플링 속도로 95초의 스테레오 오디오를 렌더링할 수 있다.

스테이블오디오는 제한된 범위에서 무료 요금제로 이용가능하고, 프로 요금제는 월 12달러다. 무료 요금제는 한달 최대 20개 트랙을 생성할 수 있고, 각 트랙의 최대 길이는 20초다. 프로 요금제는 매월 500개 트랙을 생성할 수 있고, 최대 90초의 트랙 길이를 허용한다.

스태빌리티AI는 작년 하모나이를 지원해 오디오 생성 분야로 사업영역을 확장했다. 작년 9월 음악 생성기인 댄스디퓨전을 선보였는데, 초기부터 댄스디퓨전 업데이트가 중단됐다.

스테이블오디오는 댄스디퓨전과 다른 모델이다. 하모나이에서 만드는 대신 스태빌리티AI 오티오팀에서 댄스디퓨전에서 영감을 받아 새로운 모델을 만들었다고 한다. 하모나이는 모델 학습을 담당했다.

김우용 기자(yong2@zdnet.co.kr)

IT/과학

스태빌리티AI, 오디오 생성 AI 공개…95초짜리 CD 음질