[김정호의 AI시대의 전략] 놀라운 작곡 능력의 AI… 이제 ‘테일러 스위프트 신화’는 없다?

김정호 KAIST 전기·전자공학과 교수 2024. 2. 5. 03:02

번역beta Translated by kaka i

닫기

글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

매우 작은 폰트
작은 폰트
보통 폰트
큰 폰트
매우 큰 폰트

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

닫기

曲 주제 입력하면 작사작곡 자유자재, 교향곡을 트로트로 편곡도
싱어송라이터 스위프트는 음원수입 세계1위지만 AI로 대체 가능
동요·자장가·군가·교가도… 다행히 아직 인간 특유의 ‘감동’은 없어

1970년대 초 서울 제기동 집에는 ‘독수리표 전축’이 있었다. 턴테이블과 스피커가 한 몸체를 이루는 ‘콘솔형 가구’였다. 턴테이블을 비추는 내부 조명은 울긋불긋했다. 시간이 지나 중학교 때 친구 집에 있는 ‘인켈(Inkel)’ 전축을 처음으로 구경했다. 그리고 카세트 플레이어를 거쳐, 대학교 때는 소니 워크맨을 보았다. 다음으로 CD와 DVD를 지나 이제는 ‘유튜브’를 통해 헤드폰을 끼고 음악과 영상을 함께 감상한다. 시간과 장소에 구애를 받지 않고 음악을 즐길 수 있게 되었다. 옛 추억의 노래를 그 시절 생생한 공연장의 모습과 함께 감상한다. 이처럼 음악을 저장하고 재생하는 기술과 매체는 끊임없이 변화해 왔다. 이는 반도체 기술의 발전으로 가능했다. 한걸음 더 나아가 이제는 음악 자체를 만드는 ‘작곡’의 영역에도 변화가 오기 시작했다. 인간을 대신해서 생성 인공지능이 작곡을 할 수 있게 되었기 때문이다.

‘음악(音樂)’은 소리를 재료로 하는 시간 예술이다. 인간이 가진 고도의 감성적, 지성적 활동의 산물이다. 이러한 음악의 3요소로는 ‘리듬(Beat)’, ‘선율(Melody)’, 그리고 ‘화성(Harmony)’이 있다. 리듬이란 음악의 시간적 요소를 표현한다. 즉 리듬은 음의 길이, 박자, 강세 등을 포함한다. 반면 선율은 음들의 높낮이가 시간에 따라 움직이는 것을 표현한다. 선율은 사람의 다양한 감성을 불러일으키며 가장 쉽게 기억되어지는 음악의 중요한 요소이다. 마지막으로 화성은 높이가 다른 2개 이상의 음이 동시에 울렸을 때의 합성음을 말한다. 소리의 조화를 위한 규칙이다. 대중음악에서는 코드(Chords)로, 클래식에서는 화음(Triads)으로 설명한다. 이러한 리듬, 선율, 화성은 모두 일정한 패턴을 갖고 있다. 다시 말해서 음악에는 음의 시간에 따른 배열과 음의 주파수 배열에 대한 규칙성을 갖고 있는 것이다. 그 규칙성에서 인간은 편안함과 감동을 받는다. 인간의 심장 박동도 규칙성을 갖고, 인간의 귀의 고막 진동도 규칙성을 갖고 있기 때문일 것이다. 아마 우리 뇌도 규칙성과 반복성을 좋아하는 것 같다. 인공지능은 바로 이러한 시간과 주파수와 공간에 존재하는 패턴을 통해서 학습한다. 음악은 인공지능 학습에 필요한 데이터의 조건을 잘 갖고 있다. 대표적인 생성 인공지능인 거대 언어 모델(LLM)이 글을 잘 쓰는 원리와 똑같다. 그래서 생성 인공지능이 작곡도 할 수 있는 것이다.

생성 인공지능이 음악을 작곡하는 방법으로는 몇 가지 대표적인 알고리즘이 있다. 먼저 음악을 시각적인 이미지 파일로 변환해서 창작하는 방법이 있다. 시간에 따라 변화하는 음악 주파수 정보를 이미지로 표현한 그림을 ‘스펙트로그램(Spectrogram)’이라고 부른다. 이렇게 그림 패턴으로 수집한 수많은 음악 데이터들은 인공지능 학습에 사용된다. 그리고 이들을 조합하고 변형하고 융합해서 새로운 이미지 파일을 만들고 최종적으로 음악으로 변환한다. 이렇게 새로운 곡이 탄생한다. 인간처럼 인공지능도 좋은 음악을 작곡하기 위해서는 명곡을 많이 들어야 한다.

다음으로는 챗GPT와 같은 거대 언어 모델을 사용할 수 있다. 인공지능은 글을 읽고 따라 쓰기를 반복하면서 언어를 배운다. 마찬가지로 시간에 따라 변화하는 소리를 언어처럼 배우고 따라 한다. 인공지능은 음악을 언어로 이해하는 것이다. 이러한 알고리즘을 통해서 인공지능은 확률적으로 가장 인간이 좋아하고 감동을 느끼는 음악들을 순서대로 생성해 낸다. 여기에 더해 ‘인간 평가단’이 추가 점수를 매기면서 곡의 완성도를 높일 수 있다. 이러한 방법을 ‘인간 피드백 강화 학습(RLHF, Reinforcement Learning by Human Feedback)’이라고 부른다. 인간의 과외를 받는 것이다. 세계적인 작곡가 진은숙이 함부르크 음대에서 거장 작곡가 ‘죄르지 리게티(Ligeti György)’를 사사한 것과 같은 원리이다.

이러한 생성 인공지능 작곡은 다양한 서비스 형태로 인간에게 제공될 수 있다. 곡의 주제를 ‘프롬프트(Prompt)’로 입력하면 이를 이해하고 주제에 맞게 작곡을 해 준다. 가사도 쓰고 그에 맞게 작곡도 할 수 있다. 또는 새로운 무드, 텍스트, 영상을 입력하면 그에 맞는 음악을 작곡하고 연주도 해 준다. 여기에 더해 간단한 음악 샘플링을 들려주면 완전한 음악으로 생성해 준다. 마지막으로 기존의 음악을 들려주고 이를 새로운 형태로 변형을 하도록 요구할 수도 있다. 예를 들어 교향곡을 들려주고 이를 트로트로 변형해 달라고 할 수도 있다. 이렇게 인공지능을 사용하면 초 단위로 새로운 작곡을 할 수 있다. 그 숫자에도 제한이 없다. 곡의 길이에 대한 제한도 없다. 전기만 공급되면 24시간 동안 작곡을 한다. 미래에는 인간 작곡가가 사라질 수도 있다.

인간이 창작한 음악의 가치를 인정하고 이를 보호하기 위해서 저작권 제도가 있다. 저작권을 가진 작곡가에게는 음원 수입이 제공된다. 현재 미국의 싱어송라이터인 ‘테일러 스위프트(Taylor Swift)’가 음원 수입 1위 가수이다. 테일러 스위프트는 자신의 곡 모두를 자신이 단독 또는 공동으로 작사, 작곡 및 프로듀싱을 한 가수다. 국내 음원 수익 1위는 방탄소년단 프로듀서로 알려진 ‘피독(PDOGG, 강효원)’이다. 미래에는 생성 인공지능이 이들을 대체할 수도 있다. 목소리, 얼굴 표정, 춤까지도 인공지능이 대신할 수 있다. 그러면 새로운 테일러 스위프트는 볼 수 없게 될지도 모른다. 그리고 인공지능은 대중음악을 넘어서 동요, 자장가, 교가, 군가를 작곡할 수 있다. 하지만 아직 인공지능이 만든 노래에는 인간적인 감동의 스토리가 없다. 소리만 있다. 우리의 가슴을 울리지는 못한다. ‘미스트롯3′에 나온 빈예서 양이 부른 ‘모정’을 들으면서 잠시 눈시울이 젖는다. 이런 노래가 더 좋다.

이 기사에 대해 어떻게 생각하시나요?

조선일보에서 직접 확인하세요. 해당 언론사로 이동합니다.

사설칼럼

[김정호의 AI시대의 전략] 놀라운 작곡 능력의 AI… 이제 ‘테일러 스위프트 신화’는 없다?