[김정호의 AI시대의 전략] AI는 폴 매카트니처럼 꿈을 꾸지 못한다

김정호 KAIST 전기·전자공학과 교수 2023. 5. 3. 03:02
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

22세 때 꿈에서 들은 멜로디로 ‘Yesterday’ 만들었다는 매카트니
챗GPT, ‘경험 모방 변형 융합’ 통해 창작하지만 ‘창조’는 못해
진정한 창조는 신의 영역… 생성 AI는 인간 창작 생산성 높일 것
/사진=게티이미지뱅크, 그래픽=김현국

비틀스 음악 중에 가장 즐겨 듣던 노래로 ‘Yesterday’가 있다. ‘Yesterday’는 1965년 발표된 비틀스의 가장 대표적인 노래로 폴 매카트니(Paul McCartney)가 직접 쓴 자작곡이다. 노래와 기타 연주도 모두 혼자 맡았다. 세계에서 가장 많이 연주된 곡으로 무려 700만번 이상 연주되었다. 잔잔한 멜로디 음악에 가사에서는 떠나간 연인과 그 시절을 그리워한다. 어쩌면 14살에 돌아가신 엄마를 그리워했을 수도 있겠다. 1965년 뉴욕 공연 실황도 유튜브를 통해서 쉽게 감상할 수 있다. 그 공연에서 폴 매카트니는 눈물인지 땀인지 범벅이 되어 노래를 부르고, 소녀들의 함성도 공명으로 울린다. 그런데 비틀스 전기인 ‘매카트니와 비틀스’에 따르면, ‘Yesterday’는 매카트니가 22살 당시에 잠을 자던 중 꿈에서 우연히 들은 멜로디라고 한다. 잠에서 깨자마자 잊어버리지 않으려고 바로 피아노로 달려가서 연주했다고 한다.

하지만 인간의 음악 창작 과정은 대부분의 경우 어느 날 하늘에서 뚝 떨어지는 완벽한 창조의 결과가 아니다. 아마 언제인가 비슷한 음악이나 소리를 과거에 들었고, 그 연상과 기억이 뇌 속에 남아있었던 것이다. 그 소리는 어머니 자궁에서 들었던 진동이었을 수도 있고, 봄바람 산책길에 귀에 담은 나뭇잎 바람 소리이거나 버스 정류장 앞 전파사 스피커에서 퍼져 나오던 노랫소리였을 수도 있다. 문학과 미술에서도 대부분의 창작 과정은 마찬가지일 것이다. 이렇게 대부분의 경우 인간은 경험을 쌓고, 이를 바탕으로 모방하고, 변형하며, 마침내 이들을 융합해서 새로운 작품을 만든다. 인공지능도 인간과 똑같이 4단계의 창작 과정을 거친다. 인공지능에서는 이러한 창작 기능을 ‘생성 모델(Generative AI Model)’이라고 부른다.

생성 인공지능 모델의 시작은 인공지능 과학자 이언 굿펠로(Ian Goodfellow)가 2014년 NIPS(신경정보처리시스템학회)에서 발표한 GAN(Generative Adversarial Network)이다. ‘적대적 생성신경망’이라고도 불리는 GAN 안에는 작품 발생기(Generator)와 작품 감별기(Discriminator)가 함께 들어 있다. 예를 들어 인공지능이 모방하려는 그림이 반 고흐의 그림이라고 한다면, 발생기는 계속해서 고흐 그림을 모방해서 그려내고, 감별기는 모방한 가짜 그림을 진짜 고흐의 원본 그림과 비교한다. 감별기가 도저히 가짜 그림을 판별할 수 없을 때까지 발생기는 계속해서 모방 그림을 그린다. 이렇게 발생기와 감별기가 서로 경쟁하면서 변증법적으로 발전한다. 마침내 참과 거짓이 무승부를 이룬다. 이때가 되면 GAN은 완벽히 가짜 모방 그림을 그려낸다. 인간처럼 모방을 통해서 그림 그리기를 연습하는 것이다. 이러한 모방 과정에서 각 화가에 따라 각각 다른 인공지능망 변수들과 해당 암호(Latent Vector)가 축적된다. 이들을 변형하거나 다른 사진과 융합해서 새로운 그림을 그린다.

최근 화제를 모으는 챗GPT도 변환기(Transformer Model) 구조를 갖는 생성 인공지능 모델이다. 내부는 입력 데이터를 디지털 암호로 전환하는 인코더와 이들 디지털 암호를 재해석하고 해독해서 다시 디지털 출력을 내는 디코더로 이루어져 있다. 마치 암호 번역기와도 비슷하다. 입력으로는 보통 문서가 들어가고, 출력으로는 문서, 영상 또는 음악이 나오게 된다. 일종의 멀티미디어 번역기이자 생성기가 된다. 이런 방법으로 오픈AI의 챗GPT는 문서를 생성하고 달리(DALL-E)는 그림을 생성한다. 둘이 공동 작업도 한다. 가까운 미래에는 문학, 음악과 미술 작품을 융합해서 동시에 생성할 수도 있다. 결국 챗GPT의 핵심은 생성 인공지능(Generative AI) 기능이다.

챗GPT에서도 인간과 마찬가지로 모방을 통해서 학습하고, 변형과 융합을 통해서 새로운 출력을 얻는다. 특히 모방을 그럴듯하게 하기 위해서 각 글자와 문단들 사이의 관계와 맥락을 수치화한 맥락관계망(Attention Network)이 추가되었다. 그뿐만 아니라 언어의 핵심 요소인 단어의 순서와 위치까지도 학습하고 기억한다. 모방의 과정이다. 그리고 자기주도 연습과 자체 평가를 통해서 모방을 극대화한다. 이런 과정을 거치면서 챗GPT는 그럴듯한 문서를 생성해 내기 시작했다. 모방을 계속하다 보면 변형과 융합까지도 할 수 있다. 이렇게 되면 학습에 사용한 원본을 찾아내기도 어렵게 된다. 결국 생성 인공지능의 창작 수준은 학습에 사용된 데이터와 시간의 분량에 의해 결정된다. 더 나아가 인공지능 과학자들은 좀 더 정확하고, 수준 높으며, 다양한 매체로 융합 창작을 하면서도, 동시에 빠르고 저렴한 인공지능 생성 서비스를 개발하고자 노력하고 있다.

앞으로 인간의 창작 활동에 생성 인공지능이 필수적인 도구로 사용될 전망이다. 인간이 창작에 사용하는 정신적인 시간과 노력을 대폭 줄여주게 된다. 창작의 생산성이 극대화되고 평균화가 이루어진다. 그래서 디지털 플랫폼 기업의 경쟁력은 바로 각 기업이 보유한 생성 인공지능의 기능과 성능이 좌우하게 된다. 생성 인공지능 기술과 개발 인력의 확보가 인공지능 산업의 가장 뜨거운 각축장이 될 전망이다. 하지만 아직 생성 인공지능의 능력은 완전한 창조의 단계에 이르지는 않았다. 그래서 현재의 인공지능을 창조 인공지능 모델(Creative AI Model)이라고 부르지는 않고 생성 인공지능 모델(Generative AI Model)이라 부르는 것이다. 아마도 진정한 창조(創造)는 신(神)의 영역으로 보인다. 인공지능은 비틀스의 폴 매카트니처럼 꿈을 꾸지 못한다. 그리고 아직 땀과 눈물도 없다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?