‘우주인을 타고 있는 말’…생성형 AI는 못 그린다, 왜?

[한겨레S] 이관수의 인공지능 열전
그림 그리는 인공지능

모든 개념과 추론을 기호로 표상하고 연산할 수 있다는 ‘기호주의’의 압제가 느슨해진 1980년대 중후반, 인공신경망 연구자들은 잊혔던 1960년대 연구 결과를 재정리하고 인공신경망의 특성들을 새로운 관점에서 바라보기 시작했다. 그 당시까지의 인공신경망들은 다수의 입력 데이터를 받아서 소수의 출력 결과를 내놓는 것들이었다. 예컨대 프랭크 로젠블랫의 ‘퍼셉트론 마크 1’은 도형을 분류할 때, 512개의 수치를 받아 8개의 출력값을 내놓았다. 출력값들을 최종 분류 결과로 풀이한 로젠블랫과 달리, 출력값들 또한 새로운 데이터로 바라보는 신세대 연구자들도 나타났다. 이런 관점에서 인공신경망은, 언뜻 중구난방인 것처럼 보이는 대량의 수치 데이터를 어떻게든 정리해서 새로운 수치 몇개를 만들어내는 장치였다. 아이러니하게도 인공신경망은 인간 신경망을 연구하는 데 동원되기도 했다. 두개골을 열어 대뇌피질에 전극을 연결하면 두피에 전극을 붙여 읽히는 일반 뇌파보다 엄청나게 다양하고 복잡한 전기 신호들이 잡히는데, 인공신경망을 그런 전기 신호들을 정리하는 데 활용하기 시작한 것이다.

인공신경망 내부의 마법

그런데 인공신경망이 산출한 새로운 수치들은 어떤 의미를 지닐까? 새로운 수치들은 입력된 수치들의 중요한 특징을 반영하는 것일까, 아니면 제멋대로 튀어나온 수치일까? 이런 고민거리를 일거에 해결하는 듯한 착상이 1990년 2월 미국화학공학회지에 실렸다. 논문에서 제시한 신경망은 크기(노드의 개수)가 같은 1층 입력층과 3층 출력층 사이에 크기가 훨씬 작은 2층 병목층을 끼워 넣은 것이었다. 그리고 입력층에 입력한 수치들이 병목층을 거쳐 출력층에서 거의 그대로 출력되도록 지도학습을 시킨다. 이 상태에 도달하면 입력한 수치들의 중요 특징이 고스란히 중간 병목층에 담기고, 그런 특징을 이용해서 출력층에서 입력 수치를 복구하게 된다. 입력층과 출력층이 똑같으면 그 둘을 매개하는 병목층의 수치들은 입력값의 특징을 반영한 것이라는 가정에서 출발한 구상이었다. 이제는 병목층을 잠재층이라고도 부른다.

이 논문의 저자인 마크 크레이머는 매사추세츠공과대학(MIT)의 지능형 화학공정 자동화 시스템 연구실에서 수리분석을 맡은 조교수였다. 그는 공정용 센서들에서 나오는 종잡을 수 없어 보이는 수치 데이터들을 지배하는 핵심 요인을 찾아내는 데 자신이 제안한 신경망이 유용하다고 주장했다.

1994년 캐나다 토론토대학 제프리 힌턴도 다층 신경망에서 신호들이 넓은 층에서 좁은 잠재층까지 갔다가 다시 넓은 층으로 이동하는 방식의 알고리즘을 고안했다. 그 과정에서 똑같지는 않은 신호가 새로 “생성”됐다. 그리고 생성형 인공지능이 각광을 받기까지는 다시 20년이 필요했다.

그림 지우고 복원하며 학습

생성형 인공지능은 특정 조건 등에 맞는 그림, 텍스트, 소리, 각종 센서값을 만들어내는 기능을 한다. 이 중에서 가장 비약적인 발전을 이룬 분야가 그림 생성형 인공지능이다. 이는 사진 식별 프로젝트와도 관련이 깊었다.

2014년 초, 캐나다 몬트리올대학의 이언 굿펠로는 연구실 동료의 학위 취득 축하 파티에 갔다가 다른 동료들이 진행하고 있던 사진 생성 프로젝트에 대해 이야기하게 되었다. 굿펠로의 학위논문은 화상인식을 다루었고, 구글에서 인턴으로 스트리트뷰 차량이 촬영한 사진에서 주소를 읽어내는 인공지능 개발에도 참여했기 때문에 자연스러운 일이었다. 당시 인공지능으로 생성한 얼굴 이미지는 흐릿하거나 귀가 없는 등의 오류가 잦았다. 친구들의 구상은 사진을 구성하는 요소에 대한 복잡한 통계 분석을 하는 것이었는데, 엄청난 양의 숫자 계산이 필요했다. 굿펠로는 두개의 인공신경망을 맞붙여보자는 아이디어를 제시했고 코딩을 해보니 첫 시도에도 잘 작동했다. ‘적대적 생성신경망’(GAN) 모델의 탄생이었다. 크레이머 모델의 잠재층과 결과층을 합친 것에 해당하는 생성신경망이 모조 데이터를 만들고, 입력층과 잠재층을 합친 셈인 판별신경망이 진위를 가리는 게임을 반복해서 생성신경망이 점점 더 그럴듯한 그림을 만들도록 훈련하는 방식이다. 위조지폐를 예로 들면, 위조지폐범이 생성자가 되고 위폐를 가려내야 하는 경찰이 판별자가 된다. 둘은 적대적으로 서로 실력을 향상시키는데, 생성자의 실력이 어느 순간에 다다르면 판별자는 진위를 판단할 수 없는 지경이 된다. 굿펠로는 친구들과 논문을 작성해서 그해 6월에 초고를 완성하고 12월 학회에서 공식 발표했다.

같은 해 4월 서부 캐나다에서 열린 학회에서 네덜란드 암스테르담대학의 디데릭 킹마와 막스 벨링이 ‘변분 오토인코더’(Variational Autoencoder) 모델을 발표했다. 오토인코더는 크레이머 모델처럼 입력된 데이터가 좁은 병목층, 즉 잠재층을 거쳐 넓은 출력층에서 다시 복구되도록 구성한 신경망이었다. 크레이머 모델과의 차이는 훈련시킬 때 입력 데이터뿐만 아니라 입력 데이터들의 평균값과 분산, 그리고 적절한 잡음 신호도 함께 활용한다는 점이다. 훈련을 마치고 잠재층에 난수를 넣으면 출력층에서 입력 데이터와 비슷하지만 동일하지는 않은 모조 데이터들이 나온다. 훈련시킬 때 추가한 잡음 신호 덕분이다. 여러 사람의 얼굴을 입력해 더 많은 얼굴을 만들 수 있는 방식이다.

적대적 생성신경망 모델이 엄청난 관심을 끌어모으던 2014년 가을, 스탠퍼드대학의 방문연구원인 야샤 솔딕스틴은 초청자인 수리아 강굴리와 함께 언뜻 황당해 보이는 착상을 논문으로 옮기고 있었다. 그것은 지워버리기 또는 덮어씌우기를 이용해서 생성형 인공지능을 만들자는 것이었다. 우선 오토인코더 인공신경망을 훈련시켜서 쓸 만한 잠재층을 완성한 뒤 여기에 점진적으로 잡음 신호를 더한다. 잠재층이 어떤 의미나 패턴을 찾아볼 수 없는 백색 잡음이 될 때까지 반복한다. 이를 다시 순서를 뒤집는 과정을 새 신경망에 학습시킨다. 귀여운 고양이 그림이 있었다면 여기에 점을 더해 기존 형체를 전혀 알아볼 수 없게 하는 것이다. 여기서 원본 데이터(귀여운 고양이 그림)를 복원하도록 훈련시킨 뒤 이렇게 알아낸 방식을 적용해 아름다운 열대 해변 그림을 그리는 것이다. 훈련시킬 때 잡음이 확산되는 셈이라고 해서 ‘확산(Diffusion) 모델’이라고 부른다. 물리학자 출신인 솔딕스틴과 강굴리는 논문을 쓰면서 굿펠로 및 킹마와 고마운 토론의 덕을 보았다는데, 격려와 비판 어느 쪽에 무게중심이 있었는지는 알려지지 않았다.

이 세 방식은 특성이 조금씩 다르다. 적대적 생성신경망 방식은 산출물들이 덜 다양한 편이다. 대신 훈련 데이터를 몇천·몇만건이 아니라 불과 몇백건만 사용해도 쓸 만해지는 일이 흔하다.

변분 오토인코더는 입력 데이터의 평균값을 사용하기 때문에 산출물들 사이의 변별점이 무뎌지지만, 산출물들이 더 다양하게 나온다. 확산 모델은 훈련과 산출에 오랜 시간이 걸린다. 그 대신 산출물도 다양하고 가장 생생한 편이다. 당연히 여러가지 보완 기법들과 변형 모델이 개발되었고, 세 모델을 단계별로 섞어 쓰는 기술도 등장했다.

☞한겨레S 뉴스레터 구독하기. 검색창에 ‘한겨레 뉴스레터’를 쳐보세요.

☞한겨레신문 정기구독. 검색창에 ‘한겨레 하니누리’를 쳐보세요.

‘우주인을 탄 말’ 못 그리는 이유

2017년에 럿거스대학의 아메드 엘가말이 개발한 인공지능 아이캔(AICAN)은 적대적 생성신경망 기본 모델을 변형한 것이다. 기본형 적대적 생성신경망에선 판별자가 승인(1)과 기각(0)만을 가렸지만, 아이캔에선 예술작품이라고 보는지, 창의적이라고 보는지, 두번의 판정을 하도록 했다. 기존 예술품을 훈련 데이터 삼아 전체 집합과 대체로 비슷하면서도, 개별 작품과는 꽤 차이 나는지를 판정하는 방식이었다. 일반 관객들 시선을 잡아끌 정도의 명작이 나오는 건 드물었지만, 평론가들이 새로운 스타일이라고 평할 작품들은 꽤 만들어냈다.

2021년 1월 오픈에이아이(OpenAI)사의 달리(DALL-E)는 유일하게 일반 대중이 널리 사용해볼 수 있었던 변분 오토인코더 모델이었다. 이후 등장한 달리2, 미드저니, 스테이블디퓨전 등등은 확산 모델을 쓴다. 변분 오토인코더 모델은 평균값을 많이 반영하는 만큼 화상이 뭉개지는 경향이 있다. 그래서 생생한 결과물을 만들기 용이한 확산 모델보다 사람들의 눈길을 끄는 데 불리했던 것으로 짐작된다. 더구나 요즘의 확산 모델은 중간 단계를 일부 생략해 시간을 단축하면서도 생생함을 덜 손상시키는 기법들을 사용한다.

이런 생성형 모델들이 지능적일까? 인공지능 내부의 작동 방식은 정해진 범위 안에서 단순 계산을 엄청나게 반복하는 것임은 분명하다. 그렇다면 입력한 텍스트의 의미를 이해해서 그림을 그리는 것일까? 미리 단어마다 그림을 짝지어놓고, 잠재층 내에서 그 짝그림에 대응하는 수치값들을 찾아서 산출물을 만들어낸다. 그래서 말을 탄 우주인 그림은 출력하지만 우주인을 탄 말 그림은 못 그린다는 문제는 드러난 지 2년이 지났어도 해결되지 않고 있다. 여기까지 오는 데 짧게는 20년, 길게는 40년이 걸렸다. 사람처럼 다재다능한 ‘지능적’인 생성형 인공지능이 등장하기까지 얼마나 더 걸릴지 모른다.

과학저술가
서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

이 기사에 대해 어떻게 생각하시나요?

한겨레에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학