[아무Tech]개·고양이 구분 못하던 인공지능이 어느새 '화가'로

이미지 구분을 넘어서 이제는 '화풍·맥락'에 맞춰 이미지 생성 척척

[편집자주] 2020년부터 2년간 연재한 [생활속과학]에 급변하는 기술 분야까지 더해 [아무Tech]로 확대 개편합니다. 과학과 기술의 경계가 점점 흐려지고 있는 지금 아무렇지 않게, 아무나 과학기술을 편하게 접근할 수 있도록 징검다리가 되겠습니다.

'페르시안 고양이가 검은 자킷을 입고 바다에서 기타 치는 사진'을 입력받은 구글 리서치의 브레인 팀이 개발한 인공지능 이매젠(Imagen)이 생성한 그림 (Imagen 공개 블로그 갈무리) 2022.05.24 /뉴스1

카카오브레인이 공개한 이미지 생성 AI모델 'RQ-Transformer'에 '사막에 있는 에펠탑'을 입력하자 등장한 이미지 모델(카카오브레인 제공) 2022.04.19 /뉴스1

(서울=뉴스1) 김승준 기자 = 2010년대 초중반 인공지능(AI) 관련 글을 보면 '고양이와 개를 구분 못하는 AI'라는 표현이 자주 등장한다. 그림 구분에도 어려움을 겪었던 인공지능 기술이 빠르게 발달해 어느새 말 만하면 척척 그림을 그려주는 '화가'가 되었다.

지난 4월 미국의 인공지능 연구소 오픈AI(OpenAI)가 공개한 달리2(DALL·E 2)의 경우에는 단순히 단어를 통해 이미지를 생성하는 것을 넘어, 소위 '화풍'이라고 불리는 이미지의 스타일과 맥락까지 이미지 생성 과정에 담아낸다.

예를 들어, 미술관 내부에서 작품을 찍은 사진이 있다고 해보자. 이 사진에는 각 그림의 서로 다른 화풍과 '사진'이라는 맥락이 있다. 이 사진에 새로운 이미지를 합성하는 생성 작업을 달리2에 입력하면, 달리2는 합성 위치에 따라 주변 화풍에 맞는 이미지를 생성해 붙여 넣는다.

오픈AI(OpenAI)의 인공지능 달리2(DALL·E 2)가 명령받은 이미지의 위치따라 맥락에 맞춰 웰시코기를 합성한 이미지 (OpenAI 공식 홈페이지 갈무리) 2022.04.07 /뉴스1

이러한 이미지 생성에 쓰이는 대표적인 인공지능 모델은 적대적 생성 신경망(GAN)과 확산(Diffusion) 모델이다.

적대적 생성 신경망은 크게 생성자와 감별자로 구성됐다. 생성자는 인공 이미지를 만들고 감별자는 인공 이미지와 학습 이미지(기존 이미지)를 구분하며 경쟁한다. 즉 속이고 속지 않으려는 일종의 경쟁이 반복적으로 일어나며, 생성되는 인공이미지가 점점 실제 이미지와 구분하기 어려울 정도로 정교해지는 것이다.

하나의 이미지에 잡음 데이터를 추가하면 이미지는 제 형체를 잃고 알아볼 수 없게된다. 이 과정을 거꾸로 실행해 알 수 없는 이미지에서 잡음을 제거해 나가면 알아볼 수 있는 이미지를 얻어내는 것을 생각해볼 수 있다. 인공지능에 알 수 없는 이미지에서 알아볼 수 있는 이미지를 얻어내는 과정을 학습시킬 수 있는데, 이것이 '확산'모델의 개요다.

이미지 생성 AI는 아직 '딥 페이크'로 대표되는 악용 가능성과, 사회적 편견을 재생산하는 '편향' 문제에서 자유롭지 않다. 이러한 이유로 오픈 AI를 비롯해, 구글, 엔비디아(NVIDIA), 카카오 등은 제각기 이러한 이미지 생성 인공지능을 개발해 발표했지만, 쉽게 대중이 쓸 수 있도록 공개하고 있지 않다. 기능의 일부에 제약을 걸어 놓거나, 연구 결과물만 논문과 홈페이지에 공개하는 정도에 머물고 있다.

seungjun241@news1.kr

IT

[아무Tech]개·고양이 구분 못하던 인공지능이 어느새 '화가'로