딥페이크 등 생성형AI에 목줄 거는 AI

이 작품은 빈센트 반 고흐가 그린 '해바라기'입니다. 인간의 눈에는 멋지기만 한 이 그림은 사실 인공지능(AI)에겐 독이나 다름없습니다. 과학동아가 AI를 암살하는 프로그램 '나이트셰이드'를 이용해 원본 그림에 살짝 변형을 가했거든요.

나이트셰이드는 지난 1월 18일 출시된 이후로 2달 만에 30만 건의 다운로드를 기록하며 인기를 끌고 있습니다. 누가, 왜 AI를 암살하는 프로그램을 만들었을까요. 생성형AI를 둘러싸고 벌어지는 컴퓨터과학자들 간의 소리 없는 암투를 살펴봤습니다.

'세상에 나쁜 개는 없다'란 방송 프로그램이 있습니다. 반려견의 행동을 나쁜 버릇이라고 치부하지 말고 그 보호자의 행동 속에 있는 잘못을 살펴보자는 취지의 방송이죠. 인공지능(AI) 분야에선 '세상에 나쁜 AI는 없다'는 방송이 필요할지도 모르겠습니다. 생성형AI가 눈부신 발전을 이룩하는 가운데 이를 악용하는 사람들에 의한 피해가 속출하고 있기 때문이죠.

지난 2월엔 팝스타 테일러 스위프트의 이미지를 악의적으로 합성한 음란 딥페이크가 소셜미디어에 퍼져 논란이 됐습니다. 3월 충북에선 중학생들이 딥페이크를 활용해 지인의 얼굴을 합성한 음란물을 만들어 경찰이 수사에 나섰습니다.

챗GPT를 비롯해 영상 생성형AI인 '소라', 음성 생성형AI '보이스 엔진' 등을 개발한 오픈AI는 미국의 언론사 뉴욕 타임스로부터 저작물을 동의 없이 AI 학습 데이터로 사용해 저작권을 침해했다는 비판을 받기도 했습니다.

4월엔 닐 모한 유튜브 CEO(최고경영자)가 "만약 오픈AI가 유튜브에 게시된 영상물을 소라의 학습 데이터로 활용했다면 이는 유튜브의 서비스 약관을 위배한 것"이라고 경고했죠.

이 가운데 무서운 기세로 발전하는 AI에 목줄을 걸겠다는 연구자들이 있습니다. 대표적인 이들이 바로 벤 자오 미국 시카고대 컴퓨터과학과 교수가 이끄는 '글레이즈/나이트셰이드 팀'입니다. "글레이즈 프로젝트는 생성형AI가 인간의 창의성을 침해하지 못하도록 막는 명확한 목표를 가진 연구입니다." 글레이즈/나이트셰이드 팀 홈페이지에 적혀 있는 소개 글입니다.

● 인간의 창의성 보호하는 '투명망토와 독약'

생성형AI가 인간의 창의성을 침해할 수 있다는 경고는 그간 많이 있었습니다. 생성형AI가 그림을 '그리게' 하려면 인간 창작자가 그린 이미지가 수만 장씩 필요합니다. 다량의 이미지를 학습해 주어진 키워드에 따라 어떤 이미지를 생성할지 결정하고 실제로 이미지를 제작하는 인공 신경망을 구축해야 하거든요.

그런데 거대 기술 기업들이 인터넷에 게시된 작품을 생성형AI의 학습 데이터로 무단 사용했던 겁니다. 그 결과 저작권이 침해됨은 물론 창작자들이 생성형AI에 일자리를 위협받게 됐죠.

물론 이를 막기 위한 사회적 논의는 계속돼 왔습니다. 지난 3월 13일(현지 시각) 유럽연합(EU)에선 세계 최초로 포괄적 AI 규제법이 마련됐습니다. 이에 따라 AI 개발사들은 자신의 AI 학습 과정에 사용한 콘텐츠를 명시해야 한다는 조항이 법제화됐죠. 하지만 이 법은 아직 EU 회원국 내에서만 적용됩니다.

글레이즈의 작동 과정. 벤 자오 미국 시카고대 컴퓨터과학과 교수팀이 개발한 프로그램 '글레이즈(Glaze)'의 작동과정. ① 원본 이미지에 '고흐가 그린 유화'처럼 보이도록 변형을 가한다. ② 변형한 이미지를 인공지능(AI)이 학습하면 ③ 고흐가 그린 유화 화풍의 이미지가 생성된다. arXiv 제공

EU의 포괄적 AI 규제법이 적용되지 않는 국가의 창작자들에겐 아직 자신의 저작물을 지켜낼 수단이 없습니다.

글레이즈/나이트셰이드 팀의 연구는 창작자들에게 중요한 무기가 됐습니다. 정확히 말하자면 투명망토와 독약이죠. 이들이 2023년 2월 공개한 프로그램 '글레이즈(Glaze)'는 생성형AI가 창작자 고유의 화풍을 모방하지 못하도록 막기 위해 개발됐습니다.

연구팀은 이를 '스타일 망토'를 씌운다고 표현합니다. 예를 들어 당신의 작품에 디즈니 만화 화풍처럼 눈이 크고 색 대비가 명확하다는 특징이 있다고 가정해 봅시다. 작품에 글레이즈를 적용할 때 당신은 이 그림이 AI에게 어떻게 보이길 바라는지 선택할 수 있습니다.

반 고흐 화풍의 유화처럼 보이게 만들 수도 있죠. 그러면 글레이즈는 작품에 인간이 감지할 수 없을 정도의 미세한 변형을 가합니다. (arxiv/2302.04222)

인간의 눈에는 글레이즈를 적용한 이후에도 똑같이 디즈니 애니메이션 화풍의 그림이 보입니다. 하지만 만약 생성형AI가 이 작품의 이미지를 무단으로 학습 데이터에 사용한다면 이야기가 달라집니다. AI에게 이 작품은 반 고흐가 그린 유화로 인식됩니다.

그래서 해당 작품을 학습한 AI는 앞으로 반 고흐의 화풍으로 그림을 그리게 됩니다. 당신의 화풍은 투명 망토를 씌운 것처럼 감쪽같이 가려지죠. 연구팀은 논문에서 "글레이즈를 적용한 이미지를 자르거나, 압축하거나, 캡처하는 등 어떤 손상을 가해도 글레이즈의 효과는 유지된다"고 설명했습니다.

한편 지난 1월 출시된 '나이트셰이드(Nightshade)'는 글레이즈보다 더 적극적인 방식을 택합니다. 바로 이미지에 독약을 묻혀 생성형AI의 이미지 생성 체계 자체를 무너뜨리는 겁니다. 생성형AI를 독살하는 프로그램이 나이트셰이드가 처음은 아닙니다. 원리도 무척 간단해요. 생성형AI가 이미지와 텍스트를 묶어 학습한다는 사실을 역이용하는 식입니다. (arxiv/2310.13828)

조유진 일러스트레이터가 그린 로맨티메크 시리즈 중 하나. AI를 암살하는 프로그램 나이트셰이드(Nightshade)를 적용했다. Yujin Choo 제공

예를 들어 생성형AI에게 강아지를 그리는 법을 가르치려면 '강아지'란 텍스트와 연결된 강아지 이미지를 수십억 장 학습시키면 됩니다. 이 중 20%를 '강아지'란 텍스트와 연결된 고양이 이미지로 바꿔치기 하는 겁니다.

그러면 생성형AI는 '강아지'라는 단어에 강아지 이미지와 고양이 이미지를 함께 연결합니다. 결국 강아지를 그리라는 명령을 입력받아도 고양이와 강아지가 애매하게 섞인 무언가를 그리게 되죠.

이런 기존 방식은 독약 이미지가 쉽게 탄로 난다는 단점이 있었습니다. 나이트셰이드는 글레이즈처럼 이미지에 미세한 변형을 가합니다. 그래서 인간의 눈에 강아지로 보이는 이미지 위에 고양이의 이미지 데이터를 덧씌우죠.

독약 이미지를 쉽게 걸러낼 수 없도록 만드는 겁니다. 연구팀은 이런 '무색무취'의 독약 이미지를 활용해 이미지 생성형AI 스테이블 디퓨전을 실제로 오염시키는 실험도 진행했습니다. 그 결과 단 100장의 독약 이미지로도 생성형AI를 오염시킬 수 있다는 사실을 발견했죠.

글레이즈/나이트셰이드 팀은 현재 두 프로그램을 무료로 공개하고 있습니다. 나이트셰이드가 생성형AI를 독살한다면 AI 기업에 고소당하진 않을지 묻는 이용자의 질문에 대한 연구팀의 답이 유쾌합니다.

"당신이 점심 도시락에 핫소스를 뿌린 뒤 '먹지 마시오'라고 써놓는다고 하죠. 누군가 당신의 점심을 먹고 핫소스 때문에 탈이 난다고 해도 당신이 책임을 질 필요는 없습니다."

AI에 바지 입혀주는 AI. 우사이먼성일 성균관대데이터사이언스융합학과 교수팀은 생성형AI가 만드는 이미지에서 특정 컨셉을 자연스럽게 수정하는 AI를 개발했다. 우 교수팀이 개발한 AI를 적용하기 전(왼쪽)과 적용한 후(오른쪽). 이미지 속 남성의 나체에 자연스럽게 옷을 입혔다. arXiv 제공

● AI, 딥페이크에 바지 입히다

또 다른 생성형AI 악용 사례로는 딥페이크가 있습니다. 딥페이크는 AI를 이용한 이미지 합성 기술입니다. 딥페이크로 만든 가짜 이미지는 실제와 분간하기 어려울 정도로 정교합니다. 그래서 음란물 등에 얼굴을 합성하는 등 하지 않은 행동을 한 것처럼 보이게 만드는 데 악용되죠.

특히나 올해 상반기는 제22대 국회의원 선거가 있어 사회적으로 딥페이크의 악용에 촉각을 곤두세울 수밖에 없었죠. 딥페이크로 만든 가짜 정보가 유권자들의 판단에 영향을 미칠 수도 있으니까요.

실제로 2023년 12월 공직선거법 제82조에 "누구든지 선거일 전 90일부터 선거일까지 선거운동을 위하여 실제와 구분하기 어려운 딥페이크 영상 등을 제작ㆍ편집ㆍ유포ㆍ상영 또는 게시하는 행위를 하여서는 아니 된다"란 조항이 신설됐습니다. 중앙선거관리위원회가 4월 10일 발표한 보도자료에 따르면 이 조항에 따라 선거 기간 내 총 387건의 딥페이크 관련 선거법 위반행위가 발생했습니다.

이미 딥페이크가 퍼진 뒤에 제재한다면 늦습니다. 딥페이크를 애초에 악용하지 못하도록 막는 방법은 없을까요. 딥페이크 탐지를 연구하는 우사이먼성일 성균관대 데이터사이언스 융합학과 교수를 3월 7일 화상 인터뷰를 통해 만났습니다.

우 교수는 "나이트셰이드나 글레이즈처럼 AI 악용에 대한 능동적인 대처 연구는 아직 세계적으로도 초기 단계라 최근 1~2년간 관련 연구가 조금씩 나오기 시작하는 상황"이라고 설명했습니다. 우 교수팀은 딥페이크에 바지를 입히는(?) 연구를 한창 진행 중입니다. 생성형AI가 만드는 이미지에서 나체나 욱일기처럼 민감한 부분이 드러난다면 이를 자연스럽게 바꾸는 기술입니다.

우 교수는 "(이 AI를 적용하면) AI 모델에게 지워야 할 이미지가 무엇인지 그걸 어떻게 지울 것인지를 학습시킬 수 있다"면서 "이미지의 품질을 낮추지 않으면서 가려야 할 컨셉을 가릴 수 있어 AI 사용자들에게 보다 자연스러운 결과물을 보여 줄 수 있다는 것이 장점"이라고 했습니다. (arXiv: 2312.12807)

나이트셰이드의 작동과정. 벤 자오 교수팀이 개발한 프로그램 '나이트셰이드(Nightshade)'의 작동과정. 나이트셰이드는 원본 이미지에 전혀 다른 키워드의 이미지 데이터를 덧씌운다. 예를 들어 개의 이미지에 고양이 이미지 데이터를 덧씌우는 식이다. 그 결과 생성형형AI가 명령어와 다른 이미지(고양이)를 생성하도록 만든다. arXiv 제공

이처럼 딥페이크에 능동적으로 대응하는 기술 외에도 시시각각 고도화되고 있는 딥페이크 이미지와 영상, 음성 등을 탐지하는 기술도 연구되고 있습니다. 언론사가 보도 전에 사실관계를 확인하는 데 사용하거나 수사기관에서 자료의 신빙성을 검증하기 위해 활용할 수 있죠.

지난 3월 5일 경찰청에서는 한국인을 포함한 아시아인 데이터 520만 점을 학습해 한국인의 딥페이크를 더욱 정확하게 탐지할 수 있는 '한국형 딥페이크 탐지 소프트웨어'를 개발했다고 밝히기도 했습니다.

우 교수는 "AI의 발전에 따라 이를 컨트롤할 수 있는 기술도 함께 마련돼야 한다"면서 "AI 개발사나 포털 사이트 등이 책임을 갖고 AI가 빚어낼 사회적 영향에 미리 대응해야 할 것"이라고 강조했습니다.

"AI 기술 발전 트렌드가 빠릅니다. 새로운 기술이 나오면 그 기술의 악용에 대응할 수 있는 기술을 마련하는 식으로 창과 방패의 싸움이 이어지고 있습니다. 더 나은 AI 기술을 만들기 위해서는 AI를 비판적으로 지켜보며 문제점을 파악하고 해결하는 사람들이 더 많이 필요하겠습니다."

※관련기사
과학동아 5월호, AI 암살하는 AI? 기술, 인공지능에 목줄을 걸다

[김소연 기자 lecia@donga.com]

이 기사에 대해 어떻게 생각하시나요?

동아사이언스에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT

딥페이크 등 생성형AI에 목줄 거는 AI