[프리미엄 리포트]진짜보다 나은 가짜 데이터

제너레이티드 포토(Generated Photo)가 공개한 사진들. 인공지능이 딥러닝을 통해 합성한 10만장의 얼굴사진을 직접 만들고 구입할 수 있다.

위의 사진에서 실제 사람은 몇 명일까요?

정답은 ‘0명’입니다. 모두 인공지능(AI)을 이용해 그럴듯하게 만들어낸 가짜 얼굴입니다. 딥러닝 등 AI 기술을 활용하면 세상에 없는 사람의 모습은 물론, 목소리와 행동까지 구현할 수 있습니다. 진짜보다 더 진짜 같은 가짜, 합성데이터가 만드는 AI의 세계를 소개합니다.

강아지와 고양이가 있다고 가정해 봅시다. 둘 다 네 개의 다리와 꼬리를 가지고 있고, 부드러운 털이 나 있어 언뜻 비슷해 보입니다. 그렇지만 우리는 둘을 단숨에 구분할 수 있죠. 심지어 까맣고 작은 치와와와 커다랗고 새하얀 사모예드처럼 모양새가 매우 달라도 ‘강아지’라는 한 부류로 묶을 수 있습니다. 주위에서 강아지와 고양이를 보며 체득한 경험 덕분이죠.

인공지능(AI)도 이와 비슷한 방식으로 작동합니다. AI는 강아지와 고양이 사진 데이터에서 둘을 구별할 수 있는 특징을 찾아 변수로 만든 뒤 학습합니다. 이때 인간의 경험에 해당하는 것이 데이터인데요. AI가 스스로 판단할 수 있는 근거가 됩니다.

좋은 경험이 많을수록 정확한 판단을 내릴 확률이 높은 것처럼, 정확한 판단을 내리는 AI를 만들려면 고품질의 데이터가 필요합니다. 반면 학습에 필요한 데이터가 충분하지 않으면 알고리즘이 기대 만큼의 성능을 발휘하지 못할 수 있습니다. 그만큼 고품질 데이터의 확보는 AI 개발에 핵심입니다.

생성적 대립 신경망(GAN)의 생성모델은 위조지폐범, 판별모델은 경찰에 비유된다. 위조지폐범은 최대한 진짜 같은 지폐를 만들고, 경찰은 위조지폐와 진짜 지폐를 더 잘 구분하려고 노력하는 과정에서 적대적으로 성장한다. 게티이미지뱅크 제공

‘가짜’ 데이터가 만드는 ‘진짜’ 인공지능

요즘 세상에서 데이터의 중요성은 더욱 부각되고 있습니다. 과학기술정보통신부가 공개한 ‘2021 데이터산업현황조사’에 따르면 2020년 데이터 산업 시장 규모는 약 20조 원으로 전년 대비 18.7% 성장한 것으로 나타났습니다. 2017년 미국 경제지 ‘이코노미스트’에서 “세계에서 가장 가치있는 자원은 더 이상 석유가 아닌, 데이터다”라고 언급하기도 했죠.

하지만 빠른 성장세 속 AI 개발자들은 고품질 데이터를 확보하는 데 어려움을 겪고 있습니다. 미국 매사추세츠공대(MIT) 테크놀로지 리뷰에서 실시한 설문조사에서 글로벌 AI 기업들의 48%가 활용가능한 데이터 확보에 어려움을 겪는다고 답했습니다. 특히 의료금융 등 분야의 데이터는 개인정보를 담고 있어 더욱 활용하는 데 제한이 많습니다.

이에 합성데이터에 대체재로 떠오르고 있습니다. 합성데이터는 1993년 도널드 루빈 미국 하버드대 통계학과 교수가 처음 제안한 개념으로, 실제 환경에서 수집된 것이 아닌 컴퓨터 시뮬레이션 등 디지털 환경에서 만들어낸 정보를 말합니다. 인공적으로 만들어냈지만, 수학적이나 통계적으로는 실제 데이터를 반영하고 있습니다. 왼쪽(58쪽)에 가상으로 만든 사람들의 얼굴이 그럴듯해 보이는 이유죠.

합성데이터는 의료금융통신유통 등 분야를 막론하고 널리 활용되고 있습니다. 여기에는 손쉽게 그럴듯한 합성데이터를 만들 수 있는 알고리즘인 ‘생성적 대립 신경망(GAN)의 공이 컸습니다. 2014년 처음 등장한 GAN은 생성모델과 판별모델이 경쟁하면서 실제와 가까운 이미지, 동영상, 음성 등을 반복적으로 만들어내는 기계학습의 일종입니다.

GAN에서 생성모델은 위조지폐범, 판별모델은 경찰에 비유할 수 있습니다. 위조지폐범은 경찰의 눈을 속이기 위해 최대한 진짜 같은 지폐를 만들어내고, 경찰은 위조지폐와 진짜 지폐를 더 잘 구분하려고 노력하겠죠. 이렇게 위조지폐범과 경찰이 적대적으로 성장하게 됩니다. 그 결과 GAN을 이용하면 실제 사람처럼 생긴 이미지, 사람이 낼 법한 목소리 등 합성데이터를 만들어낼 수 있습니다.

싸고-빠르고-안전하고-윤리적인 합성데이터

생성적 대립 신경망(GAN)을 이용해 만든 합성데이터. 모나리자를 왼쪽부터 순서대로 카츠시카 호쿠사이, 빈센트 반 고흐, 앙리 마티스의 화풍으로 바꿨다. 위키피디아 제공

합성데이터는 AI 개발자들의 눈길을 사로잡았습니다. 빠르고 손쉽게 얻을 수 있었거든요. 신경망을 훈련할 때는 라벨이 붙은 대규모 데이터 세트가 필요합니다. 수천~수천만 개의 요소가 포함된 데이터 세트를 모으고, 라벨을 지정해야 하죠. 오랜 시간과 많은 비용이 드는 일입니다. 반면 합성데이터를 이용하면 라벨이 붙은 대규모 데이터 세트를 쉽고 저렴하게 확보할 수 있습니다. 합성데이터 기업 AI레버리의 설립자인 폴 월보르스키는 “데이터에 라벨을 지정하는 데 6달러(약 7500원)의 비용이 드는 반면, 이미지를 인공적으로 만든다면 6센트(약 75원)면 된다”고 말했습니다.

특히 합성데이터는 실제 데이터를 구하기 어려운 상황에서 빛을 발합니다. 예를 들어 자동차 충돌을 피하도록 자율주행 AI를 훈련시키려면, 충돌에 대한 훈련 데이터가 필요하겠죠. 하지만 실제 자동차를 충돌시켜 대규모 데이터를 얻기는 쉽지 않습니다. 이를 실제 도로가 아닌 시뮬레이터 내 가상 도로 환경에서 재현한 합성데이터로 대체할 수 있습니다.

개인정보 유출이나 사생활 침해에 대한 우려가 없다는 것도 장점입니다. 수많은 데이터를 학습하는 AI의 특성상 그 정보가 노출될 가능성도 배제할 수 없죠. 특히 금융의료 분야에서는 고객이나 환자의 민감정보를 포함한 경우가 많아 문제가 됩니다. 이때 민감한 변수, 식별 변수가 배제된 합성데이터가 해결책이 될 수 있습니다.

살짝 조작이 가능하다는 것도 유리한 점입니다. 우리는 지난해 AI 챗봇 '이루다 논란'을 통해 실제 데이터 세트가 전체를 대변하거나, 공정하지 않다는 사실을 알게 됐죠. 당시 챗봇이 성차별, 장애인 혐오 발언을 해 문제가 됐었습니다. 합성데이터는 인종이나 성별 같은 특정 속성을 제거하는 방식으로 기존 데이터 세트가 가진 편향 문제를 극복할 수 있습니다. (*이루다 논란이란, 2020년 스캐터랩이 공개한 AI 챗봇 ʻ이루다’가 성희롱 및 장애인, 동성애 혐오 발언을 해 문제가 된 사건을 말한다)

IT 전문 리서치 기업 가트너는 지난해 6월 보고서에서 앞으로 합성데이터의 사용량이 폭발적으로 늘어날 것으로 내다봤다. 자료 가트너

제대로 쓰려면 품질 검증이 우선

장점이 많은 합성데이터지만 한편으로는 ʻ가짜’라는 꼬리표가 따라다닙니다. 합성데이터가 만든 데이터 세트의 품질을 확인할 필요성이 있어 보이죠. 일례로 왜곡된 데이터로 만들어진 합성데이터는 실제 데이터와 완전히 다른 결과물을 만들 수도 있습니다. 되려 편향을 증가시킬 수도 있는 셈이죠.

최재훈 한국전자통신연구원(ETRI) 의료정보연구실 책임연구원은 “AI 의료기기는 식품의약품안전처에서 허가를 받아야 사용할 수 있는데, 가상 데이터(합성데이터)를 이용한 AI 의료기기는 아직 품질에 대한 확신을 갖기 힘들어 심사 통과가 힘들다”고 말했습니다.

이에 합성데이터의 품질을 검증하기 위한 작업이 이뤄지고 있습니다. 합성데이터와 실제 데이터의 유사도를 평가하는 방법은 크게 두 가지로 나뉩니다. 먼저 두 데이터를 직접 AI 모델에 적용한 뒤 비슷한 결과를 내는지 확인하는 방법이 있습니다. 또 합성데이터와 실제 데이터가 가진 확률분포의 유사도를 측정해 통계적 차이를 분석하기도 합니다.

이렇게 만들어진 합성데이터는 실제 데이터와 유사하다는 것이 증명됐습니다. 미국 조지매이슨대 등 공동연구팀은 합성데이터를 이용해 환자 집단을 생성하는 AI ʻ신디아(Synthea)’로 약 120만 명의 미국 매사추세츠주 지역 환자 집단 데이터를 생성했습니다. 그리고 대장암 검진률, 만성 폐쇄성 폐질환(COPD) 30일 이내 사망률 등 4가지 기준에 대해 분석한 결과, 실제 매사추세츠주에서 보고된 비율과 통계적으로 유사했습니다.

GAN을 활용해 만들어낸 합성데이터는 정교함 또한 상당 수준 갖춘 것으로 평가됩니다. 미국 하버드대 의대 연구팀은 1만 개의 실제 이미지로 GAN을 이용해 신장 세포 암종의 이미지를 생성했는데요. 합성된 이미지는 실제 암 세포의 얇은 벽으로 이뤄진 혈관 구조까지도 똑같았습니다.

AI 개발자에게 합성데이터는 양날의 검입니다. 검증된 합성데이터는 데이터 세트의 다양성을 높이고 AI 모델의 신뢰도를 높일 수 있지만, 왜곡된 합성데이터는 마치 딥페이크처럼 악의적으로 활용될 수도 있죠.

최 책임연구원은 “2016년 알파고-이세돌 대국에서 알파고가 승리하는 것을 보고 사람들이 AI에 대한 신뢰를 갖게 됐다”며 “합성데이터를 활용한 AI도 믿을 만하다는 사람들의 인식 변화가 필요하다”고 말했습니다.

한편 합성데이터의 적합성을 규제하기 위한 노력도 진행되고 있습니다. 지난해 1월 미국 식품의약국(FDA)은 ʻAI 머신러닝 기반 의료기기 소프트웨어 행동 계획’을 발표했습니다. 여기에는 알고리즘의 성능을 높이고, 편향을 막기 위한 규제 방법 등이 포함돼 있습니다. 최 책임연구원은 “GAN 이외에도 고품질 합성데이터를 만들 수 있는 다양한 방법이 개발된다면, 합성데이터를 이용해 희귀질환 케이스를 얻는 등 활용할 여지가 상당히 많다”고 말했습니다.

※관련기사

과학동아 5월호, [엣지 사이언스] 인공지능 개발, 진짜보다 나은 가짜 데이터...실제 사람은 몇 명일까요?

[이영애 기자 yalee@donga.com]

동아사이언스에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

[프리미엄 리포트]진짜보다 나은 가짜 데이터