AI가 '가상의 한국인' 700만 명을 만들었다

합성 인구 데이터셋, Nemotron-Personas-Korea의 의미

[이승환 기자]

광주 서구에서 평생 하역 일을 해온 70대 가장. 서초구 부동산 회계 사무소에 다니는 40대 직장인. 목동에 사는 꼼꼼한 은퇴자. 이 세 사람은 실제로 존재하지 않는다. 이름도, 주민등록번호도 없다. 그런데 이들은 통계적으로 '반드시 어딘가에 있을 법한' 한국인으로 설계되었고, 지금 AI 훈련용 데이터셋 안에 살아 숨 쉬고 있다.

Nemotron-Personas-Korea는 이런 가상의 한국인을 약 700만 명 분량으로 생성한 합성 인구 데이터셋이다. 공개 직후 허깅페이스(Hugging Face) 데이터셋 랭킹에서 1위를 기록했으며, 세계 최대 규모의 '페르소나 확률 그래픽 모델' 중 하나로 소개되고 있다. 출처만 밝히면 누구나 무료로 활용할 수 있다. 가상의 주민등록 700만 장이 데이터셋을 가장 쉽게 이해하는 방법은 '가상의 주민등록 카드 + 생활 프로필'의 조합으로 보는 것이다.

실제 사람의 개인정보는 단 한 건도 들어가 있지 않다. 대신 통계청, 국민건강보험공단, 대법원 등에서 공개한 인구 통계, 즉 연령별 비율, 직업 분포, 지역별 가구 구성 등을 기반으로 "이 비율이라면 이런 사람이 이만큼 있겠지"라고 AI가 역산해 만들어낸 인물들이다.

각 인물에게는 나이, 성별, 거주지, 학력, 직업, 혼인 여부 같은 기본 인구통계 정보뿐 아니라, 직업적 성향, 취미, 여행 스타일, 음식 취향, 보유 기술, 가족관계, 문화적 배경까지 부여된다. 한 마디로 마케터들이 흔히 쓰는 '페르소나 카드'를 국가 통계 기반으로 수백만 장 찍어낸 것이다. 개인정보보호법을 준수하면서도 현실에 근접한 한국 사회의 축소판을 만들었다는 것이 이 프로젝트의 핵심 설계 원리이다.

해외에는 이미 비슷한 흐름이 있었다. 사실 '합성 인구' 개념 자체는 해외에서 먼저 시작되었다. 미국 교통부와 유럽 각국 연구소는 도시 교통 최적화나 감염병 확산 시뮬레이션을 위해 수천만 명 규모의 합성 국민 데이터를 이미 만들어 쓰고 있다.

영어권에서는 대형 언어모델 성능 향상을 위해 다양한 페르소나와 대화 데이터셋이 꾸준히 연구되어 왔다. 글로벌 기업들의 UX 리서치에서도 수십~수백 개의 페르소나 카드를 활용해 신규 서비스를 설계하는 방식은 이미 일반화되어 있다. 그러나 Nemotron-Personas-Korea는 이들과 결정적으로 다른 지점이 있다. 한 나라의 인구통계를 촘촘히 반영해, AI가 직접 학습하고 활용할 수 있는 수백만 명 규모의 '전국민급 페르소나'를 구축한 사례는 영어권에서도 드물었다. 한국에서는 이것이 처음이다.

▲ AI가 만든 가상 한국인 700만명

이 데이터셋이 열어놓는 가능성

1. "한국어를 잘하는 AI"에서 "한국 사회를 아는 AI"
지금까지 한국어 AI 개발은 주로 언어, 즉 문장과 어휘에 집중해 왔다. 이 데이터셋은 언어가 아니라 사람 자체를 모델링하는 첫 대형 인프라에 해당한다. 연령, 직업, 지역, 가구 형태, 문화적 배경을 아는 AI는 "광주 70대 어르신"과 "서초구 30대 직장인"에게 전혀 다른 방식으로 말을 걸 수 있다. "한국어 잘하는 챗봇"에서 "한국 사회의 결을 아는 에이전트"로 진화하는 토대가 생긴 것이다.

2. 개인정보 없이 현실감을 높이는 새로운 방식
기업이 AI 서비스를 개발할 때 가장 큰 벽 중 하나는 실제 고객 데이터를 쓰기 어렵다는 점이다. 이 데이터셋은 공공 통계만으로 현실에 가까운 한국인 표본을 재현한다. 개인정보 리스크 없이 다양한 계층과 맥락을 테스트할 수 있는 환경이 열리는 것이다. 이는 금융, 의료, 공공서비스 분야에서 특히 실용적인 가치를 갖는다.

3. '국가 페르소나 레이어'는 곧 AI 경쟁력이다
미국과 유럽은 이미 자국의 인구 구조를 반영한 합성 데이터를 AI 훈련에 쓰고 있다. 이제 한국도 '국가 단위 페르소나 레이어'를 확보하기 시작했다. K-금융, K-게임, K-헬스케어 등 자국민 특화 서비스를 빠르게 고도화할 수 있는 기반이 마련된 셈이다. 페르소나 데이터는 모델 성능만큼이나 중요한 AI 경쟁력의 축이 되고 있다.

4. UX 리서치 방식이 AI 중심으로 재편된다
기존에는 UX 연구자가 직접 인터뷰해 수십 명의 페르소나를 만들었다면, 앞으로는 수십만 명의 가상 사용자를 대상으로 시나리오를 시뮬레이션하는 방식이 가능해진다. 초기 가설 검증과 서비스 스크리닝 단계를 AI 기반으로 처리하고, 실제 인터뷰는 정교화 단계에 집중하는 새로운 분업 구조가 등장할 것이다.

5. 한국형 AI 편향 문제를 다루는 실험장
AI가 특정 지역, 세대, 성별에 불공정하게 반응하는지를 테스트하려면, 그 집단의 다양한 데이터가 필요하다. 이 데이터셋은 한국의 계층, 지역, 세대 간 편견이 AI에 어떻게 반영되는지를 측정하고 모니터링하는 실험장이 될 수 있다. AI 공정성 연구에서 한국 상황에 맞는 기준을 세우는 데 유용한 기반이다.

6. K-콘텐츠 IP 산업의 새로운 인프라
한국 배경의 게임, 드라마, 웹툰에서 조연, 단역, NPC를 설계할 때 '진짜 있을 법한 인물'을 대량으로 자동 생성하는 도구로 발전할 가능성이 있다. 지역과 직업 분포, 세대별 취향이 현실과 맞닿아 있기 때문에, 배경 설정의 설득력이 높아진다. 스토리 IP 산업에서도 AI 인프라로 활용될 수 있는 접점이 열린 것이다.

오마이뉴스

경제

AI가 '가상의 한국인' 700만 명을 만들었다