"합성데이터 활용하려면 정의부터 명확해야…신기루 아냐"

이정현 기자 2023. 9. 20. 17:48
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

합성데이터를 제대로 유용하게 활용하기 위해선 정의부터 명확히 해야한다는 주장이 나왔다.

합성데이터를 잘 활용하면 수많은 부가가치를 창출할 수 있으나 아직 정의가 모호하고 법적지위가 명확하지 않아 산업계에서 활용을 주저한다는 취지다.

영국의 경우 정부 데이터와 의료기관 입원 환자 치료 데이터를 결합·가공한 합성데이터를 공개해 활용할 수 있도록 하고 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

양청삼 개인정보보호위원회 개인정보정책국장/사진=개인정보보호위원회


합성데이터를 제대로 유용하게 활용하기 위해선 정의부터 명확히 해야한다는 주장이 나왔다. 합성데이터를 잘 활용하면 수많은 부가가치를 창출할 수 있으나 아직 정의가 모호하고 법적지위가 명확하지 않아 산업계에서 활용을 주저한다는 취지다.

송재익 나이스지니데이타 실장은 20일 코엑스 컨퍼런스룸에서 열린 제2회 개인정보 기술포럼 세미나에서 '합성데이터를 통한 안전한 개인정보 활용 전략'이라는 주제로 발표하며 이같이 주장했다. 그는 "정부의 합성데이터 산업을 발전시키겠다는 의지가 중요하다"며 "합성데이터는 신기루도 아니고 사기도 아니다. 분명한 역할을 할 수 있다"고 말했다.

합성데이터는 실제 데이터와 통계적 특성이 유사하고 실제 데이터를 분석한 결과와 유사한 결과를 재현해 생성한 가상 데이터를 가리킨다. 실제 데이터와 달리 법적인 제약이 적고 여러 버전으로 많은 양의 데이터의 다양한 분석이 가능하다는 게 장점이다. 단순히 원본 데이터에 조작을 가한 데이터가 아니라 원본 데이터와 유사한 데이터를 새로 만든 것이다.

외국에서는 이미 합성데이터를 여러 연구에 적극 활용 중이다. 영국의 경우 정부 데이터와 의료기관 입원 환자 치료 데이터를 결합·가공한 합성데이터를 공개해 활용할 수 있도록 하고 있다. 미국 인구 통계청은 가지고 있는 데이터를 연구자들에게 부분적으로 합성해 제공한다. 독일 노동청은 사업장 패널 정보에 대한 합성데이터를 만들어 직업교육, 기업 생산성 등에 관한 연구를 수행하고 있다.

최근 데이터3법이 국회 본회의를 통과해 가명정보 활용이 가능해진 만큼 국내에서도 합성데이터에 대한 관심이 높아지고 있다. 하지만 AI(인공지능) 모델링을 위한 재료로 활용하거나 데이터 경진대회 학습데이터로 활용, AI학습용 데이터 구축사업에 활용하는 등 소극적으로 활용되고 있다.

최대선 숭실대학교 교수도 이날 세미나에서 "가명정보인지 익명정보인지 합성데이터의 법적 지위 설정이 필요하다"고 말했다. 그는 'PET(개인정보보호 강화 기술)와 데이터 활용 확대방안'이라는 주제로 발표하며 △고의적 데이터 조작 △합성 데이터 △동형 암호 등 PET 방안을 소개했다.

태현수 개인정보보호위원회 데이터안전정책과장은 "PET 기술을 마음껏 활용해볼 수 있도록 개인정보 안심구역을 지정할 계획"이라며 "합성데이터 등 PET 기술을 제도화 하려면 어느 정도 사례와 명분이 쌓여야 하는데 현행 법 제도 하에서는 한계가 있다. 안심구역에서 다양한 PET 기술을 실험하고 데이터 공유도 늘린다면 제도화 기반이 만들어질 것"이라고 말했다.

이정현 기자 goronie@mt.co.kr

Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?