외국서 사왔던 'AI학습용 가공 데이터', 이젠 국내서도 쉽게 만든다
이미지·영상·음성·텍스트 등 비정형 정보 대상
의료·교통·교육 등 전방산업 AI 개발 촉진
이미지, 영상, 음성, 텍스트 등 비정형 데이터 속에 있는 개인정보를 비실명화 해서 AI(인공지능) 등 기술개발의 재료로 활용할 수 있도록 하는 가이드라인이 나왔다.
개인정보보호위원회는 기존 '가명정보 처리 가이드라인'을 대폭 개정해 비정형 데이터에 대한 가명처리 기준을 새롭게 마련했다고 4일 밝혔다. 개인정보위는 연구용역 의뢰, 각 분야 전문가로 구성한 태스크포스팀 운영, 각계 전문가 및 관계 부처 의견 수렴 등을 거쳐 1년여만에 이번 가이드라인을 개정했다. 개정 가이드라인은 오는 5일부터 개인정보위 홈페이지에서 내려받을 수 있다.
개인정보보호법은 과학적 연구개발, 공익적 기록보존, 통계작성 등 목적으로 활용하는 경우 개인정보를 가명처리해서 활용할 수 있도록 허용한다. 지난해 생성형 AI 열풍이 일면서 AI모델의 고도화를 위해 양질의 데이터를 학습시킬 필요가 커졌고 가명정보의 중요성도 재조명됐다.
문제는 기존 가이드라인이 정형 데이터를 비실명 처리하는 데 방점을 두고 있었을 뿐 비정형 데이터에 대한 가명처리를 어떻게 해야할지 규정하지 못했다는 데 있었다.
정형 데이터란 스프레드시트 문서처럼 행과 열로 구분해 구조화된 형식의 자료로 개인식별 위험이 있는 정보인지 여부가 명확히 식별된다. 반면 비정형 데이터란 일정한 규격이나 정해진 형태가 없는, 구조화되지 않은 데이터를 뜻한다. 데이터 내의 어느 부분이 개인식별 가능성이 있는지 명확히 구분되지 않는다는 점이 특징이다. 사진, 이미지, 비디오, 통화 음성, 대화기록, 논문 보고서, 블로그 등 대부분의 데이터가 이에 해당한다. 글로벌 시장조사기구 IDC는 전 세계 데이터 중 비정형 데이터의 비중이 최대 90%에 이를 것으로 추산했다. 비정형 데이터를 비실명화하지 않으면 AI모델 학습에 필요한 양질의 데이터를 공급하는 데 한계가 있다는 얘기다.
비정형 데이터를 어떻게 처리하면 될지에 대한 기준이 없다보니 AI기술을 개발하려는 기업들은 난관에 봉착했다. 느슨하게 비실명화를 하다보면 특정 개인에 대한 식별 가능성이 남아 있는 채로 데이터를 활용하게 될 위험이 있다. 반대로 너무 엄격하게 비실명화를 하다보면 데이터의 유용성이 떨어진다. 이 때문에 국내 한 스타트업 기업은 자사 AI 모델 고도화에 필요한 데이터를 국내에서 찾지 못하고 해외에서 구입해 활용했다.
이번 개정 가이드라인은 데이터 처리 목적과 환경, 민감도 등을 종합적으로 고려해 개인식별 위험성이 있는 정보인지 여부를 판단하고 합리적 처리방법과 수준을 설정하도록 했다. 또 가명처리 기술의 적절성·신뢰성을 확인할 수 있는 근거를 작성·보관하고 가명처리 기술 적용 후 처리 결과에 대해 자체적으로 검수하도록 했다. 가명처리된 개인식별 정보가 데이터 복원기술에 의해 다시 드러나지 않도록 예방조치를 취하라는 내용도 권고사항에 포함했다.
특히 이번 가이드라인에서 눈에 띄는 것은 실제 공공기관이나 민간기업이 데이터를 취득해 가명처리하고 활용하는 과정을 시나리오로 제시했다는 점이다. 의료 현장에서 유방암 또는 골밀도 감소 여부, 안면골절, 구강질환 등을 진단하는 AI 솔루션 개발을 위해 기존 CT(컴퓨터 단층촬영) 데이터를 활용할 때 고려해야 할 사항과 대응방법 등을 제시했다. 자율주행차 주행시 비정상 상황을 인지하는 AI 기술을 개발할 때나 고속도로 다인승 전용차로 단속을 위한 AI 기술을 개발할 때, 콜센터 직원 교육용 가상 상담 시나리오 생성 AI를 개발할 때 등 7종의 시나리오가 제시됐다. 공공·민간의 기관·기업들이 가장 맞는 상황을 골라 참조할 수 있도록 한 것이다. 물론 기업이나 연구기관 등은 가이드라인에 소개된 사례 외에도 새로운 기술이나 서비스를 개발하는 과정에서 자신들이 택한 가명처리 방식이 적절한지 개인정보위에 사전 검토를 요청할 수도 있다.
고학수 개인정보위 위원장은 "AI 등 많은 신기술 영역은 현장의 불확실성을 해소할 수 있는 세밀한 데이터 처리정책이 중요하다"며 "이번 가이드라인을 시작으로 대규모 언어모형 등 생성형 AI와 관련한 '공개된 개인정보 처리 가이드라인' 등 현장의 어려움을 해소할 수 있는 기준을 올해 중에 순차적으로 발표하겠다"고 밝혔다.
한편 개인정보위는 이번 가이드라인이 어디까지나 권고사항일 뿐 강행 규정이 아니라고 설명했다. 다만 1년간 가이드라인을 시행한 후 가명처리가 부적절하게 진행되는 사례가 많을 경우 이번 가이드라인을 법규 형태로 제정해 규제책을 마련한다는 방침이다.
황국상 기자 gshwang@mt.co.kr
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지
- 랄랄, 혼전임신에 누리꾼들 '소름'…3년 전 신점 어땠기에 - 머니투데이
- 팬과 영통 끝내자 욕설?…제로베이스원 김지웅 "사실 아냐" - 머니투데이
- 배인순, 재벌과 결혼해보니…"시모, 사람 못살게 했지만 불쌍한 분" - 머니투데이
- 선우은숙 "아들 강남 유치원 보내려고…" 박수홍 "아파트 두채를?" - 머니투데이
- "도다리인 줄 알았는데" 웬 횡재?…'221만원' 짜리 대어 낚은 강태공 - 머니투데이
- "시세차익 25억"…최민환, 슈돌 나온 강남집 38억에 팔았다 - 머니투데이
- "수능 시계 잃어버려" 당황한 수험생에 '표창 시계' 풀어준 경찰 '감동' - 머니투데이
- 박나래, 기안84와 썸 인정…"깊은 사이였다니" 이시언도 '깜짝' - 머니투데이
- 정준하 "하루 2000만, 월 4억 벌어"…식당 대박에도 못 웃은 이유 - 머니투데이
- "700원짜리가 순식간에 4700원"…'퀀타피아 주가조작 의혹' 전직 경찰간부 구속 - 머니투데이