AI 학습 활용 ‘공개 데이터’ 기준 첫 제시
생성형 인공지능(AI) 모델 개발에 사용되는 ‘공개 데이터’ 처리에 대한 정부 차원의 기준이 처음 제시됐다. AI 개발 과정에서 법적 불확실성을 줄일 수 있을 것으로 기대된다.
개인정보보호위원회는 ‘AI 개발·서비스를 위한 공개된 개인정보 처리 안내서’를 마련했다고 17일 밝혔다.
공개 데이터는 인터넷상 누구나 합법적으로 접근할 수 있는 데이터다. 챗GPT와 같은 생성형 AI를 개발하기 위한 학습 데이터의 기본 재료이다. 커먼크롤(인터넷상 데이터 공개 저장소), 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 스크래핑(웹사이트에서 필요한 데이터를 자동으로 추출하는 기법) 방식으로 끌어다 AI 학습에 활용하는 것이다.
문제는 공개 데이터에 여러 개인정보가 무작위로 포함될 수 있다는 점이다. 개인정보위에 따르면 커먼크롤에서 공개 데이터 31MB(메가바이트)를 임의추출한 결과 주소·전화번호·e메일·건강보험번호·계좌번호·신용카드번호 등 개인정보 520건이 확인됐다.
하지만 현행 개인정보보호법에는 공개된 개인정보 처리에 적용될 수 있는 명확한 기준이 없다. 이에 개인정보위는 공개된 개인정보 수집·활용의 법적 기준을 명확히 하고, AI 개발·서비스 단계에서 어떤 안전조치를 취하는 것이 적정한지 기업이 참고할 수 있는 안내서를 만들었다.
안내서에선 개인정보보호법상 개인정보처리자의 ‘정당한 이익’ 조항에 의해 공개된 개인정보를 AI 학습·서비스 개발에 활용할 수 있다고 명시했다. AI 개발에 사용될 때의 이익이 정보주체의 권리보다 더 크다고 판단되면 활용할 수 있다는 의미다. 다만 정당한 이익 조항이 적용되기 위해선 AI 개발 목적의 정당성, 처리의 필요성, 구체적 이익형량이라는 세 가지 요건을 충족해야 한다.
개인정보위는 이번 안내서가 의무사항은 아니라고 강조했다. 대신 기업들이 저마다 여건에 맞춰 ‘안전조치의 최적 조합’을 골라 쓰도록 했다.
배문규 기자 sobbell@kyunghyang.com
Copyright © 경향신문. 무단전재 및 재배포 금지.
- [단독] 강혜경 “명태균, 허경영 지지율 올려 이재명 공격 계획”
- “아들이 이제 비자 받아 잘 살아보려 했는데 하루아침에 죽었다”
- 최현욱, 키덜트 소품 자랑하다 ‘전라노출’···빛삭했으나 확산
- 수능문제 속 링크 들어가니 “김건희·윤석열 국정농단 규탄” 메시지가?
- 윤 대통령 ‘외교용 골프’ 해명에 김병주 “8월 이후 7번 갔다”···경호처 “언론 보고 알아
- 이준석 “대통령이 특정 시장 공천해달라, 서울 어떤 구청장 경쟁력 없다 말해”
- “집주인인데 문 좀···” 원룸 침입해 성폭행 시도한 20대 구속
- 뉴진스 “민희진 미복귀 시 전속계약 해지”…어도어 “내용증명 수령, 지혜롭게 해결 최선”
- 이재명 “희생제물 된 아내···미안하다, 사랑한다”
- ‘거제 교제폭력 사망’ 가해자 징역 12년…유족 “감옥 갔다 와도 30대, 우리 딸은 세상에 없어