AI 학습 활용 ‘공개 데이터’ 기준 첫 제시

배문규 기자 2024. 7. 17. 20:16
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

개발 과정 법적 불확실성 축소 기대

생성형 인공지능(AI) 모델 개발에 사용되는 ‘공개 데이터’ 처리에 대한 정부 차원의 기준이 처음 제시됐다. AI 개발 과정에서 법적 불확실성을 줄일 수 있을 것으로 기대된다.

개인정보보호위원회는 ‘AI 개발·서비스를 위한 공개된 개인정보 처리 안내서’를 마련했다고 17일 밝혔다.

공개 데이터는 인터넷상 누구나 합법적으로 접근할 수 있는 데이터다. 챗GPT와 같은 생성형 AI를 개발하기 위한 학습 데이터의 기본 재료이다. 커먼크롤(인터넷상 데이터 공개 저장소), 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 스크래핑(웹사이트에서 필요한 데이터를 자동으로 추출하는 기법) 방식으로 끌어다 AI 학습에 활용하는 것이다.

문제는 공개 데이터에 여러 개인정보가 무작위로 포함될 수 있다는 점이다. 개인정보위에 따르면 커먼크롤에서 공개 데이터 31MB(메가바이트)를 임의추출한 결과 주소·전화번호·e메일·건강보험번호·계좌번호·신용카드번호 등 개인정보 520건이 확인됐다.

하지만 현행 개인정보보호법에는 공개된 개인정보 처리에 적용될 수 있는 명확한 기준이 없다. 이에 개인정보위는 공개된 개인정보 수집·활용의 법적 기준을 명확히 하고, AI 개발·서비스 단계에서 어떤 안전조치를 취하는 것이 적정한지 기업이 참고할 수 있는 안내서를 만들었다.

안내서에선 개인정보보호법상 개인정보처리자의 ‘정당한 이익’ 조항에 의해 공개된 개인정보를 AI 학습·서비스 개발에 활용할 수 있다고 명시했다. AI 개발에 사용될 때의 이익이 정보주체의 권리보다 더 크다고 판단되면 활용할 수 있다는 의미다. 다만 정당한 이익 조항이 적용되기 위해선 AI 개발 목적의 정당성, 처리의 필요성, 구체적 이익형량이라는 세 가지 요건을 충족해야 한다.

개인정보위는 이번 안내서가 의무사항은 아니라고 강조했다. 대신 기업들이 저마다 여건에 맞춰 ‘안전조치의 최적 조합’을 골라 쓰도록 했다.

배문규 기자 sobbell@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?