“인터넷상 개인 데이터 몰래 수집”… 챗GPT 개발사 피소

생성형 AI 학습 방식 합법성 논란
美 로펌 클라크슨, 집단 소송 제기
“사전 동의·정당한 보상 없이 이용
피해자 잠재적 손해 30억弗” 주장
인터넷 이용자 권리 침해 등 판단
새로운 법적 이론 정립 여부 주목

생성형 인공지능(AI) 챗GPT를 개발해 전 세계적 AI 열풍을 일으킨 오픈AI가 인터넷상 정보 이용과 관련해 프라이버시 침해 등으로 소송을 당했다고 미국 워싱턴포스트(WP), CNN방송 등이 28일(현지시간) 보도했다.

보도에 따르면 미국 캘리포니아에 소재한 로펌 클라크슨은 이날 오픈AI가 인터넷에서 모은 정보로 AI를 훈련하면서 저작권 및 인터넷 이용자의 프라이버시를 침해했다며 캘리포니아 북부 연방법원에 집단 소송을 제기했다.

157페이지에 달하는 소장에서 클라크슨은 오픈AI가 인터넷에서 방대한 양의 개인 데이터를 ‘몰래 수집했다’고 밝혔다. 그러면서 “개인 정보를 포함한 책, 기사, 웹사이트 및 게시물 등 인터넷에서 교환할 수 있는 데이터들이 사전 통지 및 동의와 정당한 보상 없이 이용됐다”고 주장했다. 게다가 이러한 데이터 수집이 “전례 없는 규모”로 이루어졌다면서 수백만 명에 달할 것으로 추정되는 피해자가 받을 잠재적 손해가 30억달러(약 3조9500억원)에 달한다고 강조했다.

클라크슨은 과거 데이터 침해에서 허위 광고에 이르기까지 다양한 문제에 대해 대규모 집단소송을 제기한 바 있다. 이 로펌은 “인터넷에 올라와 있는 수많은 글을 쓴 이들은 오픈AI가 자사의 이익을 위해 이런 정보들을 사용하는 것에 동의하지 않았다”면서 이 같은 데이터에 기반한 오픈AI 제품의 상업적 사용을 일시적으로 동결하는 형태의 금지명령을 요청했다. 아울러 정보를 제공한 사람들에게 ‘데이터 배당금’ 지급도 요구했다.

클라크슨의 변호사 라이언 클라크슨은 WP에 “이 모든 정보는 대규모 언어 모델에 의해 사용될 의도가 전혀 없었는데도 대규모로 수집되고 있다”면서 “AI 알고리즘이 훈련되고 데이터가 사용될 때 사람들이 어떻게 보상받을 수 있는지에 대해 법원 판단을 받아 볼 필요가 있다”고 이번 집단 소송의 취지를 설명했다.

WP는 이번 소송을 통해 생성형 AI가 사회관계망서비스(SNS)의 댓글, 블로그 게시물 등을 사용하면서 인터넷 이용자의 권리를 침해했는지를 판단하는 새로운 법적 이론이 정립될 수 있다고 봤다.

생성형 AI의 열풍 이후 공공 인터넷에서 가져온 데이터를 이용해 AI를 훈련하는 행위에 대한 합법성 논란도 함께 불거졌다. 오픈AI뿐 아니라 구글, 아마존 등 생성형 AI를 개발 중인 기업들이 대가를 지불하지 않고 수집한 정보를 통해 막대한 상업적 이익을 거두고 있기 때문이다.

이에 따라 생성형 AI 개발 기업들에 대한 법적 조치를 요구하는 소송도 점점 늘어나는 중이다. 지난 11월에는 오픈AI와 마이크로소프트(MS)가 MS 소유의 온라인 코딩 플랫폼인 깃허브에 저장된 컴퓨터 코드를 사용해 AI 도구를 학습시킨 것에 대해 집단 소송이 제기됐다. 2월에는 이미지 판매 사이트인 게티이미지가 이미지 생성 봇을 훈련하는 과정에서 자사 사진을 무단으로 사용했다며 소규모 AI스타트업인 스태빌리티AI를 고소하기도 했다.

다만, 자신의 저작물이 AI 학습에 사용되었다는 사실을 입증할 수 있는 예술가나 기타 전문가들과 달리 단순히 웹사이트에 게시물을 올리거나 댓글을 단 사람들이 손해배상을 받을 가능성은 크지 않다. 주로 기술 스타트업을 대리하는 로펌 건더슨 데트머의 지적재산권 전문변호사 캐서린 가드너는 “SNS나 웹사이트에 콘텐츠를 올린다는 것은 일반적으로 콘텐츠를 사용할 수 있도록 매우 광범위한 라이선스(허가)까지 동시에 부여한다는 뜻”이라면서 “일반 사용자가 교육의 일부로 자신의 데이터를 사용한 것에 대해 어떤 종류의 지불이나 보상을 받을 자격이 있다고 주장하기는 매우 어려울 것”이라고 주장했다.

서필웅 기자 seoseo@segye.com

세계일보

국제

“인터넷상 개인 데이터 몰래 수집”… 챗GPT 개발사 피소