챗GPT가 출시된 이후 오픈AI는 지속적으로 저작권 논란의 대상이 되고 있다. 웹상에 노출된 콘텐츠를 무단으로 인공지능(AI) 학습에 활용했다는 것이다. 이 가운데 무료로 열람할 수 있는 콘텐츠에 이어 미허가된 유료 콘텐츠도 AI 학습에 허가 없이 활용했다는 주장이 제기됐다.
1일(현지시간) 테크크런치 보도에 따르면 오라일리 미디어와 경제학자 일란 스트라우스가 지난해 설립한 비영리 단체 ‘AI 디스클로저(Disclosures) 프로젝트’는 새로운 논문을 발표했다.
이 논문에는 오픈AI GPT-4o 모델이 오라일리 미디어의 유료 도서 콘텐츠를 라이선스 계약 없이 무단으로 학습했을 가능성이 있다는 내용이 담겼다. 현재까지 오라일리 미디어는 오픈AI와 콘텐츠 관련 라이선스 계약을 맺은 바 없다.
이 단체는 오픈AI의 GPT-4o 모델이 GPT-3.5 터보에 비해 비공개 오라일리 유료 도서 콘텐츠를 훨씬 더 강력하게 인식하는 것으로 나타났다고 밝혔다. 연구진은 오픈AI가 GPT-4o 훈련 과정에서 유료 콘텐츠를 무단으로 학습시켰을 가능성이 크다고 분석했다.
연구진은 학습 데이터에 총 34권의 오라일리 미디어 도서에서 발췌한 1만 3962개의 문단이 포함됐을 확률을 추정했다.
'멤버십 추론 공격'이라고 알려진 이 방법은 특정 모델이 인간 저자의 원문과 AI가 생성한 문장을 얼마나 구별하는지를 분석해 학습 데이터를 추정하는 방식이다.
연구진은 "GPT-4o는 이전 모델과 비교해 많은 비공개 오라일리 미디어 서적을 인식하고, 사전 지식이 있을 가능성이 높다"라고 했다. 그러나 이런 연구 결과가 확실한 증거는 아니라고도 강조했다.
오픈AI 사용자들이 챗GPT를 활용하는 과정에서 유료 책 발췌문을 AI가 수집했을 가능성도 있다는 것이다. 오픈AI가 잇따라 내놓고 있는 추론형 모델들은 이번 연구 대상에 포함되지 않았다. 해당 모델들이 어떤 데이터로 학습됐는지는 공개되지 않았다.
한편 오픈AI는 저작권 관련 분쟁을 피하기 위해 언론사들과 콘텐츠 공급계약을 맺고 있다. 오픈AI는 르몽드, 프리사, 월스트리트저널, 뉴욕포스트, 뉴스코프, 파이낸셜타임스 등과 콘텐츠 사용 계약을 체결했다.
AI포스트(AIPOST) 유진 기자
■ 보도자료 및 광고, 비즈니스 협업 문의 aipostkorea@naver.com
Copyright © AI포스트(AIPOST)