챗GPT "한국선 매경 포함 5곳 기사 학습"

이상덕 특파원(asiris27@mk.co.kr) 2023. 2. 21. 17:48
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오픈AI 뉴스 도용 논란
허가없이 대규모 자료 수집
WSJ "라이선스 비용 내야"

오픈AI가 초거대 인공지능(AI)인 GPT-3.5에 방대한 뉴스 데이터를 당사자 허락을 받지 않고 학습시킨 것으로 확인돼 논란이 일고 있다. 앞서 알고리즘 개발자들이 오픈AI를 상대로 소송을 건 데 이어 주요 미디어까지 이에 동참할지 주목된다.

월스트리트저널(WSJ)의 모회사인 뉴스코프의 제이슨 콘티 다우존스 법률고문은 20일(현지시간) "WSJ 소속 기자들이 작성한 기사를 활용해 AI를 학습시키려고 한다면 누구나 우리에게 적절한 허가를 받아야 한다"면서 "오픈AI는 우리 회사와 그런 계약을 맺지 않았다"고 지적했다. 그는 "우리는 이번 사태를 심각하게 받아들이고 이 상황을 자세히 검토하고 있다"고 강조했다.

오픈AI가 뉴스 기사 데이터를 허가 없이 사용한 것은 컴퓨터 전문 저널리스트인 프랜시스코 마코니가 챗GPT를 활용해 문답한 결과를 트윗을 통해 공개하면서 알려졌다. 마코니는 챗봇에 어떤 뉴스 미디어를 학습했는지 물었고 미국 주요 매체 이름을 확인했다.

실제로 기자가 직접 물어보니 챗GPT는 상위 10개 매체에 대한 정보를 제공했다. 미국 대표 유력지인 뉴욕타임스(NYT)와 워싱턴포스트(WP), WSJ, US투데이, LA타임스, 시카고트리뷴, 보스턴글로브, 휴스턴크로니클, 샌프란시스코크로니클, 마이애미헤럴드다. 이 가운데 NYT, WP, WSJ, 보스턴글로브 구독은 유료다. 이에 대해 오픈AI는 논평을 하지 않았다고 블룸버그가 밝혔다.

한국 매체 역시 예외는 아니었다. 기자가 챗GPT를 상대로 어디에서 한국 데이터를 구했는지 묻자 "어디에서 데이터를 크롤링했는지 구체적인 정보는 제공받지 못해 정확한 답변을 하기 어렵다"면서도 "하지만 대부분의 한국어 데이터 세트에는 네이버 뉴스와 블로그, 카페 등에서 크롤링한 데이터가 포함돼 있을 가능성이 높다"고 답변했다. 또 구체적인 언론 매체를 명시해 달라는 요청에 대해서는 "한국어 모델을 훈련시키는 데 사용된 뉴스 세트는 연합뉴스와 매일경제, 한겨레, 조선일보, 중앙일보 등 한국의 주요 신문과 웹사이트의 뉴스 기사와 같은 다양한 출처에서 올 수 있다"고 설명했다.

[실리콘밸리 이상덕 특파원]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?