오픈AI, 웹크롤러 'GPT봇' 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
오픈AI가 GPT 언어모델 학습에 필요한 데이터를 수집하는 새 웹크롤러를 공개했다.
8일(현지시간) 미국 지디넷에 따르면, 오픈AI는 웹크롤러 'GPTBot'을 발표했다.
GPT봇은 유료 구독을 요구하거나, 개인식별정보를 수집해 오픈AI 정책을 위반하는 등의 웹페이지를 걸러낸다고 오픈AI 측은 설명했다.
오픈AI는 파운데이션모델인 GPT-3.5와 GPT-4 교육에 그동안 웹크롤러를 사용한다고 밝히지 않아왔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(지디넷코리아=김우용 기자)오픈AI가 GPT 언어모델 학습에 필요한 데이터를 수집하는 새 웹크롤러를 공개했다. 인터넷에 공개된 데이터를 찾아 대규모언어모델(LLM)로 부어넣는 과정을 단순화한 툴이다. 오픈AI는 사이트 소유자에게 크롤링을 차단하는 방법을 안내했다.
8일(현지시간) 미국 지디넷에 따르면, 오픈AI는 웹크롤러 'GPTBot'을 발표했다.
웹크롤러란 구글이나 빙 같은 검색엔진에서 전세계 웹사이트를 찾아내고 콘텐츠를 색인화하는데 사용되는 툴이다. AI 개발 회사가 LLM을 학습시키는데도 사용한다. 웹크롤러가 각종 데이터를 자동으로 찾아 끌어오므로 LLM 학습 데이터 확보가 쉬워진다.
GPT봇은 유료 구독을 요구하거나, 개인식별정보를 수집해 오픈AI 정책을 위반하는 등의 웹페이지를 걸러낸다고 오픈AI 측은 설명했다.
개발자와 웹사이트 관리자는 자신의 사이트에 대한 GPT봇의 접근을 차단할 수 있다. 관리자는 사이트의 'robots.txt'와 'Disallow: /'에 GPT봇 토큰을 추가할 수 있다.
오픈AI는 사이트의 특정 부분만 크롤링하도록 허용하는 등 GPT봇의 접근을 맞춤화할 수 있다고 설명했다. GPT봇의 웹사이트 일부 접근만 허용하려면 'robots.txt', 'Allow: /'directory-1/', 'Disallow: /directory-2/' 등에 GPT봇을 추가하고 필요에 따라 사용자 지정하면 된다.
오픈AI는 파운데이션모델인 GPT-3.5와 GPT-4 교육에 그동안 웹크롤러를 사용한다고 밝히지 않아왔다. 오픈AI는 현재 사용자 데이터를 훔쳤다는 혐의로 여러 소송에 휘말렸다. 저작권 침해 사건도 포함된다. 스택오버플로우, 레딧, 트위터 등의 사이트는 AI 회사에 데이터 접근 비용을 청구할 계획이라고 밝히기도 했다.
김우용 기자(yong2@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.
- "생성 AI 잠재력을 끌어내기 위한 AWS의 지원 전략"
- 줌, 가입자 데이터로 생성 AI 교육한다
- 세일즈포스, '아인슈타인 스튜디오' 출시
- IBM, 어도비 생성 AI 모델 컨설팅 제공
- "트럼프 인수위, 전기차 보조금 폐지"…이차전지주 급락
- 장재훈 현대차 사장, 부회장 승진…호세 무뇨스 첫 외국인 사장 선임
- '9만 비트코인', 하루만에 8만8천 달러 붕괴…왜?
- 배달앱 수수료 7.8%로 인하...'배민 상생안' 극적 합의
- 주52시간 예외·직접 보조금...韓·日, 반도체법 재추진
- "구글·메타·카카오 줄줄이 소송"…개인정보위, 내년 초 전담팀 마련