[ICT 시사용어]크롤링
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
웹 크롤링(web crawling) 또는 데이터 크롤링(data crawling)으로도 불린다.
크롤링을 수행하는 소프트웨어(SW)인 크롤러는 웹페이지를 돌아다니며 어떤 데이터가 어디에 있는지 색인(index)을 만들어서 데이터베이스(DB)에 저장한다.
빅데이터 분석에서는 크롤링을 통해 필요한 데이터가 어디 있는지 알아내고, 스크레이핑을 통해 수집 및 저장해서 분석에 사용하는 등 기술을 결합하기도 한다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
웹 크롤링(web crawling) 또는 데이터 크롤링(data crawling)으로도 불린다. 다양한 정보 자원을 자동화된 방법으로 수집해서 분류 및 저장하는 것을 말한다.
웹의 다양한 정보를 자동으로 검색하고 데이터로 추출하기 위해 사용한다. 크롤링을 수행하는 소프트웨어(SW)인 크롤러는 웹페이지를 돌아다니며 어떤 데이터가 어디에 있는지 색인(index)을 만들어서 데이터베이스(DB)에 저장한다. HTML 페이지에서 관련 하이퍼링크를 찾아 데이터를 분류하고 저장하는 작업을 반복한다. 파이썬 프로그램이 크롤링 분야에 주로 사용되고 있다.
크롤링 기술이 악용돼 정보를 무단 복제하게 되면 지식재산권 침해 문제가 발생할 수 있다. 크롤링으로 취득한 콘텐츠를 상업적으로 이용하는 것 또한 문제가 될 수 있다. 이 같은 문제를 방지하기 위해 웹페이지 운영자는 웹페이지에 로봇 배제 표준을 사용한다. 또는 메타 태그를 사용해 크롤러로 검색 색인이 생성되는 것을 차단한다.
유사한 개념으로는 SW를 통해 데이터 소스에서 데이터 자체를 추출, 특정 형태로 저장하는 스크레이핑(scraping)이 있다. 빅데이터 분석에서는 크롤링을 통해 필요한 데이터가 어디 있는지 알아내고, 스크레이핑을 통해 수집 및 저장해서 분석에 사용하는 등 기술을 결합하기도 한다.
크롤링을 활용하면 오프라인에서 직접 현장에 방문하고, 사람을 만나 수요 조사 및 설문 조사를 하는 등의 작업을 생략할 수 있다. 최근에는 금융권, 마케팅 기업을 비롯해 데이터 사이언스 등 다양한 분야에서 활용되고 있다.
정예린기자 yeslin@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- [창간특집] 2주간 집밖으로 나가지 않고 앱으로 살아봤다
- 경기도 스쿨넷 사업 '개별입찰' 강행 논란
- 카메라 힘 준 '아이폰13'…韓 부품 주문 늘렸다
- 디즈니플러스, LG U+ 'IPTV+모바일'·KT '모바일' 제휴
- '한국메타버스산업협회' 내달 출범
- 브랜든 카 FCC 상임위원 "구글·페북 디지털광고수익에 7% 보편기금 부과 가능"
- LG유플러스, 'U+스마트팩토리' 솔루션 매출 7배 성장 목표
- 배재대 식품영양학과, '푸드테크AI융합전공' 신설...푸드테크 인재양성
- 토스뱅크, 신용카드업 진출 '초읽기'
- "낡은 규제 없애고 '혁신강국' 실현"…혁신거래소 설립 제안