Language/WebCrawling 6

Scraping Sample ( Search Headphone on AWS)

Scrapy의 이해가 쉽지 않아 테스트 Scrapy version 확인 $ scrapy version Scrapy 2.0.0 project 생성 (sample로 AWS headphone 검색) $ scrapy startproject headphones New Scrapy project 'headphones', using template directory 'd:\utils\python\python38\lib\site-packages\scrapy\templates\project', created in: D:\db\Scrapy\headphones You can start your first spider with: cd headphones scrapy genspider example example.com 위와 ..

Scrapy Tutorial 공식 예제

Scrapy 예제로 Naver나 Daum의 예제가 있으나 어쩐 일인지 잘 동작하지 않아서.. 다시 Tutorial 예제부터 해보기로 함. 공식 예제는 http://quotes.toscrape.com 사이트의 링크를 순회하며 text와 authon를 스크레이핑하는 코드입니다. 1) Project 생성 > scrapy startproject tutorial New Scrapy project 'tutorial', using template directory 'd:\utils\python\python38\lib\site-packages\scrapy\templates\project', created in: D:\db\Scrapy\tutorial You can start your first spider with: ..

Scrapyd

Scrapyd는 Scrapy를 API로 요청하여 병렬처리해주는 오픈소스이다. https://docs.scrapy.org/en/latest/topics/scrapyd.html Scrapyd — Scrapy 2.2.0 documentation © Copyright 2008–2020, Scrapy developers Revision 9f604813. docs.scrapy.org 1. Scrapyd란? 1-1. scrapy를 API로 서비스해주며 요청에 대해 비동기 처리를 함. 1-2. 설정한 프로세스의 수 만큼 병렬처리가 가능함. 1-3. 요청한 크롤링을 취소할 수 있음. 1-4. 비슷한 패키지로 scrapyrt가 있음. - scrapyrt는 한번에 하나의 요청만 가능함. - 결과를 반환받을 때까지 대기해야 ..

Scrapy 사용해보기

Scrapy 란? 최근 웹에는 수억개의 웹페이지가 있으며, 대부분의 페이지들은 수많은 정보를 가지고 있습니다. 최근 빅데이터가 대두되면서 이전에 작성되었던 페이지들의 정보를 모아 유의미한 정보를 도출하기 위한 여러가지 방법들이 논의되고 있고, 이를 Scraping(혹은 Crawling)이라고 합니다. Scrapy는 Scraping을 도와주기위한 파이썬 기반 라이브러리입니다. Scrapy를 이용하여 필요한 페이지로 접속하여 원하는 형태로 데이터를 가공하여 데이터를 저장할수 있도록 도와줍니다. 설치하기 터미널에 아래 명령어를 입력해 Scrapy를 설치합니다. pip install scrapy Scrapy Shell 사용해보기 Scrapy Shell을 사용함으로써, 프로젝트를 생성하지 않고 간단하게 Scrap..

Python-WebCrawling

* 웹 스크래핑(web scraping) - 웹 사이트 상에서 원하는 부분에 위치한 정보를 컴퓨터로 하여금 자동으로 추출하여 수집하도록 하는 기술 * 웹 크롤링(Web crawling) - 자동화 봇(bot)인 웹 크롤러(web crawler)가 정해진 규칙에 따라 복수 개의 웹페이지를 브라우징하는 행위 Python-WebCrawling "파이썬을 이용한 웹 크롤링(Web Crawling) 어플리케이션 만들기" 강좌기반 파이썬 웹크롤러 프로젝트 백엔드란 사용자의 요청을 받아서, 저장되어 있는 정보를 바탕으로 각 사용자에게 적합한 페이지 를 전송. 웹 서버(Apache, IIS, nginx, GWS, etc.) 사용자의 요청에 맞게 데이터(HTML, image, etc.)를 전송해주는 프로그램 데이터 베이..

scrapy 설치 및 테스트 해보기

0. 사전설치 Python이 설치되어 있어야 함. pip 필수 PS D:\DB> pip --version pip 20.1.1 from d:\utils\python\python38\lib\site-packages\pip (python 3.8) 1. Scrapy 설치 공식 url : https://docs.scrapy.org/en/latest/intro/install.html#installing-scrapy PS D:\DB> pip install scrapy 설치 후 확인 PS D:\DB> scrapy --version Scrapy 2.0.0 - no active project Usage: scrapy [options] [args] Available commands: bench Run quick benchm..