ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
**1. 安装scrapy** ```shell D:\>pip install Scrapy ``` <br/> **2. 到你的工作空间创建爬虫项目** ```python D:\>cd PycharmWorkspace # mySpider为项目名称 # 将会创建D:\PycharmWorkspace\mySpider 目录 D:\PycharmWorkspace>scrapy startproject mySpider ``` <br/> **3. 创建爬虫** ```shell # 1. 切换到项目目录下 D:\PycharmWorkspace>cd mySpider # 2. 创建爬虫 # books 爬虫名称 # book.jd.com 为url,不需要写http,或者https协议 D:\PycharmWorkspace\mySpider>scrapy genspider books book.jd.com ``` 当到这一步,scrapy会自动创建如下项目结构: ```xml mySpider |mySpider | spiders| __init__.py books.py __init__.py items.py middlewares.py pipelines.py settings.py scrapy.cfg ``` <br/> **4. 在`books.py`文件发起请求** ```python """ @Date 2021/4/7 """ import scrapy class BooksSpider(scrapy.Spider): name = 'books' # 爬虫名称 allowed_domains = ['book.jd.com'] # 爬取范围 start_urls = ['http://book.jd.com/'] # 爬虫的入口url def parse(self, response): """ (1) 该方法作为books爬虫的入口请求 (2) Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法 作为回调函数(callback)赋值给了Request。 (3) Request对象经过调度,执行生成 scrapy.http.Response 对象并送回给该parse() 方法。 """ # https://book.jd.com/ print(response.url) pass ``` <br/> **5. 启动爬虫** 启动方式一:到项目的目录下执行下面的命令; ``` # scrapy crawl 爬虫名称 D:\PycharmWorkspace\mySpider> scrapy crawl books ``` <br/> 启动方式二:在代码中启动,在项目目录下创建`start.py`脚本 ```python from scrapy import cmdline if __name__ == "__main__": cmdline.execute("scrapy crawl books".split()) 或者 cmdline.execute(["scrapy", "crawl", "books"]) ``` <br/> **6. 启动爬虫后会打印很多的logging信息,如果你不想打印到控制台上,在`settings.py`中做如下配置** ```python LOG_LEVEL = 'WARNING' ```