3. 整体了解Scrapy的运行顺序编程微课_w3cschool

3. 整体了解Scrapy的运行顺序

Python Scrapy 网络爬虫入门课程

第1章环境配置

第2章基础Scrapy操作

第3章 Scrapy爬虫编写

第4章管道的内容

第5章下载器中间件

第6章了解配置文件

手机也能上课

App下载

1/4

Scrapy组件介绍

掌握执行顺序前，先了解scrapy的组件：

引擎(Engine)：负责整个系统的数据流处理，触发事务。
调度器(Scheduler)：接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回。
下载器(Downloader): 下载网页内容，并将网页内容返回给爬虫。
爬虫(Spider): 爬虫是主要干活的，用来制定特定域名或网页的解析规则。
项目管道(Item Pipeline): 清洗验证存储数据，页面被蜘蛛解析后，被发送到项目管道，并经过几个特定的次序处理数据。
下载器中间件(Downloader Middleware): 位于引擎和下载器之间，处理引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middleware)：位于引擎和爬虫之间，处理从引擎发送到调度的请求及响应。

如图：

+10 经验 +10积分

解析

回顾

继续下一题

提示

再试一次

参考答案

+10 经验 +10积分

返回

继续下一题

视频播放结束，是否学习下一节？

再看一遍

下一节