手机也能上课
1/4
Scrapy组件介绍
掌握执行顺序前,先了解scrapy的组件:
- 引擎(Engine):负责整个系统的数据流处理,触发事务。
- 调度器(Scheduler):接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。
- 下载器(Downloader): 下载网页内容,并将网页内容返回给爬虫。
- 爬虫(Spider): 爬虫是主要干活的,用来制定特定域名或网页的解析规则。
- 项目管道(Item Pipeline): 清洗验证存储数据,页面被蜘蛛解析后,被发送到项目管道,并经过几个特定的次序处理数据。
- 下载器中间件(Downloader Middleware): 位于引擎和下载器之间,处理引擎与下载器之间的请求及响应。
- 爬虫中间件(Spider Middleware):位于引擎和爬虫之间,处理从引擎发送到调度的请求及响应。
如图: