Python培训
400-996-5531
scrapy分为几个组成部分?分别有什么作用?
分为5个部分;Spiders(爬虫类),Scrapy Engine(引擎)、Scheduler(调度器)、Downloader(下载器)、Item Pipeline(处理管道)。
· Spiders:开发者自定义的一个类,用来解析网页并抓取指定url返回的内容。
· Scrapy Engine:控制整个系统的数据处理流程,并进行事务处理的触发。
· Scheduler:接收Engine发出的requests,并将这些requests放入到处理列队中,以便之后engine需要时再提供。
· Download:抓取网页信息提供给engine,进而转发至Spiders。
· Item Pipeline:负责处理Spiders类提取之后的数据。
比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中
免责声明:内容和图片源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
填写下面表单即可预约申请免费试听! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!
Copyright © 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有
Tedu.cn All Rights Reserved