Python培训

400-996-5531

热门课程:

Python人工智能培训 > Python练习题库 > 正文

Python面试题之Python中爬虫框架或模块的区别

发布：Python人工智能培训
来源：Python练习题库
时间：2021-03-10 13:24

Python中爬虫框架或模块的区别，我们在Python的学习过程中，需要不断的总结知识点，这样我们才能进步的更快一些。

(1)爬虫框架或模块

Python自带爬虫模块：urllib、urllib2；

第三方爬虫模块：requests，aiohttp；

爬虫框架：Scrapy、pyspider。

(2)爬虫框架或模块的优缺点

urllib和urllib2模块都用于请求URL相关的操作，但他们提供了不同的功能。urllib2模块中urllib2.urlopen可以接受一个Request对象或者url，(在接受Request对象时候，并以此可以来设置一个URL的headers)，且只接收一个url；urllib中有urlencode，而urllib2中没有。因此，开发人员在实际开发中经常会将urllib与urllib2一起使用。

requests是一个HTTP库，它仅仅用于发送请求。对于HTTP请求而言，request是一个强大的库，可以自己处理下载、解析，灵活性更高，高并发与分布式部署也非常灵活，对于功能可以更好实现。

aiohttp是一个基于python3的asyncio携程机制实现的一个http库。相比requests，aiohttp自身就具备了异步功能。但只能在python3环境中使用。

Scrapy是封装起来的框架，它包含了下载器、解析器、日志及异常处理，是基于多线程的，采用twisted的方式处理。对于固定单个网站的爬取开发，Scrapy具有优势；对于多网站爬取，并发及分布式处理方面，Scrapy不够灵活，不便调整与扩展。

Scrapy具有以下优点：

·Scrapy是异步的；

·采取可读性更强的XPath代替正则表达式；

·强大的统计和log系统；

·可同时在不同的URL上爬行；

·支持shell方式，方便独立调试；

·方便写一些统一的过滤器；

·通过管道的方式存入数据库。

Scrapy是基于python实现的爬虫框架，扩展性比较差。

Pyspider是一个重量级的爬虫框架。我们知道Scrapy没有数据库集成、分布式、断点续爬的支持、UI控制界面等等，若Scrapy想要实现这些功能，需要自行开发。Pyspider已经集成了前面这些功能，也正因如此，Pyspider的扩展性太差，学习难度较大。

免责声明：内容来源于公开网络，若涉及侵权联系尽快删除！

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：2021年Python面试题及答案汇总详解

下一篇：Python基础：常用知识点汇总

相关推荐

: Python IDE推荐7个你可能会错过的Python IDE

现在为Python构建的IDE真的是多的尴尬。IDLE, Komodo, LiClipse, PyCharm, Spyder, and Python Tools这六个产品因为其适用性良好，在一个应用评审中挺进最后一轮，但还有更多值得注意的IDE--有通过复杂的努力为提供的一个完整的开发系统，以及适合初学者的项目。