Python培训

400-996-5531

热门课程:

Python人工智能培训 > Python教程知识 > 正文

Python3爬虫知识详解

发布：Python人工智能培训
来源：Python教程知识
时间：2017-10-19 15:36

1概述

爬虫在Python中是个实现起来比较简单，关键在于网页的分析和内容的抓取。最近由于个人需要写了些内容，这里总结下爬虫相关的内容。

本文爬虫相关实现没有使用scrapy框架，通过urllib请求、bs4来实现。

2网络请求

网络请求部分用到urllib模块中的request类,如果需要控制请求头或带请求数据的时候需要用到urllib.request的Request类。

l 发送一个简单的Get请求

l 发送Get请求，带请求头修改

l 发送带数据的Post请求

设置请求头部内容的方式：

l 通过Request对象添加

l 通过urllib.request.Request(headers={})关键字参数设置请求头

设置请求超时

l 对整个socket层设置超时，后面在再用到socket不用重新设置，单位秒

l 睡眠time模块

time.sleep(10)

l request.urlopen(req,timeout=15)

设置代理

1. 代理设置步骤

设置代理ProxyHandler、初始化opener、[设置请求头]、安装opener、使用urlopen

使用install_opener方法之后，会将程序默认的urlopen方法替换掉。也就是说，如果使用install_opener之后，在该文件中，再次调用urlopen会使用自己创建好的opener。如果不想替换掉，只是想临时使用一下，可以使用opener.open(url)，这样就不会对程序默认的urlopen有影响。

2. 获取代理IP。上面的步骤中需要用带代理IP,网上可以找到很多免费的IP地址，这里我自己的实现是爬取的# 这个网站的

使用只需要

IP地址测试可以通过#/ 这个网站测试，代码如下

如果IP可用，返回的数据中会有我们请求的实际IP地址。

一次可以爬取到大约100个ip地址，不过不是所有都能用，如果使用的话，发现不能用就从list中移除，这样可以大大提高爬虫的效率。

3获取数据

爬取到网站内容后需要筛选获取我们需要的数据。这里使用bs4,即 Beautiful Soup.官方文档的：

#/software/BeautifulSoup/bs4/doc.zh/#id1

具体不再赘述。注意一点，有些请求接收的格式为gzip的，需要解压缩，不然会出现乱码的情况。

4总结

使用Python写网络爬虫非常方便，学会这个技能非常有用，如聚合我们需要的内容，分析网络数据，通知目标内容更新等。

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：用 Python 解读十九大工作报告

下一篇：董付国6本Python学习书籍推荐和阅读指南

相关推荐

: 2021年Python全套免费视频教程在哪里？

2021年你拿到开工福利了吗？今天达内Python培训学员给大家送福利啦！达内讲师免费录制了一套Python视频教程，Python从入门到精通只需一套Python视频教程

: 学 Python 零基础入门怎么学？

Python 以简洁语法和广泛应用成为入门首选，但无章法的学习容易陷入 “看视频都会，动手就废” 的困境

: Python编程学习路线

Python编程学习路线，学习Python编程可以按照以下步骤进行：

: Python最高有几级？

Python最高有几级？在 Python 编程领域，并没有官方的“级别”划分，如同其他编程语言或技能一样。Python 编程能力的提升是一个连续的过程，通常取决于个人的学习、实践和经验积累。不过，一些第三方机构或教育平台可能会提供不同级别的认证或课程，以帮助学习者根据自己的学习进度和目标进行自我评估和提升。

开班时间

Java开发 12月30日立即报名
云计算 12月30日立即报名
网络安全 12月30日立即报名
Python 12月30日立即报名
数据分析 12月30日立即报名
C++ 12月30日立即报名
物联网 12月30日立即报名
Web前端 12月30日立即报名
软件测试 12月30日立即报名
AI大模型 12月30日立即报名
鸿蒙 12月30日立即报名
智能办公 12月30日立即报名
商业视效 12月30日立即报名
AGI商业变现 12月30日立即报名
UI设计 12月30日立即报名
新媒体电商 12月30日立即报名

Python培训

Python培训

Python3爬虫知识详解

预约申请免费试听课

2021年Python全套免费视频教程在哪里？

学 Python 零基础入门怎么学？

Python编程学习路线

Python最高有几级？

开班时间

相关栏目

热门搜索