Python培训

400-996-5531

热门课程:

Python人工智能培训 > 热门文章 > 正文

Python基础爬虫入门教程，新人必学!

发布：Python人工智能培训
来源：热门文章
时间：2020-11-11 11:16

本文着重点在于教新手如何学习爬虫，并且会以外行人的思维进行形象地讲解。最近我一兄弟想学，我就想写个教学给他，然后想不如分享到网络上，给热爱学习的人们一起学习探讨。

环境安装

python3.7.1

pip install requests

pip install beautifulsoup4

pip install lxml

技术讲解

requests库

requests一般用于发起http请求，并且拿到请求的结果。http常用的请求有两种，GET和POST，爬虫主要用的是GET请求。

在不懂http,https和dns,TCP/IP等协议的情况下，我直接打个比方来解释一下什么是GET请求，以360浏览器为例，人在360浏览器输入www.tedu.cn，然后敲击enter键，直到页面出现，整个过程，我们可以抽象为我们向百度服务器发起的一次GET请求。

如何使用requests库来模拟浏览器的行为来获取页面内容呢?

示例代码如下

import requests

web = requests.get('https://www.baidu.com') #向百度发起一次get请求，返回请求结果的实体类

print(web.status_code) #请求返回的状态码，200是OK，404是页面不存在，500是错误，更多自己百度搜索

print(type(web.content)) #页面内容的数据类型是bytes，因此需要解码

print(type(web.content.decode()))

print(web.content.decode()) #解码之后，得到的页面内容是结构化的字符串

这样看起来，我们获取到的页面内容不是我们在浏览器看到的图形化界面，而是字符串，更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧，现在可以简单学一下，也就花几分钟了解一下就够用了。

html是一种标记语言，可以被浏览器执行，然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里，然后双击打开，你会看到图形化界面的，只不过有些图片可能显示不了，这里就不细说了。

html其实很好理解，不要想得太复杂，就是一段有规律的格式化的文本。

其基本格式就是

<html>

</html>

html文本的标签一般都是成双成对，有始有终的，比如<body>和</body>是一队，千万不能拆散，拆散就乱套了。少数除外比如<br>是换行用的,可以不用配对。

这里我们主要讲body标签，网页的主要内容都是在这个标签里显示的，比如标题，段落，图片等

在test.html里我们写入一下代码并且保存。

<html>

<body>

<p>这是我的网站</p>

</body>

</html>

beautifulsoup4库

bs4(简称)库是用于解析格式化文本，提取数据用的库。

我们利用requests库的get函数拿到网页的内容是一段格式化的字符串，接下来就可以用bs4来解析它。

解析的示例代码如下

from bs4 import BeautifulSoup

html = '''<html>

<body>

<p>这是我的网站</p>

<body>

</html>''' #从网页拿到html的格式化的字符串，保存到html里

soup = BeautifulSoup(html, 'lxml') #使用lxml解析器来解析文本，html和xml格式是类似的

print(soup.find_all('h1')) #使用find_all函数来找所有的h1标签，返回的结果是数组

print(soup.find_all('p')) #找所有的p标签，返回的结果是数组

更复杂一点的，比如

from bs4 import BeautifulSoup

html = '''<html>

<body>

<p>这是我的网站</p>

测试1

</div>

测试2

</div>

<body>

</html>'''

soup = BeautifulSoup(html, 'lxml')

div_tags = soup.find_all(name='div', attrs={'class': 'test-item'})

for tag in div_tags:

print(type(tag))

print(tag)

print(tag.string)

print(tag.attrs, '\n')

注意，tag保存的不是字符串，而是bs4模块中的一个标签实体类，我们主要需要知道它的attrs属性和string属性，方便我们拿到一些我们想要的文本和信息，比如a标签的href属性就保存在attrs里。

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：新人自学Python有哪些快速上手的方法?

下一篇：最适合学Python的五类人都有谁?

开班时间

Java开发 12月30日立即报名
云计算 12月30日立即报名
网络安全 12月30日立即报名
Python 12月30日立即报名
数据分析 12月30日立即报名
C++ 12月30日立即报名
物联网 12月30日立即报名
Web前端 12月30日立即报名
软件测试 12月30日立即报名
AI大模型 12月30日立即报名
鸿蒙 12月30日立即报名
智能办公 12月30日立即报名
商业视效 12月30日立即报名
AGI商业变现 12月30日立即报名
UI设计 12月30日立即报名
新媒体电商 12月30日立即报名

Python培训

Python培训

Python基础爬虫入门教程，新人必学!

预约申请免费试听课

为什么要学习Python编程？

为什么有人学完Python找不到工作？

Python 到底牛在哪？

编程入门语言，为什么建议学Python?

开班时间

相关栏目

热门搜索