Python培训

400-996-5531

热门课程:

Python|如何构建自己的IP池

发布：Python人工智能培训
来源：Python教程知识
时间：2020-05-11 16:43

在爬取网站的过程中，很多网站都有反爬机制，它可能会限制每个Ip的访问速度或访问次数。如果限制访问的速度，则可以通过time.sleep进行短暂休眠后再次爬取。但是对于限制Ip访问次数的时候，则必须通过代理Ip轮换去访问目标网址。所以需要构建子的IP池。关于怎么建，看这篇文章就够了。

第一步：找到一些IP代理的网站，如快代理：

通过一般的爬虫思路将IP爬取下来，将爬下来的IP放在列表中存起来，要注意的是IP的格式一般为字典{HTTP：Ip：端口}。代码如下：

import requests

import parsel

import time

ip_list = []

for i in range(1,30):

url = '#/free/inha/{}/'.format(i)

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}

response = requests.get(url,headers=header)

html1 = parsel.Selector(response.text)

h = html1.xpath('//table[@class="table table-bordered table-striped"]/tbody/tr')

for t in h:

ip_dict = {}

h2 = t.xpath('./td[4]/text()').extract_first()

h3 = t.xpath('./td[1]/text()').extract_first()

h4 = t.xpath('./td[2]/text()').extract_first()

# print(h2,h3,h4)

ip_dict[h2] = h3+':'+h4

ip_list.append(ip_dict)

time.sleep(0.5)

print(ip_dict)

爬取过程简单，先确定url，找到规律，利用循环爬取数据。用xpath来提取数据，并按照爬虫IP的格式建立字典，用列表存放字典。有一个小问题该网站有爬取速度限制，则可以通过time.sleep来控制爬取速度。

第二步：测试

在request方法中，可以通过proxies参数来伪装ip.可以先建立一个测试的函数，用这个IP去访问一个网站，如果得到快速反映，那么这个IP就可以使用。代码如下：

def check(list):

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}

can = []

for i in list:

responses = requests.get('#/',headers = header,proxies = i,timeout= 0.2)

if response.status_code == 200:

can.append(i)

return can

写在最后：构建IP池是学习爬虫必须的，通过proxies参数可以伪装Ip，小编能力有限，还无法利用数据库来存取IP池，只能通过列表的形式呈现给大家。

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：python：面向对象编程的类和实例

下一篇：深入解析 Python 中的上下文管理器

相关推荐

: 2021年Python全套免费视频教程在哪里？

2021年你拿到开工福利了吗？今天达内Python培训学员给大家送福利啦！达内讲师免费录制了一套Python视频教程，Python从入门到精通只需一套Python视频教程

: 学 Python 零基础入门怎么学？

Python 以简洁语法和广泛应用成为入门首选，但无章法的学习容易陷入 “看视频都会，动手就废” 的困境

: Python编程学习路线

Python编程学习路线，学习Python编程可以按照以下步骤进行：

: Python最高有几级？

Python最高有几级？在 Python 编程领域，并没有官方的“级别”划分，如同其他编程语言或技能一样。Python 编程能力的提升是一个连续的过程，通常取决于个人的学习、实践和经验积累。不过，一些第三方机构或教育平台可能会提供不同级别的认证或课程，以帮助学习者根据自己的学习进度和目标进行自我评估和提升。

开班时间

Java开发 10月31日立即报名
云计算 10月31日立即报名
网络安全 10月31日立即报名
Python 10月31日立即报名
数据分析 10月31日立即报名
C++ 10月31日立即报名
物联网 10月31日立即报名
Web前端 10月31日立即报名
软件测试 10月31日立即报名
AI大模型 10月31日立即报名
鸿蒙 10月31日立即报名
智能办公 10月31日立即报名
商业视效 10月31日立即报名
AGI商业变现 10月31日立即报名
UI设计 10月31日立即报名
新媒体电商 10月31日立即报名

Python培训

Python培训

Python|如何构建自己的IP池

预约申请免费试听课

2021年Python全套免费视频教程在哪里？

学 Python 零基础入门怎么学？

Python编程学习路线

Python最高有几级？

开班时间

相关栏目

热门搜索