Python培训

400-996-5531

热门课程:

Python爬虫入门前你应该了解这些

发布： hex
来源：Python之光
时间：2018-02-06 14:09

爬虫原理：

网络抓取程序，俗称“爬虫”，爬虫的基本原理就是获取目标网址，下载网页，通过分析数据中的关键信息，获取资源。爬虫这个实际是翻译自英文的spider, 实际是蜘蛛的意思，这个比喻很形象，蜘蛛在网上伺机而动，捕获食物。而我们的爬虫程序也就在因特网上爬取我们所需要的网络资源。

作用：

爬虫最重要的作用是充当搜索引擎，最简单的，我们上网浏览网页，那我把网页都抓下来。建立了一个库，根据你搜的那个关键字（query），给你返回相应的数据，里面当然会根据相关度建立指标，比如比较权威的page rank,有那些权威的网站引用了，那个相关度就增高了。

百度和谷歌每天都会更新这个库。最早做搜索的时候，有种比较流氓的做法，就是去爬取竞争对手的搜出来的结果，每个早期公司都会这个做，像之前百度会有参数叫谷歌参数，在搜索权重里面站的参数还比较重。

360做搜索就更厉害了，干脆把竞争对手直接抓过来后，直接建立一个库，然后返回数据给用户，这个真是比较机智。到后面都占据搜索市场10%以上。当然这里有个法律安全问题。

话说回来，讲到爬虫的第二个作用-数据统计及分析，这个范围就更多更广了，举一个很简单的例子，想看看各大招聘网站各类职务信息和热门网站以及薪水，想抓取雪球高回报用户的行为，找出推荐股票等等，我们都可以使用爬虫技术，来给我们收集数据，辅助我们决策。

基础知识：

现在我们进入本文的重点，掌握爬虫技术需要那些知识和学习阶段的建议。

1. 编程语言

首先入门，需要学习一门编程语言，以Python为例，基础语法、类、函数、数据结构中的list和dict等，跟着例子敲敲，网上资源很多，书籍像《笨办法学Python》，网站像廖雪峰的个人网站，都是有不错的资源。

2. HTTP协议

爬虫就是通过网络请求从远程服务器下载数据的过程，互联网消息传输的基本协议就是http协议，先了解基本的get，post，delete等方法和编码。慢慢地掌握浏览器是发送http请求向目标站点获取资源信息，熟悉格式规范。

网络请求框架都是对 HTTP 协议的实现，Python语言中著名的网络请求库 Requests就是一个模拟浏览器发送 HTTP 请求的网络库。相当于通过这个库打开的新世界的大门，我们可以获取网页的源代码。了解 HTTP 协议之后，学有余力，就可以专门有针对性的学习和网络相关的模块了，Python 自带有 urllib、urllib2（Python3中的urllib），httplib，Cookie等内容，也可以暂时先跳过。把Requests的API弄熟。

3. HTML语言

很基础的内容，我们要爬取网页，自然需要知道网页使用的技术，知道文档树概念，30分钟就大致了解即可。

4.数据格式（HTML文本， XML 或者Json格式）

我们通过网络请求库 Reuests 获得从网站服务器后端发过来数据，数据有可能有不同的格式正确处理这些数据，你要熟悉每种数据类型的解决方案，比如 JSON 数据可以直接使用 Python自带的模块 json等。

5.解析工具

我的的目标信息藏在网页里，那么通过什么方法可以提取呢？传统的方法是使用正则表达式（Python模块中的re），对于Python而言，我们有方便的第三方解析库，可以使用。像Pyquery，BeautifulSoup等，学习方法最快速的无非是看官方文档中的quickstart先熟悉API。推荐使用Pyquery,它模仿Jquery几乎同样的API接口，对DOM操作十分方便。