Python培训

400-996-5531

热门课程:

Python人工智能培训 > Python常见问题 > 正文

iOS程序员如何使用Python写网路爬虫

发布：Python人工智能培训
来源：Python常见问题
时间：2017-07-11 14:17

写网络爬虫，除了c/c++,第二门语言最好的选择就是python.

原因就是

1.语法简单

2.库太多,随便想要什么功能的库都找得到,简直编程界的哆啦A梦.

3.语法优美,不信?你去看看python超过两千行的代码再回头看看用oc写的超过两千行的代码,oc写的简直丑到极致(没命名空间,点语法调用和括号调用混用).

为什么要会写爬虫?

春节前有一件活无人认领,我就自告奋勇认领了,具体如下:

自己写程序在豆瓣读书上抓取人

熊节觉得一个好的程序员应该读过那20本好书 ——《重构》《精益创业》《敏捷软件开发》《测试驱动开发》等等。他在为ThoughtWorks组建成都分公司团队的时候，发愁正统招聘方法太慢了。于是，他花了几个晚上用自己高中自学的水货代码水平写了一个程序，去抓取豆瓣上读过这些技术书籍的人。然后不断递归，再抓到这些人都读过其它什么书，再继续抓读过那些书的人。抓了几万人之后，他再用Hadoop来分析，筛选出了几十个技术大牛。

他把这些大牛的豆瓣账号扔给了公司女HR，让HR去一个个发豆邮勾搭。

春节期间断断续续边看边学写了个爬豆瓣上优秀iOS开发人员的爬虫.所以感觉iOS开发人员有必要掌握这项技术.

再举个例子,你如果想自己弄个app,例如每日精选美女之类的app,你服务端总得有图吧,怎么弄?自己用爬虫爬啊,爬到链接了塞到数据库里,传个json,app直接sdwebimage就好了.多爽!

废话不多说.开始写.

我先假设你用的是mac,然后mac都预装了python2.x,然后呢,你有了python没用,你得有库.没库怎么干活?怎么安装库呢?python界也有个类似于我们iOS开发里cocoapods的东西,这个东西叫做pip.

pip和cocoapods用起来的命令都极其类似,我们只需要两个库,一个叫做urllib2,一个叫做beautifulsoup.

urllib2是干什么的呢?它的作用就是把网页down下来,然后你就可以分析网页了.

beautifulsoup干什么的呢?你用urllib2把网页down下来了之后,里面都是html+css什么的,你想要从乱七八糟的一堆html里面找到正确的图片链接那可不是件简单的事,据我这几天的学习,做法无非两个,一个是自己写正则表达式然后用一个叫re的python库,另一个是使用lxml解析xpath.这两个说实话都不太好用,一个正则就够你吃一壶的.后来我搜索了很久,发现了一个库叫做beautifulsoup,用这个库解析html超级好用.

然后你们打开terminal敲入下面这个命令.

pip install BeautifulSoup

然后就会自动帮你安装BeautifulSoup这个东西了.urllib2因为是自带的,所以不用你下载了.

好的我们打#,这个邪恶的网站,首页都是软妹子.直接右键打开源文件.

你看到的是这些东西.

看上去和乱码没什么区别,但是我们需要仔细观察.终于找到了图片的链接.

图片链接就在li这个标签下地img标签里.现在我们需要做的就是尝试着把这种类型的li从所有html中分离出来.我们可以看到li这个标签有个属性叫做class,这个属性的值是class="span3",我们把这段话li class="span3"

搜索一下,我们发现有20个结果.恰巧,我们这个页面的图片也只有20个,那么可以确定的是我们找到了区别于其他标签的唯一性.

再仔细分析下,img这个标签在li这个标签里有且只有一个.那么,也就是说,我们先搜索出所有符合条件的li标签,然后找到里面的img标签就可以找到所有的图片链接了.

然后看代码.

#!/usr/bin/python

#-*- coding: utf-8 -*-

#encoding=utf-8

import urllib2

import urllib

import os

from BeautifulSoup import BeautifulSoup

def getAllImageLink():

html = urllib2.urlopen('#').read()

soup = BeautifulSoup(html)

liResult = soup.findAll('li',attrs={"class":"span3"})

for li in liResult:

imageEntityArray = li.findAll('img')

for image in imageEntityArray:

link = image.get('src')

imageName = image.get('data-id')

filesavepath = '/Users/weihua0618/Desktop/meizipicture/%s.jpg' % imageName

urllib.urlretrieve(link,filesavepath)

print filesavepath

if __name__ == '__main__':

getAllImageLink()