更多课程 选择中心


Python培训

400-996-5531

python爬取“旅行青蛙”百度贴吧评论

  • 发布:灵音
  • 来源:网络世界的青铜门
  • 时间:2018-01-26 16:33

这几天,网上的一款叫“旅行青蛙”的日本的游戏很火,都超过“荒野行动”和“王者荣耀”了

那到底是什么魔力能这么吸引人呢?俗话说:“金杯银杯,不如老百姓的口碑”,我打算去听听大家是怎么评论这款游戏的,去哪呢,当然是万能的贴吧啦。

已经排到第三名了!!!!

评论肯定不少,正好python是做爬虫的绝佳工具,不如今天就写个脚本,把评论爬下来

好了,说干就干。

1,首先看看我们要爬取的网页

网址是:https://tieba.baidu.com/p/5527182875?red_tag=3595394726

按f12或者是鼠标右键查看源代码:

先找到标题,所在的标签是h3。

然后找到评论所在的位置:

找到的规律就是评论在<div id="post_content_11737...........">

可以用正则表达式筛选出来

好了,思路有了,开始写脚本。

2,代码

''' author:lingyin qq:2686291180 blog:www.qtdoor.top date:2018-1-24  ''' # -*- coding:utf-8 -*- from bs4 import BeautifulSoup import urllib import urllib2 import re import sys reload(sys)
sys.setdefaultencoding('utf8') #要爬取的url地址 goalurl = "https://tieba.baidu.com/p/5527182875?red_tag=3595394726"  #百度贴吧爬取类 class Baidu():     #构造方法     def __init__(self,url):         self.URL = url         self.html = urllib2.urlopen(self.URL) #实例一个soup对象         self.soup = BeautifulSoup(self.html,"lxml") #打印帖子标题     def printTitle(self):         self.title = self.soup.find_all("h3") print "贴子标题:%s" % self.title[0].string #打印用户留言     def printLy(self):         #筛选出用户的留言         self.Ly = self.soup.find_all("div",{"id":re.compile(r'post_content_117.*?')}) for ly in self.Ly:             print "--------------------------------------------------------------------"             #利用正则表达式将各种混乱的标签剔除             ly = re.sub(r'<.*?>|</.*?>',"",str(ly)) print ly



spider = Baidu(goalurl)
spider.printTitle()
spider.printLy()

不到50行代码,这只是一页的,我并没有爬取多页。

结果:

贴子标题:我的青蛙,今天旅行回来看书打瞌睡,现在在写字呢,真乖

--------------------------------------------------------------------

我的青蛙,今天旅行回来看书打瞌睡,现在在写字呢,真乖

--------------------------------------------------------------------

我的青蛙老是出去野也不带东西回来怎么办

--------------------------------------------------------------------

我的蛙出去一天了还没回来,是不是被拐卖了?

--------------------------------------------------------------------

我的青蛙给我发了这个 就再也没回家过了

--------------------------------------------------------------------

怎么还有中文版的

--------------------------------------------------------------------

找不到APP

--------------------------------------------------------------------

纯日文的 靠直觉给他喂了吃的 然后卸载了 我的纳尔呱

--------------------------------------------------------------------

桌上的蜡烛我一直以为是我呱儿子给我削的梨,直到它冒火。

--------------------------------------------------------------------

你们是有多孤独,玩个静态游戏都能有这么多感慨。

--------------------------------------------------------------------

你们儿子在我家呢

--------------------------------------------------------------------

我的青蛙一回来就念一些听不懂的诗句

--------------------------------------------------------------------

日文看不懂,不知道哪里好玩

--------------------------------------------------------------------

你没给他准备便当他会一直赖在家

--------------------------------------------------------------------

你咋是中文

--------------------------------------------------------------------

有汉化版的,这游戏有什么好玩的

--------------------------------------------------------------------

这是什么游戏

--------------------------------------------------------------------

我的呱儿子就出过一次门,然后一直在床上看书,什么事也不干

--------------------------------------------------------------------

这是什么游戏

--------------------------------------------------------------------

我的蛙还没回来

--------------------------------------------------------------------

我的哇哇,晚上又自己出门旅行去了,不知道能给我带什么回来

--------------------------------------------------------------------

ios是日语版的怎么办啊看不懂不想玩

--------------------------------------------------------------------

楼上的图都快看吐了

--------------------------------------------------------------------

告诉大家先下载个应用葫芦侠,在从里面下载旅行青蛙

--------------------------------------------------------------------

我的红豆蛙去外面游荡了4小时吧?回来了在看书,还有蜗牛来串门,也招待了,

--------------------------------------------------------------------

这个是啥意思

--------------------------------------------------------------------

为什么我的呱呱不会写字呀。

--------------------------------------------------------------------

看不懂 跟风玩的

--------------------------------------------------------------------

看评论,还是挺好玩的啊

本文内容转载自网络,本着传播与分享的原则,来源/作者信息已在文章顶部表明,版权归原作者所有,如有侵权请联系我们进行删除!

预约申请免费试听课

填写下面表单即可预约申请免费试听! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!

上一篇:从小白到大神,一文掌握 Python 密集知识点
下一篇:在Windows环境下用c重要文件

Python IDE推荐7个你可能会错过的Python IDE

Python面试题之Python中爬虫框架或模块的区别

2021年Python面试题及答案汇总详解

python数据分析,你需要这些工具

Copyright © 2023 Tedu.cn All Rights Reserved 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有

选择城市和中心
黑龙江省

吉林省

河北省

湖南省

贵州省

云南省

广西省

海南省