


Python培训
400-996-5531
这几天,网上的一款叫“旅行青蛙”的日本的游戏很火,都超过“荒野行动”和“王者荣耀”了
那到底是什么魔力能这么吸引人呢?俗话说:“金杯银杯,不如老百姓的口碑”,我打算去听听大家是怎么评论这款游戏的,去哪呢,当然是万能的贴吧啦。
已经排到第三名了!!!!
评论肯定不少,正好python是做爬虫的绝佳工具,不如今天就写个脚本,把评论爬下来
好了,说干就干。
1,首先看看我们要爬取的网页
网址是:https://tieba.baidu.com/p/5527182875?red_tag=3595394726
按f12或者是鼠标右键查看源代码:
先找到标题,所在的标签是h3。
然后找到评论所在的位置:
找到的规律就是评论在<div id="post_content_11737...........">
可以用正则表达式筛选出来
好了,思路有了,开始写脚本。
2,代码
''' author:lingyin qq:2686291180 blog:www.qtdoor.top date:2018-1-24 ''' # -*- coding:utf-8 -*- from bs4 import BeautifulSoup import urllib import urllib2 import re import sys reload(sys) sys.setdefaultencoding('utf8') #要爬取的url地址 goalurl = "https://tieba.baidu.com/p/5527182875?red_tag=3595394726" #百度贴吧爬取类 class Baidu(): #构造方法 def __init__(self,url): self.URL = url self.html = urllib2.urlopen(self.URL) #实例一个soup对象 self.soup = BeautifulSoup(self.html,"lxml") #打印帖子标题 def printTitle(self): self.title = self.soup.find_all("h3") print "贴子标题:%s" % self.title[0].string #打印用户留言 def printLy(self): #筛选出用户的留言 self.Ly = self.soup.find_all("div",{"id":re.compile(r'post_content_117.*?')}) for ly in self.Ly: print "--------------------------------------------------------------------" #利用正则表达式将各种混乱的标签剔除 ly = re.sub(r'<.*?>|</.*?>',"",str(ly)) print ly spider = Baidu(goalurl) spider.printTitle() spider.printLy()
不到50行代码,这只是一页的,我并没有爬取多页。
结果:
贴子标题:我的青蛙,今天旅行回来看书打瞌睡,现在在写字呢,真乖
--------------------------------------------------------------------
我的青蛙,今天旅行回来看书打瞌睡,现在在写字呢,真乖
--------------------------------------------------------------------
我的青蛙老是出去野也不带东西回来怎么办
--------------------------------------------------------------------
我的蛙出去一天了还没回来,是不是被拐卖了?
--------------------------------------------------------------------
我的青蛙给我发了这个 就再也没回家过了
--------------------------------------------------------------------
怎么还有中文版的
--------------------------------------------------------------------
找不到APP
--------------------------------------------------------------------
纯日文的 靠直觉给他喂了吃的 然后卸载了 我的纳尔呱
--------------------------------------------------------------------
桌上的蜡烛我一直以为是我呱儿子给我削的梨,直到它冒火。
--------------------------------------------------------------------
你们是有多孤独,玩个静态游戏都能有这么多感慨。
--------------------------------------------------------------------
你们儿子在我家呢
--------------------------------------------------------------------
我的青蛙一回来就念一些听不懂的诗句
--------------------------------------------------------------------
日文看不懂,不知道哪里好玩
--------------------------------------------------------------------
你没给他准备便当他会一直赖在家
--------------------------------------------------------------------
你咋是中文
--------------------------------------------------------------------
有汉化版的,这游戏有什么好玩的
--------------------------------------------------------------------
这是什么游戏
--------------------------------------------------------------------
我的呱儿子就出过一次门,然后一直在床上看书,什么事也不干
--------------------------------------------------------------------
这是什么游戏
--------------------------------------------------------------------
我的蛙还没回来
--------------------------------------------------------------------
我的哇哇,晚上又自己出门旅行去了,不知道能给我带什么回来
--------------------------------------------------------------------
ios是日语版的怎么办啊看不懂不想玩
--------------------------------------------------------------------
楼上的图都快看吐了
--------------------------------------------------------------------
告诉大家先下载个应用葫芦侠,在从里面下载旅行青蛙
--------------------------------------------------------------------
我的红豆蛙去外面游荡了4小时吧?回来了在看书,还有蜗牛来串门,也招待了,
--------------------------------------------------------------------
这个是啥意思
--------------------------------------------------------------------
为什么我的呱呱不会写字呀。
--------------------------------------------------------------------
看不懂 跟风玩的
--------------------------------------------------------------------
看评论,还是挺好玩的啊
本文内容转载自网络,本着传播与分享的原则,来源/作者信息已在文章顶部表明,版权归原作者所有,如有侵权请联系我们进行删除!
填写下面表单即可预约申请免费试听! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!
Copyright © 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有