Python培训
400-996-5531
在大数据时代,我们要处理的数据不仅仅局限于以往的数值型数据,越来越多地要面对一些文本型数据。如何能快速了解大段文本中所表达的主要内容(高逼格一点的话就是“文本挖掘”),是我们面临的挑战。有人曾说“人类是视觉动物”,所以我们能不能通过可视化的技术将文本的主要内容展示出来呢?
答案是肯定的,词云图就是解决这类问题的利剑。当前很多媒体也越来越多的应用词云图来展示所关注的内容。词云图,也叫文字云,是对文本中出现频率较高的“关键词”进行视觉化的展现,它可以滤掉大量的低频低质的文本信息,使得读者只要扫一眼就可了解文本的主旨。
实例
Python和R是当前最热门统计编程语言之二。下面分别以Python和R简单介绍词云图的绘制,文本内容是维基百科上“Medical statistics”的定义,内容摘抄如下:“Medical statistics deals with applications of statistics to medicine ...”。
R
#加载所需的程序包
library(jiebaR)
library(wordcloud2)
#读取需挖掘的文本
text="Medical statistics ..."
#提取关键词及其频数
mixseg=worker(type="mix")
seg=mixseg[text]
num=table(seg)
#采用默认设置画词云图
wordcloud2(num)
下面是得到的结果,大概可以看出那段话讲得是"medical"和"statistics"相关的内容:
Python
#加载所需的程序包
import jieba
from wordcloud import WordCloud
#读取需挖掘的文本
text = """
Medical statistics ...
"""
#提取关键词及其频数
word=jieba.cut(text)
#用默认设置画词云图
wordcloud = WordCloud().generate(", ".join(word))
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()
下面是得到的结果,与R语言的结果类似,大概也可以看出那段话讲得是"medical"和"statistics"相关的内容,不过同样是默认设置,Python中可以把the、of、and、in等没有意义的词语滤掉了:
本文内容转载自网络,本着分享与传播的原则,版权归原作者所有,如有侵权请联系我们进行删除!
填写下面表单即可预约申请免费试听! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!
Copyright © 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有
Tedu.cn All Rights Reserved