Python培训

400-996-5531

热门课程:

你会用 Python 和 R 画词云图吗？

发布：统计咨询
来源：统计咨询
时间：2017-11-03 15:32

在大数据时代，我们要处理的数据不仅仅局限于以往的数值型数据，越来越多地要面对一些文本型数据。如何能快速了解大段文本中所表达的主要内容(高逼格一点的话就是“文本挖掘”)，是我们面临的挑战。有人曾说“人类是视觉动物”，所以我们能不能通过可视化的技术将文本的主要内容展示出来呢?

答案是肯定的，词云图就是解决这类问题的利剑。当前很多媒体也越来越多的应用词云图来展示所关注的内容。词云图，也叫文字云，是对文本中出现频率较高的“关键词”进行视觉化的展现，它可以滤掉大量的低频低质的文本信息，使得读者只要扫一眼就可了解文本的主旨。

实例

Python和R是当前最热门统计编程语言之二。下面分别以Python和R简单介绍词云图的绘制，文本内容是维基百科上“Medical statistics”的定义，内容摘抄如下：“Medical statistics deals with applications of statistics to medicine ...”。

#加载所需的程序包

library(jiebaR)

library(wordcloud2)

#读取需挖掘的文本

text="Medical statistics ..."

#提取关键词及其频数

mixseg=worker(type="mix")

seg=mixseg[text]

num=table(seg)

#采用默认设置画词云图

wordcloud2(num)

下面是得到的结果，大概可以看出那段话讲得是"medical"和"statistics"相关的内容：

Python

#加载所需的程序包

import jieba

from wordcloud import WordCloud

#读取需挖掘的文本

text = """

Medical statistics ...

"""

#提取关键词及其频数

word=jieba.cut(text)

#用默认设置画词云图

wordcloud = WordCloud().generate(", ".join(word))

plt.figure()

plt.imshow(wordcloud, interpolation="bilinear")

plt.axis("off")

plt.show()

下面是得到的结果，与R语言的结果类似，大概也可以看出那段话讲得是"medical"和"statistics"相关的内容，不过同样是默认设置，Python中可以把the、of、and、in等没有意义的词语滤掉了：

本文内容转载自网络，本着分享与传播的原则，版权归原作者所有，如有侵权请联系我们进行删除!

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：Python 环境搭建教程

下一篇：Python开发环境的详细教程

相关推荐

: Python IDE推荐7个你可能会错过的Python IDE

现在为Python构建的IDE真的是多的尴尬。IDLE, Komodo, LiClipse, PyCharm, Spyder, and Python Tools这六个产品因为其适用性良好，在一个应用评审中挺进最后一轮，但还有更多值得注意的IDE--有通过复杂的努力为提供的一个完整的开发系统，以及适合初学者的项目。