更多课程 选择中心


Python培训

400-111-8989

你会用 Python 和 R 画词云图吗?

  • 发布: 统计咨询
  • 来源: 统计咨询
  • 时间:2017-11-03 15:32

在大数据时代,我们要处理的数据不仅仅局限于以往的数值型数据,越来越多地要面对一些文本型数据。如何能快速了解大段文本中所表达的主要内容(高逼格一点的话就是“文本挖掘”),是我们面临的挑战。有人曾说“人类是视觉动物”,所以我们能不能通过可视化的技术将文本的主要内容展示出来呢?

答案是肯定的,词云图就是解决这类问题的利剑。当前很多媒体也越来越多的应用词云图来展示所关注的内容。词云图,也叫文字云,是对文本中出现频率较高的“关键词”进行视觉化的展现,它可以滤掉大量的低频低质的文本信息,使得读者只要扫一眼就可了解文本的主旨。

实例

Python和R是当前最热门统计编程语言之二。下面分别以Python和R简单介绍词云图的绘制,文本内容是维基百科上“Medical statistics”的定义,内容摘抄如下:“Medical statistics deals with applications of statistics to medicine ...”。

R

#加载所需的程序包

library(jiebaR)

library(wordcloud2)

#读取需挖掘的文本

text="Medical statistics ..."

#提取关键词及其频数

mixseg=worker(type="mix")

seg=mixseg[text]

num=table(seg)

#采用默认设置画词云图

wordcloud2(num)

下面是得到的结果,大概可以看出那段话讲得是"medical"和"statistics"相关的内容:

Python

#加载所需的程序包

import jieba

from wordcloud import WordCloud

#读取需挖掘的文本

text = """

Medical statistics ...

"""

#提取关键词及其频数

word=jieba.cut(text)

#用默认设置画词云图

wordcloud = WordCloud().generate(", ".join(word))

plt.figure()

plt.imshow(wordcloud, interpolation="bilinear")

plt.axis("off")

plt.show()

下面是得到的结果,与R语言的结果类似,大概也可以看出那段话讲得是"medical"和"statistics"相关的内容,不过同样是默认设置,Python中可以把the、of、and、in等没有意义的词语滤掉了:


本文内容转载自网络,本着分享与传播的原则,版权归原作者所有,如有侵权请联系我们进行删除!

预约申请免费试听课

填写下面表单即可预约申请免费试听! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!

上一篇:Python 环境搭建教程
下一篇:Python开发环境的详细教程

Python IDE推荐7个你可能会错过的Python IDE

Python面试题之Python中爬虫框架或模块的区别

2021年Python面试题及答案汇总详解

python数据分析,你需要这些工具

  • 扫码领取资料

    回复关键字:视频资料

    免费领取 达内课程视频学习资料

Copyright © 2023 Tedu.cn All Rights Reserved 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有

选择城市和中心
黑龙江省

吉林省

河北省

湖南省

贵州省

云南省

广西省

海南省