Python培训
400-996-5531
数据分析主要流行的入门语言主要是Python、R,作者更加青睐于前者,主要是因为其通用性、跨平台的优点。而做数据分析单纯依赖Python本身自带的库是远不能满足的,需要安装第三方扩展库来增强分析、挖掘能力。
我们会用到哪些工具?
主要介绍以下几个库:Numpy、Pandas、Scipy、Matplotlib、Scikit-Learn、Keras、Gensim、Scrapy。当然如果安装的是Anaconda发行版,那么它本身已经自带了一些库,如:Numpy、Pandas、Scipy、Matplotlib、Scikit-Learn。
扩展库简介
Numpy
Python并没有提供数组功能。虽然列表可以完成基本的数据功能,但并不是真正的数组,而且在数据量较大时,使用列表的速度和效率就会大大折扣。为此,Numpy提供了真正的数组功能,以及快速处理数据的函数,而且Scipy、Matplotlib、Pandas等库都依赖于它,值得强调的是Numpy内置函数处理数据的效率是C语言级别的。
#安装脚本
pip install numpy
Scipy
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,显然,这些功能都是挖掘和建模必备的。
#安装脚本
pip install scipy
Matplotlib
Matplotlib是最著名的绘图库,它主要用于二维绘图。当然还有其他的更好用的库,Seaborn就是在Matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易。Wordcloud提供词云构建,还提供自定义图片。国内著名的可视化工具Echarts也提供了Pyecharts包,几行代码就能实现Echarts风格的图标。虽然这么多工具,其实只需要掌握好一个工具即可。
#安装脚本
pip install matplotlib
Pandas
Pandas是Python下最强大的数据分析和探索工具,他包含高级的数据结构(Series和DataFrame)和工具。使得在Python中处理数据非常快速和简单。而且Pandas构建在Numpy智商,使得以Numpy为中心的应用很容易使用。
#安装脚本
pip install pandas
StatsModels
Pandas用于数据的读取、处理和探索。而StatsModels则更加注重数据的统计模型分析,这两者进行数据交互,因此成为了Python下强大的数据挖掘组合。同时StatsModels依赖于Pandas。
#安装脚本
pip install statsmodels
Scikit-Learn
Scikit-Learn依赖于Numpy、Scipy和Matplotlib,是Python常用的机器学习工具包,提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测和模型分析等。
#安装脚本
pip install sklearn
Keras
Keras依赖于Numpy、Scipy,虽然Scikit-Learn已经足够强大,但是他没有包含人工神经网络。人工神经网络主要应用于语言处理、图像识别等领域。利用它可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归审计网络、卷积神经网络等。由于它是基于Theano之上,因此速度也相当的快。
#安装脚本
pip install keras
Gensim
Gensim是用来处理语言方面的任务,如文本相似度计算、LDA、Word2Vec等。Gensim作者已经对Word2Vec进行优化,执行效率比原生的Word2Vec效率更快。
#安装脚本
pip install gensim
Scrapy
Scrapy是专为爬虫而生的工具,提供了URL读取、HTML解析、存储数据等功能,Scrapy 使用 Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。。
#安装脚本
pip install scrapy
当然现在已经开始流行第二代深度学习模型TensorFlow,TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。TensorFlow支持CNN、RNN和LSTM算法,这都是目前在Image,Speech和NLP最流行的深度神经网络模型。
填写下面表单即可预约申请免费试听! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!
Copyright © 京ICP备08000853号-56 京公网安备 11010802029508号 达内时代科技集团有限公司 版权所有
Tedu.cn All Rights Reserved