Python培训

400-996-5531

热门课程:

Python人工智能培训 > Python职场 > 正文

python数据分析师面试题选

发布：Python人工智能培训
来源：Python职场
时间：2017-11-22 16:39

python数据分析部分

1. 如何利用SciKit包训练一个简单的线性回归模型

利用linear_model.LinearRegression()函数

# Create linear regression object

regr = linear_model.LinearRegression()

# Train the model using the training sets

regr.fit(data_X_train, data_y_train)

2. 例举几个常用的python分析数据包及其作用

数据处理和分析：NumPy, SciPy, Pandas

机器学习：SciKit

可视化： Matplotlib, Seaborn

3. 如何利用Numpy对数列的前n项进行排序

使用argsort()函数：x[x [: n-1].argsort ()]

4. 如何检验一个数据集或者时间序列是随机分布的

画lag plot(Correlogram：相关图)，如果图上的点呈散乱分布，则为随机

5. 在python中如何创建包含不同类型数据的dataframe

利用pandas包的DataFrame函数的serias创建列然后用dtype定义类型：

df = pd.DataFrame({'x': pd.Series(['1.0', '2.0', '3.0'], dtype=float), 'y': pd.Series(['1', '2', '3'], dtype=int)})

6. Pandas中使用的标准数据缺失标志是什么

NaN

7. 描述numpy array比python list的优势

a. numpy array比python list更紧凑，存储数据占的空间小，读写速度快。(这是由于python list储存的是指向对象(至少需要16个字节)的指针(至少4个字节);而array中储存的是单一变量(比如单精度浮点数为4个字节，双精度为8))

b. array可以直接使用vector和matrix类型的处理函数，非常方便。

8. 如何检验numpy的array为空

使用size函数，比如

a = np.array([])print a.size # 0

9. 如何检验pandas dataframe为空?

使用empty函数

python 基础操作部分

1. 如何在python中复制对象

使用copy包的copy和deepcopy函数。其中，copy 仅拷贝对象本身，而不拷贝对象中引用的其它对象;deepcopy 除拷贝对象本身，而且拷贝对象中引用的其它对象。

2. PEP8是什么

python语言的编程规范，提高代码可读性

3. init.py是什么

一个空文件，用于将导入目录中的模块。比如有一个模块是maindir/subdir/module.py，init.py 可以使之可以通过以下形式导入。import maindir.subdir.module

4. range()和xrange()函数的差异

range()生成的是list，而xrange()生成的是迭代器(iterator)。例如：

range(5) # [0, 1, 2, 3, 4]xrange(5)list(xrange(1,5)) # [1, 2, 3, 4]

5. 如何对list中的item进行随机重排

使用shuffle()函数

6. python中用于发现bug的工具

Pylint和Pychecker. Pylint可以检验模块是否满足所有的编程标准;Pychecker则是静态分析工具。

7. 装饰器的作用

装饰器可用于修饰函数或类。通过装饰器可以包裹函数或类使之执行之前或之后调用装饰器函数，从而达到抽离出大量函数中与函数功能本身无关的雷同代码并继续重用的目的。比较经典的厨力场景有检验权限，追踪参数，日志登陆等。

def makebold(fn):

def wrapped():

return "<b>" + fn() + "</b>"

return wrapped

def makeitalic(fn):

def wrapped():

return "<i>" + fn() + "</i>"

return wrapped

@makebold@makeitalicdef hello():

return "hello world"

python程序解析部分

以下代码的输出?

def multipliers():

return [lambda x: i * x for i in range(4)]

print [m(2) for m in multipliers()]

输出为[6,6,6,6]。这个的原因是 Python 的闭包的后期绑定导致的 late binding，这意味着在闭包中的变量是在内部函数被调用的时候被查找。所以结果是，当任何 multipliers() 返回的函数被调用，在那时，i 的值是在它被调用时的周围作用域中查找，到那时，无论哪个返回的函数被调用，for 循环都已经完成了，i 最后的值是 3，因此，每个返回的函数 multiplies 的值都是 3。因此一个等于 2 的值被传递进以上代码，它们将返回一个值 6 (比如： 3 x 2)。

以下代码是否报错

list= [‘a’,’e’,’i’,’o’,’u’]print list [8:]

输出为[]。访问一个列表的以超出列表成员数作为开始索引的切片将不会导致 IndexError，并且将仅仅返回一个空列表。

以下代码的输出

def foo (i= []):

i.append (1)

return i

foo ()

数学统计学部分

1. 什么是逻辑斯蒂回归(logistic regression)、

逻辑斯蒂回归常指逻辑回归模型，用于预测参数之间组合可能输出的二分结果。

2. 推荐系统、协同过滤

3. P值的意义

决定假设检验的的结果是否显著

4. 监督学习和非监督学习，机器学习算法

5. A/B测试

对有两个变量A，B的随机试验进行的统计结果测试，目的是识别改动对网页点击率的影响从而获得实现最大化的改动。

6. 特征值和特征向量

在数据分析是通过计算相关和协方差矩阵的特征向量可以用于确定之后的线性转换的方向。特征值表示特征向量方向转化或者压缩的强度。

7. 如何评价一个逻辑斯蒂模型

用分类矩阵查看真阴性和假阳性

一致性分析：查看逻辑斯蒂模型区分事件是否发生的能力

与随机选择模型进行对比

8. 项目分析的步骤

理解问题

探索数据

准备数据用于建模

建模

测试

上线执行并追踪

9. 如何处理缺失数据?(如果缺失的数据不可得，将采用何种手段收集?)

首先判断缺失数据是否有意义，如果没有意义或者缺失数据的比例超过80%直接去掉。如果缺失数据有规律，则需根据其变化规律来推测次缺失值;如果数据没有规律，则用其他值代替：

如果数据符合正态分布，缺失值用期望值代替

如果数据是类型变量，则用默认类型值代替缺失值

10. 描述K-Means Clustering算法

11. 逻辑斯蒂回归和线性回归的区别

逻辑斯蒂回归的预测值是两元的，0或1;而线性回归的预测值是连续的。

12. 如何证明根号2是无理数

13. 统计中国有多少树

本文内容转载自网络，本着分享与传播的原则，版权归原作者所有，如有侵权请联系我们进行删除!

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：TIOBE 11月编程语言排行榜，除了Python脚本语言持续走低！

下一篇：让你快速获得开发能力的6个python项目

开班时间

Java开发 12月30日立即报名
云计算 12月30日立即报名
网络安全 12月30日立即报名
Python 12月30日立即报名
数据分析 12月30日立即报名
C++ 12月30日立即报名
物联网 12月30日立即报名
Web前端 12月30日立即报名
软件测试 12月30日立即报名
AI大模型 12月30日立即报名
鸿蒙 12月30日立即报名
智能办公 12月30日立即报名
商业视效 12月30日立即报名
AGI商业变现 12月30日立即报名
UI设计 12月30日立即报名
新媒体电商 12月30日立即报名

Python培训

Python培训

python数据分析师面试题选

预约申请免费试听课

数据分析师证书含金量高吗？

我国人工智能的发展现状及前景

目前AI已经用在哪些领域？

人工智能行业什么职位好入手？

开班时间

相关栏目

热门搜索