Python培训

400-996-5531

热门课程:

Python人工智能培训 > Python教程知识 > 正文

6种机器学习算法要点（附Python代码和R代码）

发布： AI全球动态
来源： AI全球动态
时间：2018-01-03 16:25

本文旨在为人们提供一些机器学习算法，这些算法的目标是获取关于重要机器学习概念的知识，同时使用免费提供的材料和资源。当然选择有很多，但哪一个是最好的?哪两个互相补充?什么是使用选定资源的最佳顺序?

通用的机器学习算法包括：

·决策树

·支持向量机

·朴素贝叶斯

·邻近算法

·K-means聚类算法

·随机森林

下面是使用Python和R代码简要解释的常见机器学习算法。

决策树

这是一种主要用于分类问题的监督学习算法。令人惊讶的是，它适用于分类问题的监督学习算法。在这个算法中，我们把种群分成两个或更多的集合。这是基于重要的属性和独立变量来完成的，以使得群组尽可能地不同。

Python代码：

R代码：

支持向量机(SVM)

这也是一种分类方法。在这个算法中，我们将每个数据绘制为一个n维空间中的其中一个点(其中n是你拥有的特征的数量)，每个特征的值是特定坐标的值。

例如，如果我们只有两个特征，比如一个人的身高和头发长度，我们首先将这两个变量绘制在一个二维空间中，每个点有两个坐标(称为支持向量)。

现在，会找到一些线将两个不同分类的数据组之间的数据进行区分。这将是两组中最近点之间距离最远的直线。

Python代码：

R代码：

朴素贝叶斯

这是一个基于贝叶斯定理的分类技术，假设在预测变量之间建立独立的假设。简而言之，一个朴素贝叶斯分类器假定类中的某个特征的存在与任何其他特征的存在无关。例如，如果果实呈红色，圆形，直径约3英寸，则果实可以被认为是苹果。即使这些特征依赖于彼此或者依赖于其他特征的存在，朴素贝叶斯分类器也会考虑所有这些特性来独立地得出这个果实是苹果的可能性。

朴素贝叶斯模型很容易构建，对于非常大的数据集尤其有用。朴素贝叶斯与简单性相比，甚至超越了高度复杂的分类方法。

贝叶斯定理提供了一种计算P(c)，P(x)和P(x | c)的后验概率的方法:

P(c | x)是给定预测器(属性)的(目标)的后验概率。

P(c)是先验概率。

P(x | c)是预测器给定类的概率的可能性。

P(x)是预测器的先验概率。

Python代码：

R代码：

KNN(邻近算法)

这可以用于分类和回归问题。但在ML行业中分类问题更为广泛。 KNN是一个简单的算法，它存储所有可用的案例，并通过其多数投票来分类新案例。分配给该类的情况在其最近邻居中是最常见的，由一个距离函数来测量。

这些距离函数可以是闵可夫斯基距离(Minkowski Distance)、欧氏距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)或汉明距离(Hamming distance)。前三个函数用于连续函数，汉明距离用于分类变量。如果K = 1，那么这个情况就被简单地分配给它最近的类别。有时候，在执行KNN建模时，选择K是一个挑战。

KNN可以很容易地映射到我们的真实生活中。如果你想了解一个你没有任何信息的人，你可能想知道他们的好朋友和他们的圈子，从而获得他们的信息!

选择KNN之前需要考虑的事项：

·KNN在计算上是昂贵的。

·变量应该被标准化，否则较高范围的变量可能会偏差。

·在进行KNN之前更多地处理预处理阶段，如异常值/噪音消除。

Python代码：