Trace Id is missing
跳到主内容

机器学习算法

机器学习背后的数学和逻辑简介。

机器学习算法是什么?

机器学习算法是一些代码片段,可帮助人们探索和分析复杂数据集并在其中找到意义。每个算法是一组有限的明确分步说明,计算机可以遵循这些说明来实现特定目标。在机器学习模型中,目标是建立或发现可用于预测或信息分类的模式。 什么是机器学习?

机器学习算法使用基于训练数据(代表较大数据集的数据子集)的参数。训练数据越大,越能代表真实情况,从而算法计算出的结果也越准确。

不同的算法以不同的方式分析数据。算法通常按使用的机器学习技术(监督式学习、非监督式学习和强化学习)进行分类。最常用的算法使用回归和分类预测目标类别、查找异常数据点、预测值和发现相似性。

机器学习技术

随着你逐渐了解机器学习算法,你会发现它们通常属于三种机器学习技术中的一种:


监督式学习

在监督式学习中,算法根据你提供的一组带标签的示例进行预测。当你知道结果会是怎样时,这种技术非常有用。
 

例如,你提供了一个包含过去 100 年每年城市人口数据的数据集,并希望了解特定城市在 4 年后的人口数量。结果使用数据集中已存在的标签:人口数量、城市和年份。
 

非监督式学习

在非监督式学习中,数据点没有标签,算法通过组织数据或描述其结构来为其添加标签。当你不知道结果会是怎样时,这种技术非常有用。

 

例如,你提供客户数据,并想创建喜欢相似产品的客户群。你提供的数据没有标签,结果中的标签是根据在数据点间发现的相似之处生成的。

 

强化学习

强化学习使用从结果习得的算法来决定接下来要采取的操作。执行每个操作后,该算法将收到反馈,帮助它确定所作的选择是正确的、中性的还是错误的。这是一种很好的技术,适用于没有人为指导的情况下进行大量小决策的自动化系统。

 

例如,假设你在设计自驾驶汽车,并想要确保它遵守法律并保障人类安全。随着汽车行驶经验和强化历史记录的增加,它会学习如何保持行道、遵守限速、在遇到行人时刹车。

可以通过机器学习算法执行的操作

机器学习算法可帮助你解答因太复杂而无法通过手动分析解答的问题。存在多种不同的机器学习算法类型,但机器学习算法用例通常划分为 3 个类别。

预测目标类别

两类(二进制)分类算法 将数据分为两个类别。它们适用于解决只有两个互斥答案的问题,包括是非问题。例如:

  • 此轮胎是否会在下一 1,000 英里中出现故障:是或否?
  • 哪种促销活动会带来更多的推荐:10 美元的额度还是 15% 的折扣?

 

多类(多项式)分类算法 将数据分成三个或更多类别。它们适用于解决有三个或更多个互斥答案的问题。例如:

  • 哪个月购买机票的旅客最多?
  • 这张照片中的人正在表达什么感情?

查找异常数据点

异常检测算法 可识别落在已定义的“正常”参数之外的数据点。例如,可使用异常检测算法来解答类似如下的问题:

  • 这一批次中哪些部分有缺陷?
  • 哪些用信用卡支付的订单可能具有欺诈性?

预测值

回归算法 根据历史数据预测新数据点的值。它们可帮助你回答类似如下的问题:

  • 明年本市套二房屋的平均价格是多少?
  • 星期二会有多少患者来诊所?

查看值随时间的变化情况

时序算法 显示给定值随时间的变化情况。使用时序分析和时序预测时,系统在一段时间内定期收集数据,并用它来进行预测,识别趋势、季节性、周期性和无规律性。时序算法用于回答如下所示的问题:

  • 给定股票的价格在来年可能会上涨还是下跌?
  • 我下一年将支出多少费用?

发现相似性

聚类分析算法 通过确定数据点之间的相似性级别将数据划分为多个组。聚类分析算法适用于类似如下的问题:

  • 哪些观众喜欢同类型的电影?
  • 哪些打印机型号出现相似的故障?

分类

分类算法 使用预测计算将数据分配给预设类别。分类算法针对输入数据进行训练,用于回答如下所示的问题:

  • 这封电子邮件是垃圾邮件吗?
  • 给定文本包含哪种情绪(积极、消极或中立)?
线性回归 算法通过将数据拟合到连续直线来显示或预测两个变量之间的关系。通常使用平方差损失函数计算该直线。线性回归是最常见的回归分析类型之一。
逻辑回归 算法将数据拟合到连续的 S 形曲线。逻辑回归也是一种常见的回归分析类型。
朴素贝叶斯 算法根据相关事件的发生情况计算发生事件的概率。
支持向量机 在两个最近的数据点之间绘制超平面。这会对类进行边缘化并将类间距离最大化,以更清晰地区分它们。
决策树 算法可将数据拆分为两个或更多同类集。它们使用“如果……就……”规则,根据数据点之间最重要的区别来拆分数据。
K 邻近 算法存储所有可用的数据点,并根据距离函数算出的最接近的数据点对每个新数据点进行分类。
随机森林 算法基于决策树,但它不是创建一个决策树,而是创建一个决策树林,然后对林中的树进行随机化。然后,算法对来自决策树的不同随机编组的投票进行聚合,以确定测试对象的最终类。
梯度提升 算法会产生一个预测模型,该模型通过组装进程捆绑弱预测模型(通常是决策树),从而提高模型的整体性能。
K 均值 算法将数据分类到群集中,其中 K 等于群集的数目。每个群集中的数据点属于同类,并与其他群集中的数据点互为异类。

什么是机器学习库?

机器学习库是一组用给定语言编写的函数、框架、模块和例程。开发人员将机器学习库中的代码用作构建基块来创建可执行复杂任务的机器学习解决方案。有众多 ML 库可供使用,开发人员可在其中一个库中找到所需的函数和模块,并用它们来构建满足其需求的解决方案,而无需在机器学习解决方案中手动编码每一个算法和公式。

使用 Azure 机器学习开始试验

使用 Azure 机器学习生成和部署自己的机器学习模型,了解各种算法如何分析数据。