机器学习常用术语及含义
On this page
算法术语
其实在 [人工智能与机器学习与深度学习常用算法][1] 这一部分内容中我们已经介绍了相关的理论和算法的术语。
首先我们要明白机器学习的基本的原理,就是把现实世界当中要研究的对象通过抽象其特征值将其数字化,然后让计算机通过这些已有的数据学习“经验”(学习算法模型参数),从而有了判断的能力,这时如果有了新的输入,计算机就能够根据这些经验来做出判断。
机器学习中常用两种算法模型:回归和分类。
回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:
- 加利福尼亚州一栋房产的价值是多少?
- 用户点击此广告的概率是多少?
分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:
- 某个指定电子邮件是垃圾邮件还是非垃圾邮件?
- 这是一张狗、猫还是仓鼠图片?
基础术语
为了方便理解,我们还是举例子来说明。
案例1: 西瓜分类
比如我们有四个西瓜,前三个是甜的,第四个不知道甜不甜。
西瓜就是我们的样本(sample)数据。其中三个甜西瓜是有标签样本(labeled sample)。 剩下一个不知道甜不甜的西瓜是无标签样本。
我们使用有标签样本来**训练模型。**首先我们需要构建数据模型,需要对西瓜进行特征提取,我们挑选西瓜的属性 比如色泽表示为x1、根蒂表示为x2、敲声表示为x3,作为我们选取西瓜样本的特征。
那么西瓜这个样本经过特征抽取就可以表示成:
{x_1, x_2 ... x_N}
我们称为特征列,也叫特征向量。特征提取的过程也叫做特征工程 (feature engineering)。
这三个西瓜的标签样本的数据组合在一起就构成了我们的数据集(dataset)。
我们在特征抽取的时候需要将特征按照一定的标准映射成一个数值,这是一个抽象提取数据指标的过程,很显然对于西瓜的三个特征都是离散的数据。我们根据西瓜的这些特征,预测西瓜是否成熟,预测的结果也是离散的数据,适合用分类模型来解决。如果我们预测西瓜的成熟度,比如0.9、0.7这样,预测的结果就是连续的值,适合用回归模型来解决。
案例2:温度与知了叫声关系
夏天天气越热,知了叫声越大。我们可以统计下夏天温度和每分钟知了叫声的数据如下:
我们可以看到随着温度增加知了叫声越密集,我们可以用一个直线来近似表达他们之间的关系。根据我们学过的数学知识,可以用一个线性方程来表示:
y = mx + b
其中:
- y 指的是温度(以摄氏度表示),即我们试图预测的值。
- m 指的是直线的斜率。
- x 指的是每分钟的鸣叫声次数,即输入特征的值。
- b 指的是 y 轴截距。
我们在机器学习中通常用另外一种方式来表示:
y = b + w1 * x1
如果x0=1,那么还可以表示成:
y' = w0 * x0 + w1 * x1
其中:
- y′ 指的是预测标签(理想输出值)。
- b 指的是偏差(y 轴截距)。而在一些机器学习文档中,它称为 w0。
- w1 指的是特征 x1 的权重。权重与上文中用 m 表示的“斜率”的概念相同。
- x1 指的是特征(已知输入项)。
要根据新的每分钟的鸣叫声值 x1 推断(预测)温度 y′,只需将 x1 值代入此模型即可。
上面是一个特性的线性回归。如果我们有更多的特征,可以推广到多个特征的情形:
y' = b + w1 * x1 + w2 * x2 + w3 * x3
向量
先看下面这个图,A(x,y) 表示一个坐标点A,B同样表示一个坐标点,从A指向B就表示一个向量,也叫做矢量。
矢量,因此具有以下两个特征:
- 方向
- 大小,又叫做矢量的模
从A点移动到B点,只需要用A的矢量加上AB的矢量就可以,这是矢量的合成法则。
凸形
关于凸形,是个简单的概念,就是想下面这两个凸型,就是图形上任意两个点的连线都在图形内部,这个图形就是凸形。或者说凸形凸形的每个边的延长线所在直线,使得图形完全在直线的一边,这样的图形也是凸形。