机器学习(一)基础名词篇

借这篇文章把机器学习可能涉及的基本名词做个汇总解释,这样在后面具体的算法学习和看一些案例教程的时候更加方便,这里参考李航老师的《统计学习方法》一书进行归纳。

特征:通常在程序编写中以列向量记,如x=[x1,x2,x3,…,xn].T,可以理解为影响因子、物品特点。影响股价的因素有政治、经济等一系列因素,这些因素可认为是特征,通过研究特征来预测股价;如何识别图片中有人物存在,需要抓取人物的特点、轮廓信息等,这些特点就是特征。

先验概率:基于以往经验做出的判断,比如判断西瓜是否成熟,根据个人主观及以往经验来判断西瓜是否成熟(基于以往历史经验)。可用于理解模型复杂情况,模型越复杂可视为先验概率越大,反之越小。

后验概率:考虑某个事实之后的条件概率,同样判断西瓜成熟为例,本次购买西瓜敲击发现声音比较轻脆,判断西瓜成熟的可能性。

损失函数(loss function):度量模型单次预测的好坏,也叫代价函数(cost function),就是模型单次预测的结果和实际结果之间的差距。通常损失函数包括:

1)0-1损失函数

2)平方损失函数,可参考为最小二乘法

3)绝对损失函数

4)对数损失函数

风险函数(risk function):度量模型对总体平均意义下的预测情况的好坏。

经验风险:训练数据集的平均损失。

过拟合(over-fitting):通常我们面临可选的模型有很多(模型空间),也包括“真”模型,不同的模型复杂程度也不同(不同数量的参数或者阶次模型),比如我们可以对一组数据进行线性拟合,也可能采用二次拟合,而我们学习的目的是让模型尽可能的逼近“真”模型,所以尽量让拟合的模型与“真”模型的参数、阶次一致,如果过于在乎模型的预测准确性可能会导致选用过多的参数或者过高的阶次,出现“过拟合”的情况,这样学习得到的模型对未知数据的预测就可能很差。

训练误差:模型基于损失函数,通过喂训练数据而产生的平均损失大小。

测试误差:学习到的模型针对测试用的数据在测试时产生的平均损失大小。测试误差小表明模型的预测能力越好。

泛化能力(generalization ability):指学习方法对未知数据的预测能力,通常采用测试误差来评价,但是实际中测试数据不一定足够,所以统计学中引入了泛化误差的概念来度量。

经验风险最小化(empirical risk minimization,ERM):经验风险最小的模型是最优模型,是学习效果最好的模型,用来后续的预测、分类等。当样本量小的时候,采用该方法容易出现“过拟合”现象

结构风险最小化(structural risk minimization,SRM):为防止过拟合提出的的处理策略,等价于正则化。

正则化(regression):在经验风险上加一个正则项或者惩罚项,个人理解,可以和拉格朗日乘子作类比。通常正则化项有两类,一类是叫L2正则化项(λ/2*||w||2);一类叫L1正则化项(λ*||w||1)。

交叉验证:在实际数据不够充足的条件下将数据切分为训练集合测试集反复交错利用。

1)简单交叉验证:直接将数据划分为训练集和测试集(如70%训练数据+30%测试数据),通过测试误差来筛选模型。

2)S折交叉验证:将数据划分为S个互不相交的子集(S<=N),用S-1个子集数据作训练,剩下的作测试。而这个过程可以轮换,也就是可以随机从S个数据子集中选择S-1个子集,有S种可能,分别轮换作训练数据,剩余的作测试数据,最后在这S种可能中选择误差最小的一个模型。

3)留一交叉验证:留一交叉验证理解为S=N,也就是子集个数和数据个数相等,与S折交叉验证类似,不过该方法比较适用于样本数据较少的情况。

分类问题:包含学习+分类两个过程,首先基于数据学习得到一个模型(分类器),然后输入新的数据到分类器进行输出分类,有二元分类、多元分类问题。常用分类算法有k近邻、感知机、朴素贝叶斯、决策树、CNN、逻辑回归、支持向量机等。

1)正类:关注的类

2)负类:其它类

TP:正类–〉正类(将正类情况预测为正类,以下类推)

FN:正类–〉负类

FP:负类–〉正类

TN:负类–〉负类

精确率P=TP/(TP+FP)

召回率R=TP/(TP+FN)

标注问题:包括学习+标注两个过程,与分类类似,算是分类问题的推广,是对输入的一个序列进行大标签,输出一个序列。常见算法隐马尔科夫、条件随机。在信息抽取盒自然语言处理(NPL)中常见。

回归问题:包括学习+预测两个步骤,用于预测输入输出之间的关系,建立输入输出之间的映射模型,按照参数变量个数分为单变量回归、多元回归模型;按照输入输出之间的类型划分为线性回归、非线性回归。常见场景如吴恩达老师讲解的楼房价格预测,或者在商业中的股票价格涨势预测、市场趋势预测以及生产制造中的质量管理等方面。

以上是一些基本的机器学习涉及的统计学概念,同大家分享。

%1 $ S

发表评论

电子邮件地址不会被公开。 必填项已用*标注