机器学习理论和定理
创始人
2024-05-04 07:21:08
0

在机器学习中, 有一些非常有名的理论或定理, 对理解机器学习的内在特性非常有帮助. 

1. PAC学习理论

当使用机器学习方法来解决某个特定问题时, 通常靠经验或者多次试验来选择合适的模型、 训练样本数量以及学习算法收敛的速度等. 但是经验判断或多次试验往往成本比较高, 也不太可靠, 因此希望有一套理论能够分析问题难度、 计算模型能力, 为学习算法提供理论保证, 并指导机器学习模型和学习算法的设计. 这就是计算学习理论. 计算学习理论( Computational Learning Theory) 是机器学习的理论基础, 其中最基础的理论就是可能近似正确( Probably Approximately Correct, PAC) 学习理论.

机器学习中一个很关键的问题是期望错误和经验错误之间的差异, 称为泛化错误( Generalization Error).泛化错误可以衡量一个机器学习模型𝑓 是否可以很好地泛化到未知数据.

 

根据大数定律, 当训练集大小|𝒟|趋向于无穷大时, 泛化错误趋向于0, 即经验风险趋近于期望风险.

 

由于我们不知道真实的数据分布 𝑝(𝒙, 𝑦), 也不知道真实的目标函数 𝑔(𝒙),因此期望从有限的训练样本上学习到一个期望错误为0的函数𝑓(𝒙)是不切实际的. 因此, 需要降低对学习算法能力的期望, 只要求学习算法可以以一定的概率学习到一个近似正确的假设, 即PAC 学习( PAC Learning). 一个PAC 可学习( PAC-Learnable) 的算法是指该学习算法能够在多项式时间内从合理数量的训练数据中学习到一个近似正确的𝑓(𝒙).

PAC学习可以分为两部分:
(1) 近似正确( Approximately Correct): 一个假设𝑓 ∈ ℱ 是“近似正确”的, 是指其在泛化错误\mathcal{G}_{\mathcal{D}}小于一个界限\epsilon\epsilon一般为0到\frac{1}{2}之间的数,0 < \epsilon < \frac{1}{2}. 如果\mathcal{G}_{\mathcal{D}}比较大, 说明模型不能用来做正确的“预测”.
(2) 可能( Probably): 一个学习算法𝒜 有“可能”以1 − 𝛿 的概率学习到这
样一个“近似正确”的假设. 𝛿 一般为0到\frac{1}{2}之间的数,0 < \delta < \frac{1}{2}

PAC学习可以下面公式描述:

其中𝜖,𝛿是和样本数量𝑁以及假设空间ℱ相关的变量.如果固定𝜖,𝛿,可以反过来计算出需要的样本数量

其中|ℱ|为假设空间的大小. 从上面公式可以看出, 模型越复杂, 即假设空间ℱ 越大, 模型的泛化能力越差. 要达到相同的泛化能力, 越复杂的模型需要的样本数量越多. 为了提高模型的泛化能力, 通常需要正则化( Regularization) 来限制模型复杂度.
PAC学习理论也可以帮助分析一个机器学习方法在什么条件下可以学习到一个近似正确的分类器. 如果希望模型的假设空间越大,泛化错误越小, 其需要的样本数量越多

2. 没有免费午餐定理

没有免费午餐定理( No Free Lunch Theorem, NFL) 是由Wolpert和Macerday 在最优化理论中提出的. 没有免费午餐定理证明: 对于基于迭代的最优化算法, 不存在某种算法对所有问题( 有限的搜索空间内) 都有效. 如果一个算法对某些问题有效, 那么它一定在另外一些问题上比纯随机搜索算法更差. 也就是说, 不能脱离具体问题来谈论算法的优劣, 任何算法都有局限性. 必须要“具体问题具体分析”.
没有免费午餐定理对于机器学习算法也同样适用. 不存在一种机器学习算法适合于任何领域或任务. 如果有人宣称自己的模型在所有问题上都好于其他模型, 那么他肯定是在吹牛.

3. 奥卡姆剃刀原理

奥卡姆剃刀( Occam’s Razor) 原理是由14世纪逻辑学家William of Occam提出的一个解决问题的法则:“如无必要, 勿增实体”. 奥卡姆剃刀的思想和机器学习中的正则化思想十分类似: 简单的模型泛化能力更好. 如果有两个性能相近的模型, 我们应该选择更简单的模型. 因此, 在机器学习的学习准则上, 我们经常会引入参数正则化来限制模型能力, 避免过拟合.
奥卡姆剃刀的一种形式化是最小描述长度( Minimum Description Length,MDL) 原则, 即对一个数据集𝒟, 最好的模型𝑓 ∈ ℱ 会使得数据集的压缩效果最好, 即编码长度最小. 

最小描述长度也可以通过贝叶斯学习的观点来解释 [MacKay, 2003]. 模型𝑓 在数据集𝒟 上的对数后验概率为 

 

其中 −log 𝑝(𝑓) 和 − log 𝑝(𝒟|𝑓) 可以分别看作模型 𝑓 的编码长度和在该模型下数据集 𝒟 的编码长度.也就是说, 我们不但要使得模型 𝑓 可以编码数据集 𝒟, 也要使得模型𝑓 尽可能简单. 

4. 丑小鸭定理

丑小鸭定理( Ugly Duckling Theorem) 是1969年由渡边慧提出的[Watan abe, 1969]。“丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”. 这个定理初看好像不符合常识, 但是仔细思考后是非常有道理的. 因为世界上不存在相似性的客观标准, 一切相似性的标准都是主观的. 如果从体型大小或外貌的角度来看, 丑小鸭和白天鹅的区别大于两只白天鹅的区别; 但是如果从基因的角度来看, 丑小鸭与它父母的差别要小于它父母和其他白天鹅之间的差别.

5. 归纳偏置

在机器学习中, 很多学习算法经常会对学习的问题做一些假设, 这些假设就称为归纳偏置( Inductive Bias) [Mitchell, 1997]. 比如在最近邻分类器中, 我们会假设在特征空间中, 一个小的局部区域中的大部分样本同属一类. 在朴素贝叶斯分类器中, 我们会假设每个特征的条件概率是互相独立的.归纳偏置在贝叶斯学习中也经常称为先验( Prior)

参考文献

神经网络与深度学习

相关内容

热门资讯

安卓系统自带的网页,功能与特色... 你有没有发现,每次打开安卓手机,那熟悉的系统界面里总有一个默默无闻的小家伙——安卓系统自带的网页浏览...
美咖云系统安卓版,开启智能生活... 你有没有发现,最近手机上多了一个叫“美咖云系统安卓版”的小家伙?它就像一个魔法师,轻轻一点,就能让你...
安卓系统推荐最好的手机,盘点性... 你有没有想过,拥有一部性能卓越的手机,就像是拥有了移动的宝藏库?在这个信息爆炸的时代,一部好手机不仅...
安卓11系统能精简吗,释放潜能 你有没有发现,随着手机越来越智能,系统也越来越庞大?安卓11系统,这个最新的操作系统,是不是也让你觉...
安卓自动重启系统软件,揭秘原因... 手机突然自动重启,是不是感觉整个人都不好了?别急,今天就来和你聊聊这个让人头疼的安卓自动重启系统软件...
苹果手机x刷安卓系统,探索安卓... 你有没有想过,你的苹果手机X竟然也能刷上安卓系统?是的,你没听错,就是那个一直以来都和我们苹果手机X...
安卓系统智商低吗,智商低下的真... 你有没有想过,为什么安卓系统的智商总被调侃得好像有点低呢?是不是觉得它总是慢吞吞的,有时候还犯点小错...
安卓系统手机联系人,揭秘你的社... 你有没有发现,手机里的联系人列表就像是一个小小的社交圈呢?里面藏着我们的亲朋好友、工作伙伴,甚至还有...
安卓系统免费铃声下载,打造个性... 手机里那首老掉牙的铃声是不是让你觉得有点out了呢?别急,今天就来给你支个招,让你轻松给安卓手机换上...
安卓系统用哪个桌面好,打造个性... 你有没有发现,手机桌面可是我们每天都要面对的“脸面”呢?换一个好看的桌面,心情都能跟着好起来。那么,...
虚拟大师是安卓10系统,功能与... 你知道吗?最近在手机圈里,有个新玩意儿引起了不小的轰动,那就是虚拟大师!而且,更让人惊喜的是,这个虚...
安卓系统与苹果优缺点,系统优缺... 说到手机操作系统,安卓和苹果绝对是两大巨头,它们各有各的特色,就像两道不同的美味佳肴,让人难以抉择。...
安卓win双系统主板,融合与创... 你有没有想过,一台电脑如果既能流畅运行安卓系统,又能轻松驾驭Windows系统,那该有多爽啊?没错,...
安卓系统可精简软件,轻松提升手... 你有没有发现,手机里的安卓系统越来越庞大,软件也越装越多,有时候感觉手机就像个“大肚子”,不仅运行速...
安卓系统基于linux的代码,... 你有没有想过,那个陪伴你每天刷抖音、玩游戏、办公的安卓系统,其实背后有着一套复杂的基于Linux的代...
苹果和安卓的拍照系统,谁更胜一... 你有没有发现,现在手机拍照已经成为我们生活中不可或缺的一部分呢?无论是记录生活的点滴,还是捕捉美丽的...
苹果和安卓系统不同吗,系统差异... 你有没有想过,为什么你的手机里装的是苹果的iOS系统,而朋友的手机却是安卓系统呢?这两种系统,看似都...
安卓系统有多少级,揭秘其多级架... 你有没有想过,那个陪伴我们日常生活的安卓系统,它其实有着丰富的层级结构呢?没错,就是那个让我们的手机...
华为鸿蒙系统与安卓的,技术融合... 你知道吗?最近科技圈可是炸开了锅,华为鸿蒙系统与安卓的较量成为了大家热议的话题。这不,今天我就来给你...
什么安卓手机是苹果系统,搭载苹... 你有没有想过,为什么有些人宁愿花大价钱买苹果手机,而有些人却对安卓手机情有独钟呢?其实,这个问题背后...