《机器学习基础教程》章节试读

出版社:机械工业出版社
出版日期:2014-1
ISBN:9787111407027
作者:（英）Simon Rogers,,Mark Girolami
页数:190页

《机器学习基础教程》的笔记-第28页 - 线性建模：最小二乘法

问题是：给了1896-2008年的奥运会男子100米比赛赢得金牌需要的时间。
第一章是描述性方法，给你一堆数据集，找到一条直线，这条直线需要“大概”通过所有的点的线，这条线的形状是怎么样就取决于模型的选择；这条线画的好坏就可以用一个损失函数来完成：最小二乘损失函数。完成这个之后利用梯度下降来解一个最优化的问题，这个问题其实大概就解完了。解出的模型完了就可以去泛化数据了，其实就是可以拿去做预测了。
接下来作者啰啰嗦嗦的把之前有一些不太专业的数学符号替换成为矩阵-向量的符号，良苦用心的消除我们这种数学渣渣对符号的恐惧感。
以上说的解法里面，最大的变数就是模型的选择。如果用一个多项式去拟合数据，那么这个多项式的阶与系数是模型最大的特点，选择不当的模型会产生过拟合，为了避免过拟合，用两条路：用交叉验证，靠数据说话，模型好就好，不好就拉倒；正则化，从根本上把模型复杂加入损失函数中，把模型的复杂度加到损失函数中去，给w加上负担。
这是描述性方法通常的方式：
模型->损失函数->优化方法->防止过拟合

《机器学习基础教程》的笔记-第65页 - 线性建模：最大似然方法

上一章是说trivial模式，直接根据数据表现特征来拟合数据的话，这一章就开启了上帝模式，我要知道上帝是怎么生成这些数据的。
要知道上帝是怎么生成数据的，我们得假设我们自己是上帝。首先你不能胡乱生成数据，也就是说这些数据有本质的pattern在里面，这个是没问题的，如果本身pattern都不存在那么这个问题就压根就是在逗你玩了。作者把这种本质的东西称为：决定式，其他的呢？其他的只是干扰凡人的噪声而已，那么最后表现出来的就为：表征量=决定式+随机噪声。
好了，从上帝视角回来，你已经知道表征量是这样表示的，那么现在你认为你的决定式是多项式，然后你要捕捉数据里面的随机噪声，为了方便，假定噪声就是高斯分布。
高斯分布就成了the one了，为什么是高斯分布呢，因为高斯分布线性可加，整个表征量瞬间都成了高斯分布了，还有比这更好的么？那么所有的问题，都在求解这个分布的参数了。
接下来就是利用条件独立性去做最大似然，求得整个参数。这里的参数有两个，均值中包括了w的值，方差则是噪声的方差，所以直接就是整个式子的主要参数了。
然后作者煞费苦心得进行了分析：这个均值估计是无偏估计，方差是有偏的，这些都是因为噪声的存在。

《机器学习基础教程》的笔记-第93页 - 机器学习中的贝叶斯方法

频率派认为，参数是客观存在的，只是未知而已。因此，频率派最关心极大似然函数，只要参数求出来了，给定自变量X，Y也就固定了。
贝叶斯派认为参数也是随机的，和一般随机变量没有本质区别，正是因为参数不能固定，当给定一个输入x后，我们不能用一个确定的y表示输出结果，必须用一个概率的方式表达出来，所以贝叶斯学派的预测值是一个期望值。
这段话基本上可以概括本章的主题了。

机器学习基础教程下载更多精彩书评

《机器学习基础教程》章节试读

类似图书

相关图书推荐