When can machines learn? (illustrative + technical)

机器学习的过程就是 learning algorithm A 从两个输入：数据 data 以及算法集合 hypothesis set 中找到一个 hypothesis g，使得 g 与真实的 target function f 最接近，这节课的重点就是学习一个具体的 hypothesis H。

Perceptron hypothesis set

一个简单的 Hypothesis Set: Perceptron: 如果决定授权信用卡，则 h(x) = +1，如果不授权信用卡，则 h(x) = -1.

从上图中可以明显看出，一个具体的 h，与各个权重 w 以及设定的阈值 threshold 有关。这样的 h 在历史上被称作感知器 perceptron。这些字的来源由早期研究类神经网络而来。

其向量的表示为：

以2维的向量为例，h 的具体样子为:

从几何的角度讲，感知器 perceptron 实际上就是平面上的一条条线，因此又被称作 linear classifiers。即：

perceptron <=> linear classifiers

上一节，我们了解了一个可能的 H 的样子，也就是平面上所有的线(或者是高维空间里面的一个平面)。现在的问题是，如何设计一个算法，从所有的线 H 里面选出一条最好的线出来。

一条最好的线 g 的定义就是让 g ≈ f，但是难点在于 f 是未知的。唯一可以确定的是 data 是从 f 中产生的。所以，可以先让 g 在看过的 data 里面与 f 越接近越好，或者最好是一模一样(个人注释：over fitting)。

接下来就是在已经看过的数据 data 里面找一条线，这条线要能够正确的将 data 分开。难点在于 H 是无限的。

所以解决的方式是，任意找一条线，然后再依次去修正它(稍微移动一下)。

下面使用线的权重 w 来表示一条线，具体的算法过程为：

从 w₀ 开始，找到在数据 D 中分类错误的点(x_n, y_n)，即：

For t = 0,1,2…：

修正的方法有两种：

本质上， W 为分类器(直线) 的法向量：

修正的过程为：

两个问题：

PLA 停下来的条件：数据线性可分。

思考：假设数据D线性可分(linear separable)，PLA一定会停下来吗？

W_f：表示真实的线
W_t：表示调整的线

衡量W_t和W_f很接近，可以对两条线做内积。内积越大，两条线越接近。

即：linear separable D <=> 存在 W_f 使得：y_n = sign(w^T_fx_n)

还要处理向量长度的问题：

如果数据D并不是线性可分怎么办？

最好的分割线：在数据 D 上，犯错误最小的线。

贪心算法：新的线与旧的线进行对比。