机器学习：线性与非线性模型

Lecture by X.Dan

一个基础的监督学习（Supervised Learning） 任务是：给定 $N$ 对输入输出样本

$\mathcal D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$

其中 $x_n\in\mathbb R^D$ 是 $D$ 维输入特征向量，是相互独立的； $y_n\in\mathbb R$ 是对应的标量输出变量（目标变量），是相互依赖的。在线性回归（Linear Regression）模型中，我们假设 $y$ 是 $x$ 的线性函数加上噪声项 $\varepsilon$ ，一般是 Gaussian 噪声：

$P(y|\ \pmb x,\pmb w,\sigma^2)=\mathcal N(y|\ \pmb w^T\pmb x,\sigma^2)$

其中均值为

$\mu=\pmb w^ T\pmb x=w_0+w_1x_1+w_2x_2+\cdots+w_Dx_D$

即在理想值 $\pmb w^T\pmb x$ 上加上噪声 $\varepsilon\sim\mathcal N(0,\sigma^2)$ 。这里 $\pmb w=(w_0,w_1,\cdots,w_D)^\mathrm T$ 是可学习的模型参数， $w_0$ 是偏置项（bias term）， $\sigma^2$ 是噪声的方差，为了方便表示，我们可以把 $x$ 扩展为

$(x_1,x_2,\cdots,x_D)\to (1,x_1,x_2,\cdots,x_D)$

这样就不需要单独表示偏置项 $w_0$ 了。现在我们想找到最合适的模型，就是在找到最合适的参数 $\pmb w$ 和 $\sigma^2$ 。这等于最大化似然函数，即最小化下面的负似然函数（假设 $\pmb w$ 的先验分布是均匀分布）：

$E(\pmb w)=-\sum_{n=1}^N\log P(y_n|\ \pmb x_n,\pmb w,\sigma^2)\propto \sum_{n=1}^N(y_n-\pmb w^T\pmb x_n)^2$

不妨定义

$E(\pmb w;\mathcal D):=\dfrac 12\sum_{n=1}^N(y_n-\pmb w^T\pmb x_n)^2$

我们假定了最底层的模型是简洁的线性模型，而数据集是实际观测的，所以自然会带有噪声，而这个噪声应该是服从某种分布的。

# 线性回归模型

# 分类与逻辑回归模型

# 线性回归模型

# 分类与逻辑回归模型

Topology 2：粘合与拓扑群

Topology 3：基本群