Lecture by X.Dan

# 线性回归模型

一个基础的监督学习(Supervised Learning) 任务是:给定 NN 对输入输出样本

D={(x1,y1),(x2,y2),,(xN,yN)}\mathcal D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}

其中 xnRDx_n\in\mathbb R^DDD 维输入特征向量,是相互独立的; ynRy_n\in\mathbb R 是对应的标量输出变量(目标变量),是相互依赖的。在线性回归(Linear Regression)模型中,我们假设 yyxx 的线性函数加上噪声项 ε\varepsilon,一般是 Gaussian 噪声:

P(yx,w,σ2)=N(ywTx,σ2)P(y|\ \pmb x,\pmb w,\sigma^2)=\mathcal N(y|\ \pmb w^T\pmb x,\sigma^2)

其中均值为

μ=wTx=w0+w1x1+w2x2++wDxD\mu=\pmb w^ T\pmb x=w_0+w_1x_1+w_2x_2+\cdots+w_Dx_D

即在理想值 wTx\pmb w^T\pmb x 上加上噪声 εN(0,σ2)\varepsilon\sim\mathcal N(0,\sigma^2)。这里 w=(w0,w1,,wD)T\pmb w=(w_0,w_1,\cdots,w_D)^\mathrm T 是可学习的模型参数,w0w_0偏置项(bias term),σ2\sigma^2 是噪声的方差,为了方便表示,我们可以把 xx 扩展为

(x1,x2,,xD)(1,x1,x2,,xD)(x_1,x_2,\cdots,x_D)\to (1,x_1,x_2,\cdots,x_D)

这样就不需要单独表示偏置项 w0w_0 了。现在我们想找到最合适的模型,就是在找到最合适的参数 w\pmb wσ2\sigma^2。这等于最大化似然函数,即最小化下面的负似然函数(假设 w\pmb w 的先验分布是均匀分布):

E(w)=n=1NlogP(ynxn,w,σ2)n=1N(ynwTxn)2E(\pmb w)=-\sum_{n=1}^N\log P(y_n|\ \pmb x_n,\pmb w,\sigma^2)\propto \sum_{n=1}^N(y_n-\pmb w^T\pmb x_n)^2

不妨定义

E(w;D):=12n=1N(ynwTxn)2E(\pmb w;\mathcal D):=\dfrac 12\sum_{n=1}^N(y_n-\pmb w^T\pmb x_n)^2

我们假定了最底层的模型是简洁的线性模型,而数据集是实际观测的,所以自然会带有噪声,而这个噪声应该是服从某种分布的。

# 分类与逻辑回归模型