Lecture by X.Dan
# 线性回归模型
一个基础的监督学习(Supervised Learning) 任务是:给定 N 对输入输出样本
D={(x1,y1),(x2,y2),⋯,(xN,yN)}
其中 xn∈RD 是 D 维输入特征向量,是相互独立的; yn∈R 是对应的标量输出变量(目标变量),是相互依赖的。在线性回归(Linear Regression)模型中,我们假设 y 是 x 的线性函数加上噪声项 ε,一般是 Gaussian 噪声:
P(y∣ xx,ww,σ2)=N(y∣ wwTxx,σ2)
其中均值为
μ=wwTxx=w0+w1x1+w2x2+⋯+wDxD
即在理想值 wwTxx 上加上噪声 ε∼N(0,σ2)。这里 ww=(w0,w1,⋯,wD)T 是可学习的模型参数,w0 是偏置项(bias term),σ2 是噪声的方差,为了方便表示,我们可以把 x 扩展为
(x1,x2,⋯,xD)→(1,x1,x2,⋯,xD)
这样就不需要单独表示偏置项 w0 了。现在我们想找到最合适的模型,就是在找到最合适的参数 ww 和 σ2。这等于最大化似然函数,即最小化下面的负似然函数(假设 ww 的先验分布是均匀分布):
E(ww)=−n=1∑NlogP(yn∣ xxn,ww,σ2)∝n=1∑N(yn−wwTxxn)2
不妨定义
E(ww;D):=21n=1∑N(yn−wwTxxn)2
我们假定了最底层的模型是简洁的线性模型,而数据集是实际观测的,所以自然会带有噪声,而这个噪声应该是服从某种分布的。
