本文参考 xd 老师于 2025 年秋季开设的《机器学习的数学原理》课件。

# 概论

机器学习 (machine learning) 由以下几个要素构成:

  1. 模型 (model):一般为概率模型,用来反映现实的概率分布;
  2. 数据 (data):向量、矩阵或张量形式;
  3. 训练 (training):使用计算机进行优化过程,寻找函数最小值;
  4. 推断 (infererce):预测或生成新数据。

机器学习的本质上是通过计算机(并行计算与 GPU)进行精心的参数调优!

机器学习可以解决很多问题:

  1. 回归分析 (regression)(拟合线性或非线性曲线);
  2. 分类问题 (classification)
  3. 聚类问题 (clustering)
  4. 生成式人工智能 (generative AI):翻译、图文影像生成。

也有不同的学习


# 概率基础

我们的核心假设是,所管测到的数据都是基于一种概率分布生成的。因此我们需要用机器学习方法去逼近这个概率分布。所以让我们先复习必要的概率知识,和数学体系稍有出入。

一维概率模型都可以被描述一个概率密度函数或概率质量函数 p(x)p(x),满足

p(x)0,p(x)dx=1p(x)\geq 0,\quad \int p(x)\mathrm dx=1

这些函数根据随机变量的不同,可以分为两种主要类型:

  1. 连续型:对于连续取值的随机变量 xx
  2. 离散型:对于只在至多可数个点上取非零值的随机变量 xx

这些概念都可以推广到高维情形。此外,还有

  1. 联合概率 p(x,y)p(x,y)
  2. 边缘概率:单分量的概率,忽略其他分量,即

    p(x)=yp(x,y),orp(x)=p(x,y)dyp(x)=\sum_yp(x,y),\quad \text{or} \quad p(x)=\int p(x,y)\mathrm dy

  3. 条件概率:p(xy)p(x|y)(给定 yyxx 的概率分布)或 p(yx)p(y|x),需要假设下式分母不为零

p(xy)=p(x,y)p(y)p(x|y)=\dfrac {p(x,y)}{p(y)}

条件概率给出基本的乘法法则

p(x,y)=p(xy)p(y)=p(yx)p(x)p(x,y)=p(x|y)p(y)=p(y|x)p(x)

在统计物理学中有统计分布

p(p,q)=exp(E(p,q))Zp(p,q)=\dfrac {\exp(-E(p,q))}{Z}

其中 p,qp,q 是动量和位置变量,ZZ 是分配函数,有著名模型包括 Ising 模型等。机器学习的许多见解来源于物理学。

对于 Y=g(X)Y=g(X) \\\\\\\\\


# 熵 (Entropy)

是用来描述随机变量的不确定性的指标。对于离散型随机变量,定义为

H(X)=xXP(x)log2P(x)H(X)=-\sum_{x\in \mathcal X}P(x)\log _2P(x)

要求对数底数为 22 时,熵以 bits 即比特为单位。之后会证明:熵越高,不确定性越高;熵越低,越可预测。

给出一个例子:一个质量均匀的六面骰,记它投出的点数为随机变量 X{1,2,3,4,5,6}X\in\{1,2,3,4,5,6\},那么计算后 H(X)=log26H(X)=\log _26,约等于 2.5852.585 bits,意味着这需要平均 2.5852.585 比特来编码每轮骰子。具体来说,出现概率高的符号