本文参考 xd 老师于 2025 年秋季开设的《机器学习的数学原理》课件。

# 概论

机器学习 (machine learning) 由以下几个要素构成：

机器学习的本质上是通过计算机（并行计算与 GPU）进行精心的参数调优！

机器学习可以解决很多问题：

也有不同的学习

# 概率基础

我们的核心假设是，所管测到的数据都是基于一种概率分布生成的。因此我们需要用机器学习方法去逼近这个概率分布。所以让我们先复习必要的概率知识，和数学体系稍有出入。

一维概率模型都可以被描述一个概率密度函数或概率质量函数 $p(x)$ ，满足

$p(x)\geq 0,\quad \int p(x)\mathrm dx=1$

这些函数根据随机变量的不同，可以分为两种主要类型：

这些概念都可以推广到高维情形。此外，还有

联合概率 $p(x,y)$
边缘概率：单分量的概率，忽略其他分量，即
$p(x)=\sum_yp(x,y),\quad \text{or} \quad p(x)=\int p(x,y)\mathrm dy$
条件概率： $p(x|y)$ （给定 $y$ 后 $x$ 的概率分布）或 $p(y|x)$ ，需要假设下式分母不为零

$p(x|y)=\dfrac {p(x,y)}{p(y)}$

条件概率给出基本的乘法法则

$p(x,y)=p(x|y)p(y)=p(y|x)p(x)$

在统计物理学中有统计分布

$p(p,q)=\dfrac {\exp(-E(p,q))}{Z}$

其中 $p,q$ 是动量和位置变量， $Z$ 是分配函数，有著名模型包括 Ising 模型等。机器学习的许多见解来源于物理学。

对于 $Y=g(X)$ \\\\\\\\\

熵是用来描述随机变量的不确定性的指标。对于离散型随机变量，定义为

$H(X)=-\sum_{x\in \mathcal X}P(x)\log _2P(x)$

要求对数底数为 $2$ 时，熵以 bits 即比特为单位。之后会证明：熵越高，不确定性越高；熵越低，越可预测。

给出一个例子：一个质量均匀的六面骰，记它投出的点数为随机变量 $X\in\{1,2,3,4,5,6\}$ ，那么计算后 $H(X)=\log _26$ ，约等于 $2.585$ bits，意味着这需要平均 $2.585$ 比特来编码每轮骰子。具体来说，出现概率高的符号