本文参考 xd 老师于 2025 年秋季开设的《机器学习的数学原理》课件。
# 概论
机器学习 (machine learning) 由以下几个要素构成:
- 模型 (model):一般为概率模型,用来反映现实的概率分布;
- 数据 (data):向量、矩阵或张量形式;
- 训练 (training):使用计算机进行优化过程,寻找函数最小值;
- 推断 (infererce):预测或生成新数据。
机器学习的本质上是通过计算机(并行计算与 GPU)进行精心的参数调优!
机器学习可以解决很多问题:
- 回归分析 (regression)(拟合线性或非线性曲线);
- 分类问题 (classification);
- 聚类问题 (clustering);
- 生成式人工智能 (generative AI):翻译、图文影像生成。
也有不同的学习
# 概率基础
我们的核心假设是,所管测到的数据都是基于一种概率分布生成的。因此我们需要用机器学习方法去逼近这个概率分布。所以让我们先复习必要的概率知识,和数学体系稍有出入。
一维概率模型都可以被描述一个概率密度函数或概率质量函数 ,满足
这些函数根据随机变量的不同,可以分为两种主要类型:
- 连续型:对于连续取值的随机变量
- 离散型:对于只在至多可数个点上取非零值的随机变量
这些概念都可以推广到高维情形。此外,还有
- 联合概率
- 边缘概率:单分量的概率,忽略其他分量,即
- 条件概率:(给定 后 的概率分布)或 ,需要假设下式分母不为零
条件概率给出基本的乘法法则
在统计物理学中有统计分布
其中 是动量和位置变量, 是分配函数,有著名模型包括 Ising 模型等。机器学习的许多见解来源于物理学。
对于 \\\\\\\\\
# 熵 (Entropy)
熵 是用来描述随机变量的不确定性的指标。对于离散型随机变量,定义为
要求对数底数为 时,熵以 bits 即比特为单位。之后会证明:熵越高,不确定性越高;熵越低,越可预测。
给出一个例子:一个质量均匀的六面骰,记它投出的点数为随机变量 ,那么计算后 ,约等于 bits,意味着这需要平均 比特来编码每轮骰子。具体来说,出现概率高的符号