机器学习第一次作业整理

这篇文章记录机器学习课程第一次作业的整理结果，主要覆盖基础概念问答和一个简单的贝叶斯定理计算题。

1. 机器学习的三要素及监督学习与非监督学习的区别

机器学习的三要素：

模型：定义输入到输出的映射关系（假设空间）
策略：构建目标函数（损失函数+正则化项）
算法：求解最优参数的优化方法（如梯度下降

监督学习与非监督学习的区别：

监督学习（Supervised Learning）：

定义： 在训练过程中，模型使用带有标签的数据进行学习，即每个训练样本都有对应的目标输出。

目标： 学习输入与输出之间的映射关系，用于预测新数据的标签。

应用场景： 分类（如垃圾邮件检测）、回归（如房价预测）。
非监督学习（Unsupervised Learning）：

定义： 模型在训练过程中仅使用输入数据，没有对应的标签信息。

目标： 挖掘数据的内在结构、模式或分布，如聚类、降维。

应用场景： 客户细分、图像压缩、异常检测。

2. 过拟合的表现、原因及避免方法

过拟合的表现：

训练误差低，测试误差高： 模型在训练数据上表现优异，但在新数据或验证集上表现较差。
模型复杂度高： 拟合了训练数据中的噪声或异常点，而不是捕捉数据的总体趋势。

过拟合的原因：

模型过于复杂： 参数过多，模型能力过强，能够拟合训练数据中的噪声。
训练数据不足： 数据量不足以支撑复杂模型的训练，导致模型过度依赖有限的样本。
噪声数据： 训练数据中存在大量噪声或异常点，导致模型学习到不具普适性的特征。

避免过拟合的方法：

简化模型： 选择较为简单的模型，减少模型的复杂度和参数数量。
正则化（Regularization）： 在损失函数中加入惩罚项，如L1正则化、L2正则化，限制模型参数的大小。
增加训练数据： 获取更多的训练样本，以提高模型的泛化能力。
数据增强： 通过数据变换（如旋转、翻转）扩充训练数据集，增加模型的鲁棒性。
交叉验证（Cross-Validation）： 使用交叉验证评估模型性能，选择泛化能力更强的模型。
提前停止（Early Stopping）： 在验证误差开始上升时停止训练，防止模型在训练集上过度拟合。

3. 贝叶斯定理应用计算

已知条件：

P(阳性|癌症) = 80% = 0.8
P(阴性|非癌症) = 90% = 0.9 ⇒ P(阳性|非癌症) = 1 - 0.9 = 0.1
P(癌症) = 1% = 0.01 ⇒ P(非癌症) = 99% = 0.99

求解： P(癌症|阳性)

根据贝叶斯定理：
$$
P(癌症|阳性) = \frac{P(阳性|癌症) \cdot P(癌症)}{P(阳性)}
$$
其中：
$$
P(阳性) = P(阳性|癌症) \cdot P(癌症) + P(阳性|非癌症) \cdot P(非癌症)
$$
代入数值计算：
$$
P(阳性) = 0.8 \times 0.01 + 0.1 \times 0.99 = 0.008 + 0.099 = 0.107
$$
因此：
$$
P(癌症|阳性) = \frac{0.8 \times 0.01}{0.107} \approx \frac{0.008}{0.107} \approx 0.074766
$$
即，约7.48%。

4. 极大似然估计与最大后验估计及共轭先验

极大似然估计（Maximum Likelihood Estimation, MLE）：

定义： 在给定数据的条件下，选择使得观测数据出现概率最大的参数值。
特点：仅依赖于数据，忽略先验信息。计算简单，广泛应用于参数估计。
公式：
$$
\hat{\theta}{MLE} = \arg\max{\theta} P(\text{数据}|\theta)
$$

最大后验估计（Maximum A Posteriori Estimation, MAP）：

定义： 在给定数据和先验概率分布的条件下，选择使得参数的后验概率最大的参数值。
特点：综合考虑数据和先验信息。能够在数据不足时引入先验知识，增强模型的泛化能力。
公式：
$$
\hat{\theta}{MAP} = \arg\max{\theta} P(\theta|\text{数据}) = \arg\max_{\theta} P(\text{数据}|\theta) P(\theta)
$$

极大似然估计与最大后验估计的联系与区别：

联系： 两者都旨在通过观测数据估计参数，优化目标函数中包含数据的部分。
区别： MLE仅依赖于数据，忽略先验；MAP则结合了先验信息，适用于存在先验知识或数据不足的情况。

共轭先验（Conjugate Prior）：

定义： 在贝叶斯统计中，当先验分布和似然函数的形式结合后，后验分布与先验分布属于同一分布族时，称该先验为共轭先验。
特点： 计算简便，因后验分布与先验分布同类，参数更新简单。

伯努利分布的共轭先验：

伯努利分布用于描述二项试验的成功概率，其共轭先验是 Beta 分布。
解释： 如果数据服从伯努利分布，且先验分布为Beta分布，则后验分布仍为Beta分布，参数通过数据更新。