这篇文章记录机器学习课程第一次作业的整理结果,主要覆盖基础概念问答和一个简单的贝叶斯定理计算题。
1. 机器学习的三要素及监督学习与非监督学习的区别
机器学习的三要素:
- 模型:定义输入到输出的映射关系(假设空间)
- 策略:构建目标函数(损失函数+正则化项)
- 算法:求解最优参数的优化方法(如梯度下降
监督学习与非监督学习的区别:
监督学习(Supervised Learning):
定义: 在训练过程中,模型使用带有标签的数据进行学习,即每个训练样本都有对应的目标输出。
目标: 学习输入与输出之间的映射关系,用于预测新数据的标签。
应用场景: 分类(如垃圾邮件检测)、回归(如房价预测)。
非监督学习(Unsupervised Learning):
定义: 模型在训练过程中仅使用输入数据,没有对应的标签信息。
目标: 挖掘数据的内在结构、模式或分布,如聚类、降维。
应用场景: 客户细分、图像压缩、异常检测。
2. 过拟合的表现、原因及避免方法
过拟合的表现:
- 训练误差低,测试误差高: 模型在训练数据上表现优异,但在新数据或验证集上表现较差。
- 模型复杂度高: 拟合了训练数据中的噪声或异常点,而不是捕捉数据的总体趋势。
过拟合的原因:
- 模型过于复杂: 参数过多,模型能力过强,能够拟合训练数据中的噪声。
- 训练数据不足: 数据量不足以支撑复杂模型的训练,导致模型过度依赖有限的样本。
- 噪声数据: 训练数据中存在大量噪声或异常点,导致模型学习到不具普适性的特征。
避免过拟合的方法:
- 简化模型: 选择较为简单的模型,减少模型的复杂度和参数数量。
- 正则化(Regularization): 在损失函数中加入惩罚项,如L1正则化、L2正则化,限制模型参数的大小。
- 增加训练数据: 获取更多的训练样本,以提高模型的泛化能力。
- 数据增强: 通过数据变换(如旋转、翻转)扩充训练数据集,增加模型的鲁棒性。
- 交叉验证(Cross-Validation): 使用交叉验证评估模型性能,选择泛化能力更强的模型。
- 提前停止(Early Stopping): 在验证误差开始上升时停止训练,防止模型在训练集上过度拟合。
3. 贝叶斯定理应用计算
已知条件:
- P(阳性|癌症) = 80% = 0.8
- P(阴性|非癌症) = 90% = 0.9 ⇒ P(阳性|非癌症) = 1 - 0.9 = 0.1
- P(癌症) = 1% = 0.01 ⇒ P(非癌症) = 99% = 0.99
求解: P(癌症|阳性)
根据贝叶斯定理:
$$
P(癌症|阳性) = \frac{P(阳性|癌症) \cdot P(癌症)}{P(阳性)}
$$
其中:
$$
P(阳性) = P(阳性|癌症) \cdot P(癌症) + P(阳性|非癌症) \cdot P(非癌症)
$$
代入数值计算:
$$
P(阳性) = 0.8 \times 0.01 + 0.1 \times 0.99 = 0.008 + 0.099 = 0.107
$$
因此:
$$
P(癌症|阳性) = \frac{0.8 \times 0.01}{0.107} \approx \frac{0.008}{0.107} \approx 0.074766
$$
即,约7.48%。
4. 极大似然估计与最大后验估计及共轭先验
极大似然估计(Maximum Likelihood Estimation, MLE):
定义: 在给定数据的条件下,选择使得观测数据出现概率最大的参数值。
特点:仅依赖于数据,忽略先验信息。计算简单,广泛应用于参数估计。
公式:
$$
\hat{\theta}{MLE} = \arg\max{\theta} P(\text{数据}|\theta)
$$
最大后验估计(Maximum A Posteriori Estimation, MAP):
定义: 在给定数据和先验概率分布的条件下,选择使得参数的后验概率最大的参数值。
特点:综合考虑数据和先验信息。能够在数据不足时引入先验知识,增强模型的泛化能力。
公式:
$$
\hat{\theta}{MAP} = \arg\max{\theta} P(\theta|\text{数据}) = \arg\max_{\theta} P(\text{数据}|\theta) P(\theta)
$$
极大似然估计与最大后验估计的联系与区别:
- 联系: 两者都旨在通过观测数据估计参数,优化目标函数中包含数据的部分。
- 区别: MLE仅依赖于数据,忽略先验;MAP则结合了先验信息,适用于存在先验知识或数据不足的情况。
共轭先验(Conjugate Prior):
- 定义: 在贝叶斯统计中,当先验分布和似然函数的形式结合后,后验分布与先验分布属于同一分布族时,称该先验为共轭先验。
- 特点: 计算简便,因后验分布与先验分布同类,参数更新简单。
伯努利分布的共轭先验:
- 伯努利分布用于描述二项试验的成功概率,其共轭先验是 Beta 分布。
- 解释: 如果数据服从伯努利分布,且先验分布为Beta分布,则后验分布仍为Beta分布,参数通过数据更新。