本文档全面概述了构成深度学习基础的核心机器学习概念。内容涵盖学习范式、监督学习过程、优化技术、评估方法和核心算法。关于深度学习基础,请参阅深度学习基础,关于经典网络架构,请参阅经典神经网络架构。
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md5-9
机器学习使计算机能够从数据中学习模式。它涉及设计从数据中提取规律或模式的算法。当输入数据带有标签时,称为监督学习;当数据没有标签时,称为无监督学习。目标是开发模型,使其能够在没有为特定任务进行显式编程的情况下做出准确的预测或决策。
机器学习是深度学习的基础,两者共享核心原则,但在方法和复杂性上有所不同。
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md9-11
根据训练期间提供的数据类型和监督程度,机器学习通常分为四种主要的学习范式。
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md30-56
监督学习遵循从数据收集到模型部署的系统化工作流程。下图说明了此过程。
收集相关数据并为监督学习识别标签。将数据集划分为训练集、验证集和测试集。
增强数据集以更好地表示各种场景并提高模型鲁棒性。对于图像,这通常包括旋转、平移、颜色变换和仿射变换。
从原始数据中提取和选择相关特征。传统方法包括尺度不变特征变换 (SIFT) 和方向梯度直方图 (HOG)。卷积神经网络 (CNN) 等深度学习方法会自动执行特征提取。
定义模型架构和适当的损失函数。常见的损失函数包括用于分类的交叉熵和用于回归的均方误差。
初始化模型参数并使用梯度下降等方法进行优化。模型通过最小化损失函数来迭代学习模式。
在验证数据上测试训练好的模型以评估性能。根据需要调整超参数以改进结果。
将最终模型部署到实际应用中,通常作为可被其他软件组件调用的 API。
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md59-81
分类是一种监督学习任务,其目标是将输入数据归类到预定义的类别中。该存储库涵盖了几个关键的分类算法,每种算法都有其独特的优点和缺点。
| 算法 | 优点 | 缺点 |
|---|---|---|
| 朴素贝叶斯 | • 需要的参数少 • 对缺失数据不敏感 • 分类效率稳定 | • 假设属性独立 • 需要先验概率知识 • 具有固有错误率 |
| 决策树 | • 不需要领域知识 • 处理高维数据 • 简单且易于理解 • 处理分类和数值数据 | • 倾向于值更多的特征 • 容易过拟合 • 忽略属性相关性 • 不支持在线学习 |
| 支持向量机 (SVM) | • 对小样本有效 • 泛化能力好 • 处理高维、非线性问题 • 避免局部最小值问题 | • 对缺失数据敏感 • 内存占用高 • 难以解释 • 参数调整复杂 |
| K-近邻 (KNN) | • 实现简单 • 对数据无假设 • 非线性分类 • 对异常值不敏感 | • 计算量大 • 对类别不平衡效果差 • 内存需求高 • 可解释性有限 |
| 逻辑回归 | • 性能快 • 简单且易于理解 • 模型易于更新 • 分类阈值灵活 | • 特征处理复杂 • 需要标准化 • 假设特征与目标之间存在线性关系 |
| 神经网络 | • 分类精度高 • 并行处理能力 • 分布式学习 • 噪声鲁棒性强 | • 需要配置的参数多 • 黑盒(可解释性有限) • 训练时间长 |
| AdaBoost | • 精度高 • 子分类器构建灵活 • 弱分类器设计简单 • 无需特征筛选 • 抗过拟合 | • 对异常值敏感 |
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md114-129
分类模型使用从混淆矩阵得出的几个指标进行评估
其他评估因素包括计算速度、对缺失值和异常值的鲁棒性、大规模数据集的可扩展性以及模型的可解释性。
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md131-191
成本函数和损失函数是机器学习的关键组成部分,它们衡量模型的性能。
成本函数(或目标函数)衡量模型在训练数据上的整体性能。它通常是所有训练样本的损失函数的平均值。目标是最小化此函数以找到最优模型参数。
二次成本:
交叉熵成本:
对数似然成本:
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md270-356
损失函数衡量单个样本的预测值与实际值之间的差异。它们量化了模型预测的“错误”程度。
0-1 损失:
绝对损失:
平方损失:
对数损失:
指数损失:
Hinge损失:
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md372-461
优化算法是用于最小化成本函数并找到最优模型参数的方法。
| 方法 | 训练集 | 每次迭代样本数 | 复杂性 | 时效性 | 收敛性 |
|---|---|---|---|---|---|
| 批量梯度下降 | 固定 | 整个数据集 | 高 | 低 | 稳定 |
| 随机梯度下降 | 固定 | 单个样本 | 低 | 中等 | 不稳定 |
| 小批量梯度下降 | 固定 | 子集 | 中等 | 中等 | 稳定 |
| 在线梯度下降 | 实时 | 可变 | 低 | 高 | 不稳定 |
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md549-736
线性判别分析是一种专门为监督分类问题设计的降维技术。
| 方面 | LDA | PCA |
|---|---|---|
| 监督性 | 监督(使用类别标签) | 无监督 |
| 目标 | 最大化类别分离 | 最大化数据方差 |
| 局限性 | 最大 k-1 维(k 个类别) | 无理论维度限制 |
| 用途 | 降维和分类 | 仅降维 |
| 分布假设 | 假设高斯分布 | 假设高斯分布 |
优点
缺点
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md773-860
回归是一种用于预测连续结果的监督学习技术。分类预测离散类别标签,而回归则预测数值。
线性回归:使用线性函数对关系进行建模
逻辑回归:尽管有此名称,但用于二元分类
| 方面 | 线性回归 | 逻辑回归 |
|---|---|---|
| 目的 | 预测 | 分类 |
| 输出范围 | (-∞, +∞) | (0, 1) |
| 功能 | 拟合函数 | 预测概率函数 |
| 参数估计 | 最小二乘法 | 最大似然估计 |
来源: English version/ch02_MachineLearningFoundation/Chapter 2_TheBasisOfMachineLearning.md203-263
刷新此 Wiki
最后索引时间2025 年 4 月 18 日(6087a0)