本文档概述了 ML-For-Beginners 课程中涵盖的基础机器学习概念。它介绍了构成所有机器学习系统的基础的核心原理、术语和流程。这些材料旨在连接机器学习的介绍和后续部分中探索的特定学习范例。有关特定机器学习实现的详细信息,请参阅 监督学习、无监督学习 和 专门的机器学习应用。
机器学习遵循从问题制定到模型部署的结构化工作流程。理解这个过程对于开发有效的机器学习解决方案至关重要。
该过程始于一个无法通过基于规则的编程轻松回答的特定问题。随后是数据收集和准备,然后是模型训练、评估和改进,最后使用模型对新数据进行预测。
来源: 1-Introduction/4-techniques-of-ML/README.md16-24 1-Introduction/4-techniques-of-ML/README.md98-101
Xy特征是模型的输入,而目标是模型学会预测的内容。
来源: 1-Introduction/4-techniques-of-ML/README.md48-51
数据通常被拆分为
在 scikit-learn 中,这是使用 train_test_split 函数实现的。
来源: 1-Introduction/4-techniques-of-ML/README.md61-67
机器学习包含几种不同的学习范式,它们在方法和应用上有所不同。
来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md50-61 1-Introduction/4-techniques-of-ML/README.md70-76
监督学习涉及对标记数据进行模型训练以进行预测。模型学习将输入特征映射到已知输出值。
| 类型 | 目的 | 示例 | 目标类型 |
|---|---|---|---|
| 回归 | 预测连续值 | 房屋价格预测,温度预测 | 数字 |
| 分类 | 预测类别或分类 | 电子邮件垃圾邮件检测,图像识别 | 分类 |
来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md54-56
无监督学习涉及在无标记数据中查找模式或结构。模型在没有预定义输出的情况下识别固有的分组或模式。
| 类型 | 目的 | 示例 |
|---|---|---|
| 聚类 | 分组相似的数据点 | 客户细分,异常检测 |
| 降维 | 减少特征空间 | 数据压缩,可视化 |
来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md57
除了基本范例之外,机器学习在各个领域还有专门的应用
有关更多详细信息,请参阅 专门的机器学习应用。
来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md58-60
来源: 1-Introduction/4-techniques-of-ML/README.md86-90
模型性能根据学习范式使用各种指标进行评估
| 学习类型 | 常用指标 | Scikit-learn 实现 |
|---|---|---|
| 回归 | 均方误差 (MSE)、均方根误差 (RMSE)、平均绝对误差 (MAE) | sklearn.metrics.mean_squared_error、sklearn.metrics.mean_absolute_error |
| 分类 | 准确率、精确率、召回率、F1 分数、ROC-AUC | sklearn.metrics.accuracy_score、sklearn.metrics.precision_recall_fscore_support、sklearn.metrics.roc_auc_score |
| 聚类 | 轮廓系数、Davies-Bouldin 指数 | sklearn.metrics.silhouette_score、sklearn.metrics.davies_bouldin_score |
来源: 1-Introduction/4-techniques-of-ML/README.md80-84
提高模型性能通常涉及调整超参数,这些超参数是在训练开始之前设置的值。此过程可能包括
在 scikit-learn 中,可以使用 GridSearchCV 或 RandomizedSearchCV 来实现。
来源: 1-Introduction/4-techniques-of-ML/README.md94-96
在构建机器学习解决方案时,应牢记负责任的人工智能原则。这些原则确保机器学习系统公平、可靠、包容、安全、透明和负责。
在实施机器学习解决方案时,请考虑
来源: 1-Introduction/3-fairness/README.md33-96 1-Introduction/3-fairness/README.md97-117
该课程主要使用以下技术来实现机器学习概念
在本课程中,您将主要使用
来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md18-24
这个核心机器学习概念概述为理解本课程后续部分中对特定机器学习技术的更详细的探讨奠定了基础。随着您在学习材料中的进步,您将基于这些概念,获得实施各种机器学习解决方案的实践经验。
请记住,有效的机器学习不仅需要技术技能,还需要仔细考虑负责任的人工智能原则,以确保您的解决方案是有益的、公平的和符合道德的。
有关具体实现和对这些概念的更深入探讨,请参考本课程的后续部分。