菜单

核心机器学习概念

相关源文件

本文档概述了 ML-For-Beginners 课程中涵盖的基础机器学习概念。它介绍了构成所有机器学习系统的基础的核心原理、术语和流程。这些材料旨在连接机器学习的介绍和后续部分中探索的特定学习范例。有关特定机器学习实现的详细信息,请参阅 监督学习无监督学习专门的机器学习应用

机器学习过程

机器学习遵循从问题制定到模型部署的结构化工作流程。理解这个过程对于开发有效的机器学习解决方案至关重要。

机器学习工作流程

该过程始于一个无法通过基于规则的编程轻松回答的特定问题。随后是数据收集和准备,然后是模型训练、评估和改进,最后使用模型对新数据进行预测。

来源: 1-Introduction/4-techniques-of-ML/README.md16-24 1-Introduction/4-techniques-of-ML/README.md98-101

关键机器学习术语

特征和目标变量

  • 特征:数据的可测量属性(自变量),在代码中表示为 X
  • 目标:您试图预测的内容(因变量),在代码中表示为 y

特征是模型的输入,而目标是模型学会预测的内容。

来源: 1-Introduction/4-techniques-of-ML/README.md48-51

数据集拆分

数据通常被拆分为

  • 训练数据:用于拟合模型(占数据的 70-80%)
  • 测试数据:用于评估模型在未见过的数据上的性能(占 20-30%)
  • 验证数据:可选的拆分,用于超参数调整

在 scikit-learn 中,这是使用 train_test_split 函数实现的。

来源: 1-Introduction/4-techniques-of-ML/README.md61-67

学习范式

机器学习包含几种不同的学习范式,它们在方法和应用上有所不同。

机器学习范式概述

来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md50-61 1-Introduction/4-techniques-of-ML/README.md70-76

监督学习

监督学习涉及对标记数据进行模型训练以进行预测。模型学习将输入特征映射到已知输出值。

类型目的示例目标类型
回归预测连续值房屋价格预测,温度预测数字
分类预测类别或分类电子邮件垃圾邮件检测,图像识别分类

有关更多详细信息,请参阅 监督学习回归分类

来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md54-56

无监督学习

无监督学习涉及在无标记数据中查找模式或结构。模型在没有预定义输出的情况下识别固有的分组或模式。

类型目的示例
聚类分组相似的数据点客户细分,异常检测
降维减少特征空间数据压缩,可视化

有关更多详细信息,请参阅 无监督学习聚类

来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md57

专业应用

除了基本范例之外,机器学习在各个领域还有专门的应用

  • 自然语言处理 (NLP):处理文本数据
  • 时间序列预测:根据序列数据预测未来值
  • 强化学习:通过与环境互动学习

有关更多详细信息,请参阅 专门的机器学习应用

来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md58-60

模型训练与评估

模型拟合

  • 欠拟合:模型过于简单,无法捕捉数据中的潜在模式
  • 拟合良好:模型可以很好地泛化到未见过的数据
  • 过拟合:模型学习了训练数据中的噪声,在新数据上表现不佳

来源: 1-Introduction/4-techniques-of-ML/README.md86-90

模型评估指标

模型性能根据学习范式使用各种指标进行评估

学习类型常用指标Scikit-learn 实现
回归均方误差 (MSE)、均方根误差 (RMSE)、平均绝对误差 (MAE)sklearn.metrics.mean_squared_errorsklearn.metrics.mean_absolute_error
分类准确率、精确率、召回率、F1 分数、ROC-AUCsklearn.metrics.accuracy_scoresklearn.metrics.precision_recall_fscore_supportsklearn.metrics.roc_auc_score
聚类轮廓系数、Davies-Bouldin 指数sklearn.metrics.silhouette_scoresklearn.metrics.davies_bouldin_score

来源: 1-Introduction/4-techniques-of-ML/README.md80-84

参数调优

提高模型性能通常涉及调整超参数,这些超参数是在训练开始之前设置的值。此过程可能包括

  • 网格搜索:测试参数的所有可能组合
  • 随机搜索:测试参数的随机组合
  • 交叉验证:使用多个训练-测试拆分来验证参数选择

在 scikit-learn 中,可以使用 GridSearchCVRandomizedSearchCV 来实现。

来源: 1-Introduction/4-techniques-of-ML/README.md94-96

机器学习中的负责任人工智能

在构建机器学习解决方案时,应牢记负责任的人工智能原则。这些原则确保机器学习系统公平、可靠、包容、安全、透明和负责。

影响评估和调试

在实施机器学习解决方案时,请考虑

  • 对个人的不利影响:识别系统使用可能造成的危害
  • 数据要求:了解监管和质量要求
  • 公平性分析:评估不同群体的偏见
  • 可解释性:理解模型结果的驱动因素

来源: 1-Introduction/3-fairness/README.md33-96 1-Introduction/3-fairness/README.md97-117

机器学习技术与实现

该课程主要使用以下技术来实现机器学习概念

主要库

在本课程中,您将主要使用

  • Scikit-learn:用于实现机器学习算法
  • Python:作为主要编程语言
  • JavaScript/Node.js:用于 Web 应用程序开发

来源: 1-Introduction/1-intro-to-ML/translations/README.fr.md18-24

结论

这个核心机器学习概念概述为理解本课程后续部分中对特定机器学习技术的更详细的探讨奠定了基础。随着您在学习材料中的进步,您将基于这些概念,获得实施各种机器学习解决方案的实践经验。

请记住,有效的机器学习不仅需要技术技能,还需要仔细考虑负责任的人工智能原则,以确保您的解决方案是有益的、公平的和符合道德的。

有关具体实现和对这些概念的更深入探讨,请参考本课程的后续部分。