本文档提供了ML-For-Beginners课程中实现的机器学习 (ML) 的技术概述。它涵盖了核心的 ML 概念、术语以及整个代码库使用的技术方法。有关历史背景,请参阅机器学习和人工智能的历史。有关 ML 系统中的道德考量,请参阅机器学习中的公平性和道德。
机器学习是人工智能的一个子集,它使系统能够在没有明确编程的情况下从数据中学习模式。与开发人员创建特定规则的传统编程不同,机器学习算法从数据中发现模式以进行预测或决策。
来源:1-Introduction/1-intro-to-ML/translations/README.fr.md, 1-Introduction/1-intro-to-ML/translations/README.id.md
ML-For-Beginners 代码库特别关注经典机器学习技术,置于更广泛的生态系统中
来源:1-Introduction/1-intro-to-ML/translations/README.fr.md, 1-Introduction/1-intro-to-ML/translations/README.id.md
代码库实现了三种主要的学习范式
模型从标记数据中学习以进行预测。代码库实现了
LinearRegression 和 LogisticRegression 等模型进行连续值预测SVC、KNeighborsClassifier 和 RandomForestClassifier 等模型对数据进行分类模型在无标签数据中寻找模式。代码库关注
KMeans 等算法对相似数据点进行分组模型通过与环境交互来学习。代码库涵盖
来源:1-Introduction/1-intro-to-ML/translations/README.fr.md, 代码库结构分析
ML-For-Beginners 代码库在各种技术中都展示了一个一致的工作流程
来源:1-Introduction/4-techniques-of-ML/translations/README.id.md
数据准备是代码库中多个笔记本上实现的关键步骤
| 技术 | 目的 | 实现 |
|---|---|---|
| 数据收集 | 收集相关数据集 | 使用 pandas.read_csv() 加载数据 |
| 数据清理 | 处理缺失值、异常值 | dropna()、fillna()、异常值检测 |
| 特征工程 | 创建新特征 | 笔记本中的自定义转换 |
| 数据转换 | 缩放、编码变量 | StandardScaler、OneHotEncoder |
| 数据分割 | 创建训练/测试集 | sklearn.model_selection 中的 train_test_split |
来源:1-Introduction/4-techniques-of-ML/translations/README.id.md, 代码库结构
训练过程遵循代码库中所有笔记本的一致模式
来源:代码库笔记本分析
代码库使用 scikit-learn 实现各种监督学习模型
来源:代码库结构分析, 1-Introduction/1-intro-to-ML/translations/README.fr.md
代码库展示了根据 ML 任务的不同而不同的评估技术
| 任务类型 | 评估指标 | 实现 |
|---|---|---|
| 回归 | MSE, RMSE, MAE, R² | sklearn.metrics.mean_squared_error, r2_score |
| 分类 | 准确率、精确率、召回率、F1 分数 | sklearn.metrics.accuracy_score, classification_report |
| 聚类 | 轮廓系数, 惯性 | sklearn.metrics.silhouette_score |
来源:代码库结构分析
理解这些术语对于使用代码库笔记本至关重要
| 术语 | 定义 |
|---|---|
| 特性 | 用于预测的输入变量 (在笔记本中通常是 X) |
| 目标 | 要预测的输出变量 (在笔记本中通常是 y) |
| 训练 | 将模型拟合到数据的过程 (笔记本中的 model.fit()) |
| 推理 | 使用训练好的模型进行预测 (笔记本中的 model.predict()) |
| 过拟合 | 模型过度学习训练数据,包括噪声 |
| 欠拟合 | 模型未能捕捉数据中的潜在模式 |
| 超参数 | 未从数据中学到的模型配置设置 |
来源:1-Introduction/4-techniques-of-ML/translations/README.id.md
要学习 ML-For-Beginners 课程,您需要
代码库在介绍性课程中包含详细的设置说明。
来源:1-Introduction/1-intro-to-ML/translations/README.fr.md, 1-Introduction/1-intro-to-ML/translations/README.id.md
代码库展示了实际的 ML 应用,包括
每个应用程序都通过包含真实数据集的笔记本实现,以提供实践经验。
来源:1-Introduction/1-intro-to-ML/translations/README.fr.md, 1-Introduction/1-intro-to-ML/translations/README.id.md
ML-For-Beginners 课程的组织旨在逐步建立知识
每个部分都包括理论、实际代码示例和练习,以巩固学习。
来源:代码库结构分析, 1-Introduction/1-intro-to-ML/translations/README.fr.md
代码库包含一个集成评估系统
来源:代码库结构分析
测验应用程序允许学习者在每节课之前和之后测试他们的知识,并提供关于理解的即时反馈。