机器学习导论

什么是机器学习？

机器学习是人工智能的一个子集，它使系统能够在没有明确编程的情况下从数据中学习模式。与开发人员创建特定规则的传统编程不同，机器学习算法从数据中发现模式以进行预测或决策。

来源：1-Introduction/1-intro-to-ML/translations/README.fr.md, 1-Introduction/1-intro-to-ML/translations/README.id.md

机器学习与人工智能和数据科学的关系

ML-For-Beginners 代码库特别关注经典机器学习技术，置于更广泛的生态系统中

来源：1-Introduction/1-intro-to-ML/translations/README.fr.md, 1-Introduction/1-intro-to-ML/translations/README.id.md

机器学习范式

代码库实现了三种主要的学习范式

监督学习

模型从标记数据中学习以进行预测。代码库实现了

回归：使用 LinearRegression 和 LogisticRegression 等模型进行连续值预测
分类：使用 SVC、KNeighborsClassifier 和 RandomForestClassifier 等模型对数据进行分类

无监督学习

模型在无标签数据中寻找模式。代码库关注

聚类：使用 KMeans 等算法对相似数据点进行分组

强化学习

模型通过与环境交互来学习。代码库涵盖

Q-Learning：一种基于价值的强化学习方法

来源：1-Introduction/1-intro-to-ML/translations/README.fr.md, 代码库结构分析

技术实现

核心机器学习工作流程

ML-For-Beginners 代码库在各种技术中都展示了一个一致的工作流程

来源：1-Introduction/4-techniques-of-ML/translations/README.id.md

数据准备技术

数据准备是代码库中多个笔记本上实现的关键步骤

技术	目的	实现
数据收集	收集相关数据集	使用 `pandas.read_csv()` 加载数据
数据清理	处理缺失值、异常值	`dropna()`、`fillna()`、异常值检测
特征工程	创建新特征	笔记本中的自定义转换
数据转换	缩放、编码变量	`StandardScaler`、`OneHotEncoder`
数据分割	创建训练/测试集	`sklearn.model_selection` 中的 `train_test_split`

来源：1-Introduction/4-techniques-of-ML/translations/README.id.md, 代码库结构

模型训练实现

训练过程遵循代码库中所有笔记本的一致模式

来源：代码库笔记本分析

监督学习模型

代码库使用 scikit-learn 实现各种监督学习模型

来源：代码库结构分析, 1-Introduction/1-intro-to-ML/translations/README.fr.md

模型评估

代码库展示了根据 ML 任务的不同而不同的评估技术

任务类型	评估指标	实现
回归	MSE, RMSE, MAE, R²	`sklearn.metrics.mean_squared_error`, `r2_score`
分类	准确率、精确率、召回率、F1 分数	`sklearn.metrics.accuracy_score`, `classification_report`
聚类	轮廓系数, 惯性	`sklearn.metrics.silhouette_score`

来源：代码库结构分析

关键机器学习术语

理解这些术语对于使用代码库笔记本至关重要

术语	定义
特性	用于预测的输入变量 (在笔记本中通常是 `X`)
目标	要预测的输出变量 (在笔记本中通常是 `y`)
训练	将模型拟合到数据的过程 (笔记本中的 `model.fit()`)
推理	使用训练好的模型进行预测 (笔记本中的 `model.predict()`)
过拟合	模型过度学习训练数据，包括噪声
欠拟合	模型未能捕捉数据中的潜在模式
超参数	未从数据中学到的模型配置设置

来源：1-Introduction/4-techniques-of-ML/translations/README.id.md

技术要求

要学习 ML-For-Beginners 课程，您需要

支持 Jupyter Notebooks 的 Python 环境
必需库：scikit-learn, pandas, numpy, matplotlib, seaborn
对于 Web 应用程序示例：Node.js 和 npm
推荐 IDE：Visual Studio Code

代码库在介绍性课程中包含详细的设置说明。

来源：1-Introduction/1-intro-to-ML/translations/README.fr.md, 1-Introduction/1-intro-to-ML/translations/README.id.md

机器学习的应用

代码库展示了实际的 ML 应用，包括

通过患者数据预测疾病
使用历史数据预测天气
文本情感分析
欺诈和异常检测
时间序列预测
自然语言处理任务

每个应用程序都通过包含真实数据集的笔记本实现，以提供实践经验。

来源：1-Introduction/1-intro-to-ML/translations/README.fr.md, 1-Introduction/1-intro-to-ML/translations/README.id.md

课程结构

ML-For-Beginners 课程的组织旨在逐步建立知识

简介：基本概念、历史、公平性和技术
回归：工具、数据准备、线性回归和逻辑回归
分类：简介、各种分类器、应用分类
聚类：数据可视化、K-means 聚类
自然语言处理：简介、常见 NLP 任务、情感分析
时间序列：简介、ARIMA 预测
强化学习：Q-learning、Gym 环境

每个部分都包括理论、实际代码示例和练习，以巩固学习。

来源：代码库结构分析, 1-Introduction/1-intro-to-ML/translations/README.fr.md

评估系统

代码库包含一个集成评估系统

来源：代码库结构分析

测验应用程序允许学习者在每节课之前和之后测试他们的知识，并提供关于理解的即时反馈。

机器学习导论

什么是机器学习？

机器学习与人工智能和数据科学的关系

机器学习范式

监督学习

无监督学习

强化学习

技术实现

核心机器学习工作流程

数据准备技术

模型训练实现

监督学习模型

模型评估

关键机器学习术语

技术要求

机器学习的应用

课程结构

评估系统

本页内容