本文档描述了贯穿 ML-For-Beginners 课程的 Python 实现方法。它涵盖了用于实现机器学习的核心 Python 库、编程模式和技术实现细节,涉及回归、分类、聚类和自然语言处理等不同领域。
有关具体的 ML 概念,请参阅课程的相应部分。本页面侧重于支持动手练习的底层 Python 实现。
ML-For-Beginners 课程以 Python 3 作为其主要编程语言。在深入研究机器学习实现之前,必须设置正确的 Python 环境。
该课程在 VS Code 中频繁使用 Jupyter Notebooks 进行交互式代码执行和可视化。这种设置允许分步执行和即时反馈。
来源:2-Regression/1-Tools/README.md27-42
该课程依赖于几个关键的 Python 库,这些库构成了机器学习实现的基础
| 库 | 目的 | 应用场景 |
|---|---|---|
| Scikit-learn | ML 算法和工具 | 回归、分类、聚类 |
| Pandas | 数据操作和分析 | 所有数据准备模块 |
| Matplotlib | 数据可视化 | 所有结果绘图模块 |
| NumPy | 数值运算 | 所有数学运算模块 |
| TextBlob | NLP 处理 | NLP 模块 |
| NLTK | NLP 任务和情感分析 | NLP 模块 |
| Seaborn | 统计数据可视化 | 聚类模块 |
来源:2-Regression/1-Tools/README.md88-89 4-Classification/1-Introduction/README.md63-71 5-Clustering/1-Visualize/README.md106-116
在整个课程中,无论 ML 任务如何,都会始终使用某些 Python 实现模式
这种模式在诸如南瓜价格回归和美食分类示例等练习中得到了持续的展示。
来源:2-Regression/1-Tools/README.md100-145 2-Regression/2-Data/README.md75-92 4-Classification/1-Introduction/README.md144-155
这些模式根据不同的 ML 任务(回归、分类、聚类)以不同的方式使用。
来源:2-Regression/3-Linear/README.md186-194 4-Classification/2-Classifiers-1/README.md242-254
回归模块使用 Scikit-learn 在 Python 中实现线性和非线性回归模型
对于多项式回归,实现使用了 scikit-learn 的 pipeline API
来源:2-Regression/3-Linear/README.md181-194 2-Regression/3-Linear/README.md239-248
Python 中的分类是使用 Scikit-learn 的各种分类器算法实现的
对于不平衡数据集,实现使用了 imblearn 库中的 SMOTE(合成少数类过采样技术)
来源:4-Classification/1-Introduction/README.md237-239 4-Classification/2-Classifiers-1/README.md159-163 4-Classification/3-Classifiers-2/README.md68-72
聚类模块实现了无监督学习技术,主要是 K-Means 聚类
来源:5-Clustering/2-K-Means/README.md107-177
自然语言处理实现使用 TextBlob 和 NLTK
对于更高级的 NLP 任务,实现使用 NLTK 进行分词、词干提取和情感分析等任务。
来源:6-NLP/1-Introduction-to-NLP/README.md104-114 6-NLP/3-Translation-Sentiment/README.md104-120
数据可视化是 ML 实现的关键部分,它允许进行数据探索和结果解释
可视化实现的示例包括
来源:2-Regression/2-Data/README.md175-195 5-Clustering/1-Visualize/README.md216-234
课程还涵盖了如何将 ML 模型部署到 Web 应用中
在分类部分,此实现演示了如何将 Scikit-learn 模型转换为 ONNX 格式并在 JavaScript Web 应用中使用它
然后 JavaScript 实现加载并使用此模型
来源:4-Classification/4-Applied/README.md119-136 4-Classification/4-Applied/README.md245-274
课程实现强调使用各种 Python 技术进行适当的模型评估
来源:2-Regression/3-Linear/README.md200-213 4-Classification/2-Classifiers-1/README.md214-256
本文档概述了贯穿 ML-For-Beginners 课程所使用的 Python 实现方法。该实现遵循不同 ML 领域的一致模式,同时根据需要利用特定领域的库和技术。核心实现围绕 Scikit-learn、Pandas 和 Matplotlib/Seaborn,并为特定任务提供专门的库。
通过理解这些实现模式,您将能更好地掌握课程练习,并将类似的模式应用于您自己的 ML 项目。
刷新此 Wiki
最后索引时间2025 年 4 月 18 日(09b03c)