本文档提供了 System Design 101 仓库中包含的人工智能和机器学习资源的详细技术概述。内容涵盖数据处理工具、大型语言模型架构、AI 框架、数据管道和 AI 代理系统。重点是通过可视化图表和简洁的技术解释来阐述复杂的人工智能概念。
来源: README.md111-119
Pandas 是 AI/ML 工作流程中数据处理和分析的基础 Python 库。它提供了 DataFrame 和 Series 等数据结构,能够高效地对结构化数据进行操作。
图 1:Pandas 数据合并操作
Pandas 中用于合并数据的五个主要函数是
pd.merge() - 基于公共列的类似 SQL 的连接操作df.join() - 基于 DataFrame 索引的连接操作pd.concat() - 沿轴连接 DataFramedf.append() - 追加其他 DataFrame 的行pd.merge_ordered() - 合并时可选择性地填充/插值时间序列数据来源: README.md112
图 2:关键数据科学和机器学习术语
来源: README.md113
图 3:ChatGPT 开发时间线
来源: README.md114
图 4:大型语言模型架构和训练
ChatGPT 基于 Transformer 架构运行,利用自注意力机制处理文本。核心组件包括:
模型通过根据先前 token 的上下文窗口反复预测下一个 token 来生成文本。
来源: README.md119
图 5:开源 AI 技术栈组成部分
开源 AI 技术栈包含多个层级,支持 AI 模型的开发、训练和部署。
来源: README.md116
图 6:AI/ML 数据管道架构
AI/ML 数据管道支持数据从源头到模型的有效流动。关键组件包括:
来源: README.md118
图 7:AI 代理架构与能力
AI 代理是一个能够感知其环境、做出决策并采取行动以实现目标的系统。关键特征包括:
AI 代理的范围很广,从简单的基于规则的系统到能够适应不断变化环境的复杂学习代理。
来源: README.md117
DeepSeek 是一项前沿的 AI 研究计划,致力于为各种应用开发基础模型。
图 8:DeepSeek AI 系统架构
DeepSeek 的 AI 系统具有:
来源: README.md115
AI 和机器学习系统通常会与 System Design 101 仓库中涵盖的其他组件集成。
图 9:AI 与系统组件的集成
来源: README.md120-203
| 模式 | 目的 | 关键组件 | 常见应用 |
|---|---|---|---|
| 特征存储 (Feature Store) | 集中式特征管理 | 特征注册表、离线/在线存储、转换服务 | ML 平台、推荐系统 |
| 模型即服务 (Model-as-a-Service) | 通过 API 公开 ML 模型 | 模型服务器、负载均衡器、版本控制系统 | 推理服务、预测 API |
| 批量预测 (Batch Prediction) | 分批处理预测 | 批处理调度器、数据连接器、结果存储 | 报告、非实时预测 |
| 实时推理 (Real-time Inference) | 低延迟交付预测 | 服务基础设施、缓存、优化模型 | 面向用户的应用程序、交互式系统 |
| 分布式训练 | 跨节点扩展模型训练 | 参数服务器、工作节点、同步机制 | 大型模型训练、研究集群 |
| 在线学习 (Online Learning) | 在收到新数据时更新模型 | 流处理器、增量学习算法 | 欺诈检测、推荐系统 |
| MLOps 管道 | 自动化 ML 生命周期 | CI/CD、监控、特征存储、模型注册表 | 生产 ML 系统、企业平台 |
来源: README.md111-119