AI与机器学习

目的与范围

本文档提供了 System Design 101 仓库中包含的人工智能和机器学习资源的详细技术概述。内容涵盖数据处理工具、大型语言模型架构、AI 框架、数据管道和 AI 代理系统。重点是通过可视化图表和简洁的技术解释来阐述复杂的人工智能概念。

来源: README.md111-119

数据处理基础

使用 Pandas 进行数据处理

Pandas 是 AI/ML 工作流程中数据处理和分析的基础 Python 库。它提供了 DataFrame 和 Series 等数据结构，能够高效地对结构化数据进行操作。

图 1：Pandas 数据合并操作

Pandas 中用于合并数据的五个主要函数是

pd.merge() - 基于公共列的类似 SQL 的连接操作
df.join() - 基于 DataFrame 索引的连接操作
pd.concat() - 沿轴连接 DataFrame
df.append() - 追加其他 DataFrame 的行
pd.merge_ordered() - 合并时可选择性地填充/插值时间序列数据

来源: README.md112

关键数据术语

图 2：关键数据科学和机器学习术语

来源: README.md113

大型语言模型

ChatGPT 架构与演进

图 3：ChatGPT 开发时间线

来源: README.md114

大型语言模型的工作原理

图 4：大型语言模型架构和训练

ChatGPT 基于 Transformer 架构运行，利用自注意力机制处理文本。核心组件包括：

Tokenization (分词)：将文本转换为 token（单词或子词单元）
Self-attention layers (自注意力层)：捕捉所有 token 之间的关系
Feed-forward networks (前馈网络)：处理 token 表示
Next-token prediction (下一个 token 预测)：训练和推理过程中的核心目标

模型通过根据先前 token 的上下文窗口反复预测下一个 token 来生成文本。

来源: README.md119

AI 框架与基础设施

开源 AI 技术栈

图 5：开源 AI 技术栈组成部分

开源 AI 技术栈包含多个层级，支持 AI 模型的开发、训练和部署。

Data Layer (数据层)：用于数据摄取、准备和特征管理
Model Layer (模型层)：用于构建和训练模型的框架
Orchestration Layer (编排层)：用于管理工作流和元数据的系统
Infrastructure Layer (基础设施层)：用于训练和服务的计算及存储资源

来源: README.md116

AI/ML 数据管道

图 6：AI/ML 数据管道架构

AI/ML 数据管道支持数据从源头到模型的有效流动。关键组件包括：

Data Ingestion (数据摄取)：从各种来源收集数据
Data Storage (数据存储)：存储原始和处理过的数据
Data Processing (数据处理)：清洁、转换和验证数据
Feature Store (特征存储)：存储和提供用于训练和推理的特征
Training Pipeline (训练管道)：使用处理过的数据训练模型
Inference Pipeline (推理管道)：使用训练过的模型进行预测

来源: README.md118

AI 代理与应用

AI 代理的定义

图 7：AI 代理架构与能力

AI 代理是一个能够感知其环境、做出决策并采取行动以实现目标的系统。关键特征包括：

Autonomy (自主性)：无需直接人工干预即可运行
Perception (感知)：感知并解释环境
Reasoning (推理)：处理信息并做出决策
Learning (学习)：通过经验提高性能
Action (行动)：执行任务以影响环境

AI 代理的范围很广，从简单的基于规则的系统到能够适应不断变化环境的复杂学习代理。

来源: README.md117

专业 AI 系统

DeepSeek AI 概述

DeepSeek 是一项前沿的 AI 研究计划，致力于为各种应用开发基础模型。

图 8：DeepSeek AI 系统架构

DeepSeek 的 AI 系统具有：

在多样化数据集上训练的高级大型语言模型
专业的代码生成能力
多阶段训练方法，包括预训练、微调和 RLHF（通过人类反馈强化学习）
支持长上下文理解和推理

来源: README.md115

与其他系统组件的集成

AI 和机器学习系统通常会与 System Design 101 仓库中涵盖的其他组件集成。

图 9：AI 与系统组件的集成

来源: README.md120-203

常见的 AI 和 ML 系统设计模式

模式	目的	关键组件	常见应用
特征存储 (Feature Store)	集中式特征管理	特征注册表、离线/在线存储、转换服务	ML 平台、推荐系统
模型即服务 (Model-as-a-Service)	通过 API 公开 ML 模型	模型服务器、负载均衡器、版本控制系统	推理服务、预测 API
批量预测 (Batch Prediction)	分批处理预测	批处理调度器、数据连接器、结果存储	报告、非实时预测
实时推理 (Real-time Inference)	低延迟交付预测	服务基础设施、缓存、优化模型	面向用户的应用程序、交互式系统
分布式训练	跨节点扩展模型训练	参数服务器、工作节点、同步机制	大型模型训练、研究集群
在线学习 (Online Learning)	在收到新数据时更新模型	流处理器、增量学习算法	欺诈检测、推荐系统
MLOps 管道	自动化 ML 生命周期	CI/CD、监控、特征存储、模型注册表	生产 ML 系统、企业平台