自然语言处理

1. 文本预处理

在文本能够被机器学习算法处理之前，必须通过几个预处理步骤将其从原始文本转换为结构化格式。

1.1 分词

分词是将文本分解成称为 token 的更小单元的过程。这些 token 可以是字符、单词或子词。

词分词：按空格和标点符号分割文本（最简单的方法）
字符分词：将文本分割成单独的字符
子词分词：使用算法查找常见的子词单元，平衡词汇量和词语表示（例如：WordPiece、BPE、SentencePiece）

来源： README.md136-138

1.2 词干提取和词形还原

这两种技术都将单词还原为其词根形式，但方法不同

词干提取：使用启发式规则截断单词结尾（速度快但精度较低）
词形还原：使用词汇和形态学分析来返回单词的词典形式（速度较慢但精度较高）

来源： README.md136-138

1.3 停用词去除

停用词是常见的词，通常不包含重要意义（例如：“the”、“is”、“and”）。去除它们可以减少模型中关注内容词时的噪声和维度。

来源： README.md136-138

2. 特征提取技术

特征提取将文本数据转换为机器学习算法可以处理的数值表示。

2.1 词袋模型 (BoW)

BoW 将文本表示为词频的集合，忽略语法和词序。

来源： README.md139-140

2.2 词频-逆文档频率 (TF-IDF)

TF-IDF 根据词语在文档中的频率以及在所有文档中的稀有程度来加权词语，突出显示有区分度的词。

来源： README.md139-140

2.3 N-grams

N-grams 捕捉词语序列，保留部分上下文信息。

来源： README.md139-140

3. 词嵌入

词嵌入将词映射到密集的向量表示，其中语义关系在向量空间中得到保留。

3.1 Word2Vec

Word2Vec 使用神经网络通过从其上下文中预测一个词（CBOW）或从一个词预测上下文（Skip-gram）来学习词嵌入。

3.2 GloVe

Global Vectors for Word Representation (GloVe) 结合了全局矩阵分解和局部上下文窗口方法来捕获全局统计信息。

3.3 FastText

FastText 通过将每个词视为字符 n-gram 的词袋来扩展 Word2Vec，有助于处理词汇外词汇和形态丰富的语言。

来源： README.md141-142

4. NLP的序列模型

与标准神经网络不同，序列模型可以处理可变长度的输入并捕获对语言理解至关重要的序列依赖关系。

4.1 循环神经网络 (RNN)

RNN 通过维护一个在每个时间步更新的隐藏状态来处理序列，允许信息持久化。

4.2 长短期记忆 (LSTM)

LSTM 通过引入单元状态和门控机制来控制信息流，解决了 RNN 中的梯度消失问题。

4.3 门控循环单元 (GRU)

GRU 将遗忘门和输入门合并为单个更新门，并将单元状态与隐藏状态合并，从而简化了 LSTM。

来源： README.md143-145

5. 从经典NLP到现代LLM

从经典的NLP技术到现代LLM的转变，代表了我们处理自然语言方式的范式转变。

5.1 经典NLP方法的局限性

传统NLP方法面临着几个挑战

顺序处理限制了长期依赖性
固定的上下文窗口限制了理解
任务特定的架构需要独立的模型
难以处理多义性以及复杂的语言现象

5.2 Transformer架构的出现

Transformer 通过以下方式解决了这些局限性

通过注意力机制进行并行处理
能够捕获长期依赖性
用于上下文理解的自注意力
用于更大模型和数据集的可扩展架构

这种转变奠定了现代LLM的基础，您将在LLM架构部分详细探讨。

来源： README.md143-150

6. 主要NLP库和工具

有几个库实现了本文档涵盖的NLP概念

库	重点	主要功能
NLTK	学术NLP	经典的NLP任务的综合工具包
spaCy	生产NLP	快速、高效的NLP流程，带有预训练模型
Gensim	主题建模和词嵌入	Word2Vec、FastText、Doc2Vec的高效实现
Transformers (HuggingFace)	现代NLP模型	预训练Transformer模型的统一API
Stanza (Stanford NLP)	多语言NLP	多语言神经流程

来源： README.md145-150

总结与延伸阅读

本文档涵盖了构成现代语言模型基础的NLP基本概念。尽管LLM已经超越了这些传统方法，但理解这些概念为LLM如何以及为何如此工作提供了重要的背景。

有关特定主题的更深入探索，请考虑以下资源：

关于词嵌入：Lena Voita 的词嵌入课程
关于实践NLP：Real Python 的 spaCy NLP指南
关于Word2Vec的可视化解释：Jay Alammar 的 Illustrated Word2Vec
关于理解LSTM：Colah 的关于理解LSTM网络的博客文章

在下一节中，您将探索LLM架构，它建立在这些基础之上，创建了驱动现代AI应用的强大语言模型。

来源： README.md145-150

自然语言处理

1. 文本预处理

1.1 分词

1.2 词干提取和词形还原

1.3 停用词去除

2. 特征提取技术

2.1 词袋模型 (BoW)

2.2 词频-逆文档频率 (TF-IDF)

2.3 N-grams

3. 词嵌入

3.1 Word2Vec

3.2 GloVe

3.3 FastText

4. NLP的序列模型

4.1 循环神经网络 (RNN)

4.2 长短期记忆 (LSTM)

4.3 门控循环单元 (GRU)

5. 从经典NLP到现代LLM

5.1 经典NLP方法的局限性

5.2 Transformer架构的出现

6. 主要NLP库和工具

总结与延伸阅读

本页内容