本文档概述了构成大型语言模型(LLM)基础的自然语言处理(NLP)概念和技术。它连接了基础神经网络(在神经网络中介绍)和更高级的LLM架构(在LLM架构中详细介绍)。尽管LLM已经超越了传统的NLP技术,但理解这些基本概念对于理解现代语言模型的工作原理至关重要。
在文本能够被机器学习算法处理之前,必须通过几个预处理步骤将其从原始文本转换为结构化格式。
分词是将文本分解成称为 token 的更小单元的过程。这些 token 可以是字符、单词或子词。
来源: README.md136-138
这两种技术都将单词还原为其词根形式,但方法不同
来源: README.md136-138
停用词是常见的词,通常不包含重要意义(例如:“the”、“is”、“and”)。去除它们可以减少模型中关注内容词时的噪声和维度。
来源: README.md136-138
特征提取将文本数据转换为机器学习算法可以处理的数值表示。
BoW 将文本表示为词频的集合,忽略语法和词序。
来源: README.md139-140
TF-IDF 根据词语在文档中的频率以及在所有文档中的稀有程度来加权词语,突出显示有区分度的词。
来源: README.md139-140
N-grams 捕捉词语序列,保留部分上下文信息。
来源: README.md139-140
词嵌入将词映射到密集的向量表示,其中语义关系在向量空间中得到保留。
Word2Vec 使用神经网络通过从其上下文中预测一个词(CBOW)或从一个词预测上下文(Skip-gram)来学习词嵌入。
Global Vectors for Word Representation (GloVe) 结合了全局矩阵分解和局部上下文窗口方法来捕获全局统计信息。
FastText 通过将每个词视为字符 n-gram 的词袋来扩展 Word2Vec,有助于处理词汇外词汇和形态丰富的语言。
来源: README.md141-142
与标准神经网络不同,序列模型可以处理可变长度的输入并捕获对语言理解至关重要的序列依赖关系。
RNN 通过维护一个在每个时间步更新的隐藏状态来处理序列,允许信息持久化。
LSTM 通过引入单元状态和门控机制来控制信息流,解决了 RNN 中的梯度消失问题。
GRU 将遗忘门和输入门合并为单个更新门,并将单元状态与隐藏状态合并,从而简化了 LSTM。
来源: README.md143-145
从经典的NLP技术到现代LLM的转变,代表了我们处理自然语言方式的范式转变。
传统NLP方法面临着几个挑战
Transformer 通过以下方式解决了这些局限性
这种转变奠定了现代LLM的基础,您将在LLM架构部分详细探讨。
来源: README.md143-150
有几个库实现了本文档涵盖的NLP概念
| 库 | 重点 | 主要功能 |
|---|---|---|
| NLTK | 学术NLP | 经典的NLP任务的综合工具包 |
| spaCy | 生产NLP | 快速、高效的NLP流程,带有预训练模型 |
| Gensim | 主题建模和词嵌入 | Word2Vec、FastText、Doc2Vec的高效实现 |
| Transformers (HuggingFace) | 现代NLP模型 | 预训练Transformer模型的统一API |
| Stanza (Stanford NLP) | 多语言NLP | 多语言神经流程 |
来源: README.md145-150
本文档涵盖了构成现代语言模型基础的NLP基本概念。尽管LLM已经超越了这些传统方法,但理解这些概念为LLM如何以及为何如此工作提供了重要的背景。
有关特定主题的更深入探索,请考虑以下资源:
在下一节中,您将探索LLM架构,它建立在这些基础之上,创建了驱动现代AI应用的强大语言模型。
来源: README.md145-150
刷新此 Wiki
最后索引时间2025 年 4 月 18 日(881b60)