自然语言处理

自然语言处理架构

自然语言处理建立在序列建模概念的基础上，但引入了处理文本数据的专用技术。存储库的 NLP 部分涵盖了三个主要组件：词嵌入、注意力机制和 Transformer 架构。

来源：img/seq2seq.svg

词嵌入将词映射到连续向量空间中的稠密向量，捕获词之间的语义关系。d2l 存储库涵盖了三种主要的词嵌入方法。

词嵌入实现提供了捕获语义含义和词语之间关系的向量表示，为更复杂的 NLP 模型奠定了基础。

序列到序列（seq2seq）模型是 NLP 中用于机器翻译、摘要和问答等任务的核心架构。下图展示了存储库中的 seq2seq 实现。

来源：img/seq2seq.svg

seq2seq 架构包含一个处理输入文本的编码器和一个生成输出文本的解码器。编码器将输入序列压缩成一个上下文向量，解码器利用该向量一次一个 token 地生成输出序列。

注意力机制通过允许解码器在每个解码步骤关注输入序列的不同部分，来解决标准 seq2seq 模型的局限性。

注意力机制使模型能够动态地关注输入序列的相关部分，从而显著提高了机器翻译和文本摘要等任务的性能。

Transformer 架构已成为最先进 NLP 模型的基础，用自注意力机制取代了循环架构。

Transformer 架构利用多头注意力机制和逐位置前馈网络并行处理序列数据，从而实现更高效的训练并在各种 NLP 任务上获得更好的性能。

d2l 存储库中的 NLP 模型通过 d2l 统一 API 在多个深度学习框架中实现，从而确保了与底层框架无关的一致性教学内容。

这种架构使学习者能够理解核心 NLP 概念和实现，无论他们偏爱哪个深度学习框架，d2l 统一 API 都可以抽象化框架特定的细节。

NLP 部分建立在序列建模的基础之上，并导向高级优化技术，是贯穿存储库的学习路径的重要组成部分。

这条学习路径说明了 NLP 概念如何建立在基础机器学习和序列建模技术之上，最终形成构成现代 NLP 系统基础的最先进的 Transformer 架构。

存储库中的 NLP 组件支持多种实际应用。

应用程序	主要模型	关键组件
机器翻译	Seq2Seq, Transformer	Encoder-Decoder, Attention
文本分类	词嵌入, CNN/RNN	向量表示, Pooling
命名实体识别	词嵌入, BiLSTM-CRF	字符级特征, 序列标注
问答	Transformer	Self-Attention, Cross-Attention
文本生成	RNN, Transformer	自回归解码, Beam Search
情感分析	词嵌入, RNN	上下文理解, 二分类/多分类

这些应用展示了存储库中所涵盖的 NLP 模型和技术的实际效用，说明了它们如何应用于解决现实世界的语言处理任务。