本文档解释了神经网络的基本结构和组成,包括感知器、层和网络操作的组织。它为理解神经网络的架构设计以及不同组件的交互方式奠定了基础。有关卷积神经网络等特定神经网络架构的实现,请参阅卷积神经网络,有关训练方法,请参阅训练方法与优化。
神经网络架构是指计算元素(神经元)及其连接的组织和排列。在探索更复杂的架构之前,理解这些基本组件至关重要。
神经网络的基本单元是神经元,其最简单的形式也称为感知器。神经元接收多个输入,对它们应用权重,添加偏置项,然后将结果通过激活函数进行传递。
神经元的输出计算如下:
$$y = f\left(\sum_{i=1}^{n} w_i x_i + b\right)$$
其中
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md9-45
激活函数在网络中引入了非线性,使其能够学习复杂的模式。常见的激活函数包括:
有关各种激活函数的详细解释,请参阅激活函数。
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md426-470
神经网络通常组织成层。每一层包含多个神经元,它们处理输入数据并将输出传递给下一层。
层的类型主要有:
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md59-66
神经网络最简单的形式,由一层输出节点组成。输入通过一系列权重直接馈送到输出。它只能学习线性可分模式。
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md11-54
MLP是具有一个或多个隐藏层的前馈网络。层中的每个神经元都连接到相邻层的所有神经元,形成一个全连接架构。
MLP的关键特征
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md57-66
神经网络可以根据其架构特征进行分类。
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md68-72
神经元在层内和层间连接的方式定义了不同的架构模式。
在全连接网络中,一层中的每个神经元都连接到下一层的所有神经元。这是MLP中最常见的模式。
这些网络将层之间的连接限制在局部区域,减少了参数数量。卷积神经网络是典型的例子。
这些连接绕过一个或多个层,允许信息从早期层直接流向后期层,这有助于训练期间的梯度流动。
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md215-221
神经网络的深度(层数)和宽度(每层神经元数)是关键的架构决策。
深层网络(层数多)可以学习数据的层次化表示,每一层学习越来越抽象的特征。这使它们能够模拟浅层网络无法捕捉的复杂关系。
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md373-376
神经网络通过两个主要计算阶段运行:
在前向传播过程中,输入数据逐层流过网络,每个神经元进行计算:
此过程一直持续到输出层产生最终结果。
反向传播是根据输出误差更新网络权重的过程。
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md139-157
神经网络的架构随着时间的推移发生了显著的演变,每一次创新都解决了先前设计的局限性。
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md3-293
设计神经网络架构时,应考虑几个因素:
| 因素 | 考量因素 |
|---|---|
| 数据特征 | 输入数据的大小、维度和结构 |
| 任务复杂度 | 分类、回归、生成等 |
| 计算资源 | 可用内存和处理能力 |
| 训练时间 | 训练时间限制 |
| 模型大小 | 部署环境要求 |
| 泛化能力 | 需要在未见过的数据上表现良好 |
这些挑战的解决方案包括:
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md104-121
来源:English version/ch03_DeepLearningFoundation/ChapterIII_DeepLearningFoundation.md379-408
神经网络的架构是其性能和能力的关键因素。从简单的感知器到复杂的深度学习模型,神经元、层和连接的排列决定了一个网络可以学习什么以及如何有效地训练它。理解这些架构原则为实施和调整神经网络以解决特定问题提供了基础。
虽然本文档涵盖了神经网络架构的基本方面,但像 CNN 和 RNN 这样的更专业的架构有其独特的结构元素,它们建立在这些基础之上。这些专业架构在其各自的维基页面中有介绍。