本页面全面概述了构成深度学习基础的经典神经网络架构。这些经典架构主要在1990年代末至2010年代中期开发,确立了持续影响现代神经网络设计的核心设计模式。重点关注在计算机视觉任务中取得突破性表现的图像分类网络,特别是那些参加了ImageNet大规模视觉识别挑战赛(ILSVRC)的网络。
关于卷积神经网络(CNN)的具体信息,请参阅卷积神经网络。关于循环神经网络(RNN),请参阅循环神经网络。关于生成对抗网络(GAN),请参阅生成对抗网络。
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
LeNet-5 是 Yann LeCun 开发的一种开创性的卷积神经网络架构,用于识别手写数字和机器打印字符。它证明了可以使用参数共享的卷积操作有效地提取图像中的空间特征。
LeNet-5 由7层组成(不包括输入层)
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
AlexNet 赢得了2012年 ILSVRC 竞赛,其 Top-5 错误率为15.3%,显著优于传统的计算机视觉方法,这标志着深度学习的一个分水岭。由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 开发,它展示了在大型数据集上使用 GPU 训练深度卷积神经网络的强大能力。
AlexNet 由8层组成
由于当时内存限制,网络被分到两个 GPU 上。
表:AlexNet 网络参数配置
| 层 | 输入大小 | 内核大小 | 输出大小 | 参数 |
|---|---|---|---|---|
| Conv1 | 224×224×3 | 11×11×3/4, 96 | 55×55×96 | 34,944 |
| MaxPool1 | 55×55×96 | 3×3/2 | 27×27×96 | 0 |
| Conv2 | 27×27×96 | 5×5×96/1, 256 | 27×27×256 | 614,656 |
| MaxPool2 | 27×27×256 | 3×3/2 | 13×13×256 | 0 |
| Conv3 | 13×13×256 | 3×3×256/1, 384 | 13×13×384 | 885,120 |
| Conv4 | 13×13×384 | 3×3×384/1, 384 | 13×13×384 | 1,327,488 |
| Conv5 | 13×13×384 | 3×3×384/1, 256 | 13×13×256 | 884,992 |
| MaxPool3 | 13×13×256 | 3×3/2 | 6×6×256 | 0 |
| FC6 | 6×6×256 | - | 4096 | 37,752,832 |
| FC7 | 4096 | - | 4096 | 16,781,312 |
| FC8 | 4096 | - | 1000 | 4,097,000 |
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
ZFNet 由 Matthew D. Zeiler 和 Rob Fergus 开发,它改进了 AlexNet 的架构,并以11.19%的错误率赢得了2013年 ILSVRC。其主要贡献是开发了反卷积网络可视化技术,该技术提供了关于 CNN 如何工作的见解。
ZFNet 的结构与 AlexNet 相似,但有关键修改
这一改变使得 ZFNet 能够在初始层中保留更多信息,特别是 AlexNet 曾丢失的中频信息。
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
由 Min Lin 提出的网络中的网络(NIN)对卷积层引入了根本性的设计改变。NIN 没有使用简单的线性滤波器后跟非线性,而是使用多层感知器(MLP)在每个感受野内提取更复杂的特征。
NIN 的关键组成部分
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
VGGNet 由牛津大学视觉几何组开发,在 ILSVRC 2014 中获得第二名,并在定位任务中获得第一名。它表明网络深度对于良好性能至关重要。
VGG 有多种配置(VGG11、VGG13、VGG16、VGG19),其中 VGG16 是最广泛使用的。主要特点
表:VGG16 网络架构
| 层组 | 层类型 | 输出大小 | 内核大小 |
|---|---|---|---|
| 输入 | - | 224×224×3 | - |
| Block 1 | Conv-Conv-Pool | 112×112×64 | 3×3 |
| Block 2 | Conv-Conv-Pool | 56×56×128 | 3×3 |
| Block 3 | Conv-Conv-Conv-Pool | 28×28×256 | 3×3 |
| Block 4 | Conv-Conv-Conv-Pool | 14×14×512 | 3×3 |
| Block 5 | Conv-Conv-Conv-Pool | 7×7×512 | 3×3 |
| FC 层 | FC-FC-FC | 4096-4096-1000 | - |
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
GoogLeNet 由 Google 开发,以6.67%的错误率赢得了 ILSVRC 2014 分类挑战赛。其关键创新是 Inception 模块,它能同时高效处理多尺度视觉信息。
GoogLeNet 特点
Inception 模块经历了多次迭代(v1-v4),每个版本都对方法进行了改进
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
此表突出显示了经典神经网络架构之间的主要差异
| 架构 | 年 | 层数 | 参数 | Top-5 错误率 (ImageNet) | 主要创新点 |
|---|---|---|---|---|---|
| LeNet-5 | 1998 | 7 | 60K | 不适用 | 卷积 + 池化范式 |
| AlexNet | 2012 | 8 | 60M | 15.3% | ReLU, dropout, GPU 训练 |
| ZFNet | 2013 | 8 | 60M | 11.2% | 可视化,精细化滤波器 |
| NIN | 2013 | 可变 | 更少 | 不适用 | MLPConv, 全局平均池化 |
| VGG16 | 2014 | 16 | 138M | 7.3% | 统一的3×3滤波器,非常深 |
| GoogLeNet | 2014 | 22 | 6.8M | 6.7% | Inception 模块,多尺度 |
这些架构的一个关键演进是提高了参数效率
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md
这些经典神经网络的演进确立了几个重要的设计原则,这些原则持续影响着现代架构
增加深度 - 网络逐渐加深,从 LeNet-5 的7层到 GoogLeNet 的22层
参数效率 - 从全连接层转向更多卷积层,以及1×1卷积等技术
多尺度处理 - 捕获不同尺度的特征,最终形成 Inception 模块
正则化技术 - 引入 dropout 和数据增强以对抗过拟合
激活函数 - 从 sigmoid/tanh 转向 ReLU 及其变体
架构块 - 从单个层演变为可重复构成网络的概念块(如 Inception)
这些经典架构为 ResNet、DenseNet、EfficientNet 和基于 Transformer 的视觉模型等现代网络奠定了基础,这些现代网络在这些原则的基础上进行了构建和扩展,同时解决了诸如梯度消失问题等限制。
来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md README.md