菜单

经典神经网络架构

相关源文件

目的与范围

本页面全面概述了构成深度学习基础的经典神经网络架构。这些经典架构主要在1990年代末至2010年代中期开发,确立了持续影响现代神经网络设计的核心设计模式。重点关注在计算机视觉任务中取得突破性表现的图像分类网络,特别是那些参加了ImageNet大规模视觉识别挑战赛(ILSVRC)的网络。

关于卷积神经网络(CNN)的具体信息,请参阅卷积神经网络。关于循环神经网络(RNN),请参阅循环神经网络。关于生成对抗网络(GAN),请参阅生成对抗网络

经典神经网络架构的演进

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

架构结构比较

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

LeNet-5 (1998)

LeNet-5 是 Yann LeCun 开发的一种开创性的卷积神经网络架构,用于识别手写数字和机器打印字符。它证明了可以使用参数共享的卷积操作有效地提取图像中的空间特征。

架构详情

LeNet-5 由7层组成(不包括输入层)

  • 2个卷积层
  • 2个下采样/池化层
  • 3个全连接层

主要创新点

  1. 通过卷积-池化-非线性序列进行分层特征提取
  2. 通过卷积操作实现参数共享
  3. 局部感受野以捕获空间特征
  4. 下采样以降低维度并增加空间不变性
  5. 层间稀疏连接以降低计算复杂度

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

AlexNet (2012)

AlexNet 赢得了2012年 ILSVRC 竞赛,其 Top-5 错误率为15.3%,显著优于传统的计算机视觉方法,这标志着深度学习的一个分水岭。由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 开发,它展示了在大型数据集上使用 GPU 训练深度卷积神经网络的强大能力。

架构详情

AlexNet 由8层组成

  • 5个卷积层
  • 3个全连接层
  • ReLU 激活函数
  • 局部响应归一化(LRN)
  • 重叠最大池化
  • 用于正则化的 Dropout

由于当时内存限制,网络被分到两个 GPU 上。

表:AlexNet 网络参数配置

输入大小内核大小输出大小参数
Conv1224×224×311×11×3/4, 9655×55×9634,944
MaxPool155×55×963×3/227×27×960
Conv227×27×965×5×96/1, 25627×27×256614,656
MaxPool227×27×2563×3/213×13×2560
Conv313×13×2563×3×256/1, 38413×13×384885,120
Conv413×13×3843×3×384/1, 38413×13×3841,327,488
Conv513×13×3843×3×384/1, 25613×13×256884,992
MaxPool313×13×2563×3/26×6×2560
FC66×6×256-409637,752,832
FC74096-409616,781,312
FC84096-10004,097,000

主要创新点

  1. ReLU 激活函数代替 tanh 或 sigmoid,加速了训练
  2. Dropout 正则化防止过拟合
  3. 数据增强技术以人工增加训练集大小
  4. GPU 实现以应对计算需求
  5. 局部响应归一化(LRN)以帮助泛化
  6. 重叠最大池化以在减少维度的同时保留更多信息

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

ZFNet (2013)

ZFNet 由 Matthew D. Zeiler 和 Rob Fergus 开发,它改进了 AlexNet 的架构,并以11.19%的错误率赢得了2013年 ILSVRC。其主要贡献是开发了反卷积网络可视化技术,该技术提供了关于 CNN 如何工作的见解。

架构详情

ZFNet 的结构与 AlexNet 相似,但有关键修改

  • 第一个卷积层使用步长为2的7×7内核(而不是步长为4的11×11内核)
  • 其他层中调整了滤波器大小

这一改变使得 ZFNet 能够在初始层中保留更多信息,特别是 AlexNet 曾丢失的中频信息。

主要创新点

  1. 反卷积可视化技术帮助理解中间特征层的功能
  2. 滤波器大小和步长的精细化以捕获更详细的信息
  3. 训练过程中特征演化可视化以诊断网络问题

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

Network in Network (2013)

由 Min Lin 提出的网络中的网络(NIN)对卷积层引入了根本性的设计改变。NIN 没有使用简单的线性滤波器后跟非线性,而是使用多层感知器(MLP)在每个感受野内提取更复杂的特征。

架构详情

NIN 的关键组成部分

  • MLPConv 层 - 用小型多层感知器替换线性卷积
  • 全局平均池化 - 替换网络末端的全连接层
  • 参数数量更少的深度网络

主要创新点

  1. MLPConv 层用于在局部感受野内增强特征提取
  2. 全局平均池化(GAP)用于替换全连接层,减少参数并防止过拟合
  3. 通过每个感受野内增强的非线性映射实现改进的特征判别

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

VGGNet (2014)

VGGNet 由牛津大学视觉几何组开发,在 ILSVRC 2014 中获得第二名,并在定位任务中获得第一名。它表明网络深度对于良好性能至关重要。

架构详情

VGG 有多种配置(VGG11、VGG13、VGG16、VGG19),其中 VGG16 是最广泛使用的。主要特点

  • 非常统一的架构
  • 专门使用步长1、填充1的3×3卷积滤波器
  • 步长2的2×2最大池化
  • 随着网络深度增加滤波器数量(64, 128, 256, 512, 512)
  • 末尾有三个全连接层

表:VGG16 网络架构

层组层类型输出大小内核大小
输入-224×224×3-
Block 1Conv-Conv-Pool112×112×643×3
Block 2Conv-Conv-Pool56×56×1283×3
Block 3Conv-Conv-Conv-Pool28×28×2563×3
Block 4Conv-Conv-Conv-Pool14×14×5123×3
Block 5Conv-Conv-Conv-Pool7×7×5123×3
FC 层FC-FC-FC4096-4096-1000-

主要创新点

  1. 始终使用非常小的 (3×3) 滤波器构建的深度统一架构
  2. 堆叠多个3×3卷积层以更少的参数实现与更大滤波器(例如,三个3×3层约等于一个7×7层)相同的有效感受野
  3. 渐进式训练技术 - 首先训练更简单的网络,然后使用它们的权重来初始化更深的网络
  4. 多尺度训练以增强鲁棒性

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

GoogLeNet/Inception (2014)

GoogLeNet 由 Google 开发,以6.67%的错误率赢得了 ILSVRC 2014 分类挑战赛。其关键创新是 Inception 模块,它能同时高效处理多尺度视觉信息。

架构详情

GoogLeNet 特点

  • 22层深(如果算上池化层则为27层)
  • 引入 Inception 模块
  • 训练期间的辅助分类器
  • 末端没有全连接层(只有全局平均池化)
  • 与 VGGNet 相比参数数量大幅减少

Inception 模块经历了多次迭代(v1-v4),每个版本都对方法进行了改进

  • Inception v1: 具有并行卷积路径的原始模块
  • Inception v2: 因子分解卷积以减少参数
  • Inception v3: 额外的因子分解和正则化
  • Inception v4: 更统一的架构并与残差连接集成

主要创新点

  1. Inception 模块 - 具有不同内核大小的并行处理路径
  2. 降维 - 在昂贵的3×3和5×5操作之前使用1×1卷积
  3. 网络中的网络方法 - 受 NIN 架构启发
  4. 辅助分类器 - 额外的损失函数以向早期层提供梯度流
  5. 全局平均池化 - 替换末端的全连接层
  6. 多尺度特征处理 - 高效捕获不同尺度的信息

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

比较分析

此表突出显示了经典神经网络架构之间的主要差异

架构层数参数Top-5 错误率 (ImageNet)主要创新点
LeNet-51998760K不适用卷积 + 池化范式
AlexNet2012860M15.3%ReLU, dropout, GPU 训练
ZFNet2013860M11.2%可视化,精细化滤波器
NIN2013可变更少不适用MLPConv, 全局平均池化
VGG16201416138M7.3%统一的3×3滤波器,非常深
GoogLeNet2014226.8M6.7%Inception 模块,多尺度

对参数效率的影响

这些架构的一个关键演进是提高了参数效率

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md

设计原则与遗产

这些经典神经网络的演进确立了几个重要的设计原则,这些原则持续影响着现代架构

  1. 增加深度 - 网络逐渐加深,从 LeNet-5 的7层到 GoogLeNet 的22层

  2. 参数效率 - 从全连接层转向更多卷积层,以及1×1卷积等技术

  3. 多尺度处理 - 捕获不同尺度的特征,最终形成 Inception 模块

  4. 正则化技术 - 引入 dropout 和数据增强以对抗过拟合

  5. 激活函数 - 从 sigmoid/tanh 转向 ReLU 及其变体

  6. 架构块 - 从单个层演变为可重复构成网络的概念块(如 Inception)

这些经典架构为 ResNet、DenseNet、EfficientNet 和基于 Transformer 的视觉模型等现代网络奠定了基础,这些现代网络在这些原则的基础上进行了构建和扩展,同时解决了诸如梯度消失问题等限制。

来源:English version/ch04_ClassicNetwork/ChapterIV_ClassicNetwork.md README.md