基于ELAN的Extended-ELAN（(E-ELAN)）

约洛夫7 在5 FPS到160 FPS范围内的速度和精度超过了所有已知的目标检测器，在GPU V100上30 FPS或更高的所有已知实时目标检测器中具有最高的56.8% AP的精度。

YOLOv7-E6目标检测器(56 FPS V100，55.9% AP)比基于transformer的检测器Swin-L Cascade-Mask R-CNN(9.2 FPS A100，53.9% AP)快509%，准确率高2%，比基于卷积的检测器conv next-XL Cascade-maskr-CNN(8.6 FPS A100，55.2% AP)快551%，准确率高0.7%。而且YOLOv7的性能比YOLOR，YOLOX，Scaled-YOLOV4、 YOLOV5、 Detr，可变形Detr，DINO-5scale-R50，ViT-Adapter-B等很多目标探测器的速度和精度都要好。此外，YOLOv7仅在MS COCO数据集上从头开始训练，没有使用任何其他数据集或预训练的权重。

1模型设计1。1、扩展高效层聚合网络在大多数关于设计高效架构的文献中，主要考虑的不超过参数个数、计算量和计算密度。马等还从内存访问代价的特性出发，分析了输入输出通道比、体系结构的分支个数和逐元素运算对网络推理速度的影响。Dole等人在进行模型缩放时也考虑了激活，即更多地考虑了卷积层输出张量中的元素个数。

2图2(b)中的CSPVoVNet设计是VoVNet的变体。CSPVoVNet的架构不仅考虑了上述基本设计问题，还分析了梯度路径，使得不同层的权重可以学习到更加多样化的特征。上面说的梯度分析法，推理更快更准。

图2 (c)中的ELAN考虑了以下设计策略3354 如何设计一个高效的网络？"他们得出一个结论：通过控制最短和最长的梯度路径，更深层次的网络可以有效地学习和收敛。

本文作者提出了基于ELAN的扩展ELAN (e-Elan)，其主要架构如图2(d)所示。

无论梯度路径的长度，还是大规模ELAN中计算块的堆叠数量，都达到了一个稳定的状态。如果无限堆叠更多的计算块，这种稳定状态可能会被破坏，参数的利用率会降低。作者提出的E-ELAN利用扩展、洗牌和合并基数实现了在不破坏原有梯度路径的情况下不断增强网络学习能力的能力。

架构方面，E-ELAN只是改变了计算块的架构，而过渡层的架构完全没有改变。策略是使用群卷积来扩展计算块的通道和基数。相同的组参数和通道乘数将应用于计算层的所有计算块。然后将每个计算块计算出的特征图按照设定的组参数G加扰成G组，然后将它们连接在一起。此时，每组特征图中的通道数将与原架构中的通道数相同。最后，添加G组特征图来执行合并基数。E-ELAN既能保持原有的ELAN设计框架，又能引导不同组的计算块学习更多样化的特性。

1.2、基于concatenate模型的模型缩放模型缩放的主要目的是调整模型的某些属性，生成不同尺度的模型，以满足不同推理速度的需要。例如，EfficientNet 的缩放模型考虑了宽度、深度和分辨率。对于Scale-yolov4，其缩放模型为调整级数。Doll'ar等人分析了卷积和群卷积对参数和计算的影响，设计了相应的模型缩放方法。

图3上述方法主要用于PlainNet或ResNet等架构。这些架构在放大或缩小时，各层的入度和出度都不会改变，因此可以独立分析各缩放因子对参数数量和计算量的影响。但如果将这些方法应用到基于concatenate的架构中，会发现当执行深度放大或缩小时，基于concatenate的转换层的计算块会减少或增加，如图3(a)和(b)所示。

从上述现象可以推断，对于基于连接的模型，不同的缩放因子不能单独分析，而必须一起考虑。以放大深度为例，这样的动作会导致过渡层的输入通道和输出通道的比例发生变化，从而可能导致模型的硬件利用率降低。

因此，对于基于连接的模型，必须提出相应的复合模型缩放方法。当缩放计算块的深度因子时，还必须计算块的输出通道的变化。然后，过渡层将按相同的宽度因子进行缩放，结果如图3(c)所示。本文提出的复合缩放方法可以保持模型在初始设计时的特性，保持最佳结构。

2训练方法2.1有计划的重新参数化进化虽然RepConv在VGG的基础上取得了优异的性能，但是直接应用于ResNet、DenseNet等架构时，其准确性会明显降低。作者使用梯度流传播路径来分析重新参数化卷积应该如何与不同的网络相结合。作者还相应地设计了重新参数化卷积。

RepConv实际上将33卷积、11卷积和id连接组合在一个卷积层中。通过分析RepConv与不同架构的组合及其性能，作者发现RepConv中的id连接破坏了ResNet中的残差和DenseNet中的连接，为不同的特征图提供了更多的梯度多样性。

基于以上原因，作者使用无id连接的RepConv(RepConvN)来设计重参卷积的规划架构。在作者的头脑，当带有残差或连接的卷积层被重新参数化的卷积所取代时，应该没有id连接。图4显示了一个有计划的重新参数化进化在PlainNet和ResNet中使用。对于残差模型和连接模型中计划的重新参数化卷积实验，将在消融研究中提出。

2.2标签匹配深度监督是一种常用于训练深度网络的技术。主要概念是在网络的中间层增加额外的辅助头，以辅助损失为导向的浅层网络的权重。即使对于像ResNet和DenseNet这样通常收敛得很好的架构，深入的监督仍然可以显著提高模型在许多任务上的性能。图5(a)和(b)显示了带有不和用分别深入督导。在本文中，负责最终输出的头称为引导头，用于辅助训练的头称为辅助头。

以往在深度网络的训练中，标签赋值通常直接参考GT，按照给定的规则生成硬标签。然而，近年来，如果以目标检测为例，研究人员往往使用网络预测输出的质量和分布，然后结合GT的考虑，使用一些计算和优化方法来生成可靠的软标签。例如，YOLO使用包围盒回归预测和GT的IoU作为客观性的软标签。本文将网络预测结果与GT一起考虑，然后将软标签指定为标签分配器。

图5无论是辅助头还是引导头的情况如何，都需要对目标进行深入的监督和训练。在软标签分配器相关技术的发展过程中，偶然发现了一个新的衍生问题，即如何给辅助头和引线头分配软标签？"据我们所知，相关文献尚未讨论过这个问题。目前最常用的方法结果如图5(c)所示，即把辅助头和引导头分开，然后利用各自的预测结果和GT进行标签分配。本文提出的方法是一种新的标签分配方法，通过引导头预测来引导辅助头和引导头。也就是说，以导联头预测为指导，生成由粗到细的分层标签，分别用于辅助头和导联头的学习。图5(d)和图5 (e)分别示出了所提出的两种深度监督标签分配策略。

1、 lead head Guided Label Assigned Head Guide Label Distributor主要根据Lead Head和GT的预测结果进行计算，通过优化过程生成软标签。这组软标签将被用作辅助头和引导头的目标训练模型。原因是lead head具有相对较强的学习能力，因此生成的软标签应该更好地表示源数据和目标之间的分布和相关性。另外，这种学习可以看作是一种广义剩余学习。通过让浅层辅助头直接学习lead head已经学习的信息，lead head将更能专注于学习尚未学习的残留信息。

2、由粗到细的引线头导向标签分配器由粗到细的引线头导向标签分配器也使用引线头和GT的预测结果来生成软标签。但是，在这个过程中，会生成两组不同的软标签，即厚标签和薄标签，其中薄标签与lead head guide tag distributor生成的软标签相同，而厚标签是通过允许更多的网格生成的。通过放宽正样本分配过程的约束，将其视为正目标。原因是辅助头的学习能力不如前铅头强。为了避免丢失需要学习的信息，我们将重点优化辅助头的召回率。

至于lead head的输出，可以从高召回结果中筛选出高精度结果作为最终输出。然而，必须注意，如果粗标签的附加权重接近细标签的附加权重，则可能在最终预测中产生不好的先验。因此，为了让那些超厚的正网格影响更小，在解码器中设置了一个限制，使得超厚的正网格可以完美地生成软标签。上述机制允许在学习过程中动态调整细标签和粗标签的重要性，使得细标签的可优化上限始终高于粗标签的可优化上限。

2.3其他招数这些免费训练细节将在附录中详细介绍，包括：(1)conv-BN-激活拓扑中的批量归一化：这部分主要是将批量归一化层直接连接到卷积层。这样做的目的是在推理阶段将批量归一化的均值和方差整合到卷积层的偏差和权重中。

(2)将YOLOR中的隐含知识与卷积特征图的加法和乘法相结合：在推理阶段可以通过预先计算将YOLOR中的隐含知识简化为向量。该向量可以与前一个或后一个卷积层的偏差和权重相结合。

(3)EMA模型：EMA是mean teacher中使用的一种技术，EMA模型纯粹作为系统中的最终推理模型。

3实验3.1准确度比较

3.2速度精度比较

编辑：李倩

标签：标签模型卷积

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

推荐阅读