论文分析了one-stage网络训练存在的类别不平衡问题，提出能根据loss大小自动调节权重的focal loss，使得模型的训练更专注于困难样本。同时，基于FPN设计了RetinaNet，在精度和速度上都有不俗的表现

论文:Focal Loss for Dense Object Detection

论文地址：https://arxiv.org/abs/1708.02002
论文代码：https://github.com/facebookresearch/Detectron

Introduction

??目前state-of-the-art的目标检测算法大都是two-stage、proposal-driven的网络，如R-CNN架构。而one-stage检测器一直以速度为特色，在精度上始终不及two-stage检测器。因此，论文希望研究出一个精度能与two-stage检测器媲美的one-stage检测器通过分析，论文认为阻碍one-stage精度主要障碍是类别不平衡问题(class imbalance)：

在R-CNN架构检测器中，通过two-stage级联和抽样探索法(sampling heuristics)来解决类别不平衡问题。proposal阶段能迅速地将bndbox的数量缩小到很小的范围(1-2k)，过滤了大部分背景。而第二阶段，则通过抽样探索法来保持正负样本的平衡，如固定的正负样本比例(1:3)和OHEM
one-stage检测器通常需要处理大量的bndbox(~100k)，密集地覆盖着各位置、尺度和长宽比。然而大部分bndbox都是不含目标的，即easy background。尽管可以使用类似的抽样探索法(如hard example mining)来补救，但这样的效率不高，因为训练过程仍然被简单的背景样本主导，导致模型更多地学习了背景而没有很好地学习检测的目标

??在解决以上问题的同时，论文产出了两个成果：

新的损失函数focal loss，该函数能够动态地调整交叉熵大小。当类别的置信度越大，权重就逐渐减少，最后变为0。反之，置信度低的类别则得到大的权重

设计了一个简单的one-stage检测器RetinaNet来演示focal loss的有效性。该网络包含高效的特征金字塔和特别的anchor设定，结合一些多种近期的one-stage detectgor的trick(DNN/FPN/YOLO/SSD)，达到39.1的AP精度和5fps的速度，超越了所有的单模型，如图2所示

FocalLoss

Balanced Cross Entropy

??交叉熵损失函数如图1最上曲线，当置信度大于0.5时，loss的值也不小。若存在很多简单样本时，这些不小的loss堆积起来会对少样本的类别训练造成影响

??一种简单的做法是赋予不同的类不同的权重，即-balanced 交叉熵。在实际操作中，属于一个预设的超参，类别的样本数越多，则设置越小

Focal Loss Definition

??-balanced 交叉熵仅根据正负样本的数量进行权重的平衡，没有考虑样本的难易程度。因此，focal loss降低了容易样本的损失，从而让模型更专注于难的负样本

??focal loss在交叉熵的基础上添加了调节因子，其中是超参数。的loss曲线如图1所示，focal loss有两个特性：

当一个样本被误分且置信度很低时，调节因子会接近1，整体的loss都很小。当置信度接近1的时候，调节因子会接近于0，整体的loss也被降权了
超参数平滑地调整了简单样本的降权比例。当，Focal loss与交叉熵一致，随着增加，调节因子的影响也相应增加。当时，置信度为0.9的样本的loss将有100倍下降，而0.968的则有1000倍下降，这变相地增加了误分样本的权重

??实际使用时中，focal loss会添加-balanced，这是从后面的实验中总结出来的

Class Imbalance and Model Initialization

??二分类模型初始化时对于正负样本预测是均等的，而在训练时，样本数多的类别会主导网络的学习，导致训练初期不稳定。为了解决这问题，论文在模型初始化的时候设置先验值(如0.01)，使模型初始输出偏向于低置信度来加大少数(正)样本的学习。在样本不平衡情况下，这种方法对于提高focal loss和 cross entropy训练稳定性有很大帮助

RetinaNet Detector

Architecture

??RetinaNet是one-stage架构，由主干网络和两个task-specific子网组成。主干网络用于提取特征，第一个子网用于类别分类，第二个子网用于bndbox回归

Feature Pyramid Network Backbone

??RetinaNet采用FPN作为主干，FPN通过自上而下的路径以及横行连接来增强卷积网络的特征提取能力，能够从一张图片中构造出丰富的以及多尺度特征金字塔，结构如图3(a)-(b)。 ??FPN构建在ResNet架构上，分别在level -，每个level l意味着的尺度缩放，且每个level包含256通道

Anchors

??level到对应的anchor尺寸为到，每个金字塔层级的的长宽比均为，为了能够预测出更密集的目标，每个长宽比的anchor添加原设定尺寸的大小的尺寸，每个level总共有9个anchor ??每个anchor赋予长度为K的one-hot向量和长度为4的向量，K为类别数，4为box的坐标，与RPN类似。IoU大于0.5的anchor视为正样本，设定其one-host向量的对应值为1，的anchor视为背景，的anchor不参与训练

Classification Subnet

??分类子网是一个FCN连接FPN的每一level，分类子网是权值共享的，即共用一个FPN。子网由4xCx(3x3卷积+ReLU激活层)+KxA(3x3卷积)构成，如图3(c)，C=256，A=9

Box Regression Subnet

??定位子网结构与分类子网类似，只是将最后的卷积大小改为4xAx3x3，如图3(d所示)。每个anchor学习4个参数，代表当前bndbox与GT间的偏移量，这个与R-CNN类似。这里的定位子网是类不可知的（class-agnostic），这样能大幅减少参数量

Inference and Training

Inference

??由于RetinaNet结构简单，在推理的时候只需要直接前向推算即可以得到结果。为了加速预测，每一个FPN level只取置信度top-1k bndbox()，之后再对所有的结果进行NMS()

Focal Loss

??训练时，focal loss直接应用到所有～100k anchor中，最后将所有的loss相加再除以正样本的数量。这里不除以achor数，是由于大部分的bndbox都是easy样本，在focal loss下仅会产生很少loss。权值的设定与存在一定的关系，当增加时，则需要减少，(表现最好)

Initialization

??Backbone是在ImageNet 1k上预训练的模型，FPN的新层则是根据论文进行初始化，其余的新的卷积层（除了最后一层）则偏置，权重为的高斯分布

??最后一层卷积的权重为的高斯分布，偏置（偏置值的计算是配合最后的激活函数来推），使得训练初期的前景置信度输出为，即认为大概率都是背景。这样背景就会输出很小的loss，前景会输出很大的loss，从而阻止背景在训练前期产生巨大的干扰loss

Optimization

??RetinaNet使用SGD作为优化算法，8卡，每卡batchSize=2。learning rate=0.01，60k和80k轮下降10倍，共进行90k迭代，Weight decay=0.0001，momentum=0.9， training loss为focal loss与bndbox的smooth L1 loss

Experiments

Training Dense Detection

Network Initialization

??论文首先尝试直接用标准交叉熵进行RetinaNet的训练，不添加任何修改和特殊初始化，结果在训练时模型不收敛。接着论文使用先验概率对模型进行初始化，模型开始正常训练，并且最终达到30.2AP，训练对的值不敏感

Balanced Cross Entropy

??接着论文进行平衡交叉熵的实验，结果如Table1a，当时，模型获得0.9的AP收益

Focal Loss

??接着论文进行了focal loss实验，结果如Table 1b，当时，模型在-balanced交叉熵上获得2.9AP收益 ??论文观察到，与成反向关。整体而言，带来的收益更大，此外，的值一般为(从中实验得出)

Analysis of the Focal Loss

??为了进一步了解focal loss，论文分析了一个收敛模型(，ResNet-101)的loss经验分布。首先在测试集的预测结果中随机取个正样本和个负样本，计算其FL值，再对其进行归一化令他们的和为1，最后根据归一化后的loss进行排序，画出正负样本的累积分布函数(CDF)，如图4

??不同的值下，正样本的CDF曲线大致相同，大约20%的难样本占据了大概一半的loss，随着的增大，更多的loss集中中在top20%中，但变化比较小 ??不同的值下，负样本的CDF曲线截然不同。当时，正负样本的CDF曲线大致相同。当增大时，更大的loss集中在难样本中。当时，很大一部分的loss集中在很小比例的负样本中。可以看出，focal loss可以很有效的减少容易样本的影响，让模型更专注于难样本

Online Hard Example Mining (OHEM)

??OHEM用于优化two-stage检测器的训练，首先根据loss对样本进行NMS，再挑选hightest-loss样本组成minibatches，其中NMS的阈值和batch size都是可调的。与FL不同，OHEM直接去除了简单样本，论文也对比了OHEM的变种，在NMS后，构建minibatch时保持1:3的正负样本比。实验结果如Table 1d，无论是原始的OHEM还是变种的OHEM，实验结果都没有FL的性能好，大约有3.2的AP差异。因此，FL更适用于dense detector的训练

Model Architecture Design

Anchor Density

??one-stage检测器使用固定的网格进行预测，一个提高预测性能的方法是使用多尺度/多长宽比的anchro进行。实验结果如Table 1c，单anchor能达到30.3AP，而使用9 anchors能收获4AP的性能提升。最后，当增加到9anchors时，性能法儿下降了，这说明，当anchor密度已经饱和了

Speed versus Accuracy

??更大Backbone和input size意味着更高准确率和更慢的推理速度，Table 1e展示了这两者的影响，图2展示了RetinaNet与其它主流检测器的性能和速度对比。大尺寸的RetinaNet比大部分的two-stage性能要好，而且速度也更快

Comparison to State of the Art

??与当前的主流one-stage算法对比，RetinaNet大概有5.9的AP提升，而与当前经典的two-stage算法对比，大约有2.3的AP提升，而使用ResNeXt32x8d-101-FPN作为backbone则能进一步提升1.7AP

Conclusion

??论文认为类别不平衡问题是阻碍one-stage检测器性能提升的主要问题，为了解决这个问题，提出了focal loss，在交叉熵的基础上添加了调节因子，让模型更集中于难样本的训练。另外，论文设计了one-stage检测器RetinaNet并给出了相当充足的实验结果

创作不易，未经允许不得转载～更多内容请关注个人微信公众号【晓飞的算法工程笔记】

目标检测 RetinaNetFocal Loss for Dense Object Detection

Introduction

FocalLoss

Balanced Cross Entropy

Focal Loss Definition

Class Imbalance and Model Initialization

RetinaNet Detector

Architecture

Inference and Training

Experiments

Training Dense Detection

Model Architecture Design

Conclusion

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

目标检测 RetinaNetFocal Loss for Dense Object Detection

Introduction

FocalLoss

Balanced Cross Entropy

Focal Loss Definition

Class Imbalance and Model Initialization

RetinaNet Detector

Architecture

Inference and Training

Experiments

Training Dense Detection

Model Architecture Design

Conclusion

相关推荐

取消回复欢迎 你 发表评论:

Google 黑客常用搜索语句一览 原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

安装使用Hoppscotch构建API请求访问与测试

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

Python自动化办公——后台截图（python 自动截图）

轻松转换!AppleNumbers到Excel的快捷教程

电脑端腾讯文档如何导出excel

用OpenCV测量图像中物体的大小（基于opencv的物体尺寸检测算法实现）

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划