论文:Learning from Synthetic Data: Addressing Domain Shift for Semantic Segmentation
会议:CVPR2018
这篇文章的研究动机是什么?
减小源域和目标域之间的域间差异,使得使用源域的图片和Label训练的分割模型可以用于目标域的分割。
Domain Adaptation Segmentation方法的研究任务是什么?
对于游戏场景的街道图片数据集(包括图片和标签)和真实街道的图片数据集(只有图片没有标签),游戏场景图片和真实图片具有不一样的图片风格,Domain Adaptation Segmentation主要做的就是,利用已经有的这些数据训练出可以用于真实场景图片分割的模型。
什么是域间差异domain shift?
不同的数据集具有不同的数据分布,一般情况下训练的模型也只能用在与这种训练数据集分布相似的数据集上,而用于与训练数据集分布不同的数据集中时,则会产生具有明显差距的结果。
如下图所示,若简单的利用游戏场景的数据(下图中的Synthetic Data)训练模型,模型对于游戏场景中的图片分割具有很好的性能Fr,但是若使用这个训练好的模型测试真实场景的图片,则会产生相对较差的结果Fs,而Fr和Fs直接的差距其实就是两个数据集之间的Domain Shift造成的。
本文的目标便是为了减小这个Domain Shift,可以训练出应用于真实街道场景图片分割的模型,获得相对较好的性能,如图中的Fours。
本文如何降低Domain Shift?
网络整体架构:
其中,对于Source image,通过F Network提取特征F(xs),F(xs)通过两个通道,1)F(xs)通过G network 重构生成Fake Source image, 将Fake Source image和Real Source image 送入判别器D network,判别image的真实性以及构建辅助分割网络分割出分割map;2)F(xs)t通过C network 预测出每个像素的类别标签作为分割结果,其中训练Loss均已经标出。
对于Real Target image,由于没有label则网络中关于预测分割类别的地方均不使用,则如下图,Real Target image,通过F Network提取特征F(xr),F(xr)通过G network 重构生成Fake Target image, 将Fake Real image和Real target image 送入判别器D network,判别image的真实性。
上述两图中的F network、G network、以及D network是共享参数的。
网络的训练损失函数有哪些?
1)GAN Loss
2)分割预测损失函数Lseg和辅助分割预测损失函数Laux
这两个都是像素级交叉熵函数pixel-wise cross entropy loss
3)图像重构损失函数Lrec
本质其实是输入图片和重构图片之间的L1 Loss
对于这些损失函数,如何利用他们优化网络?
判别器D的优化函数:
生成器G的优化函数:
特征提取器F的优化函数:
实验结果:
使用Source Domain 生成场景数据集SYNTHIA 和真实街道场景数据集CITYSCAPES为训练数据,在CITYSCAPES数据集上的测试分割结果。
使用Source Domain 生成场景数据集GTA5 和真实街道场景数据集CITYSCAPES 为训练数据,在CITYSCAPES数据集上的测试分割结果。
为什么使用Domain Adaptation Segmentation进行分割,而不是直接利用真实数据和标签进行训练?
这是由于数据集标签的难获取引起的,大家都知道分割数据集的标签是像素级的标签,每一个像素都进行了分类。而数据集的获取方式当前仍处于人工收集的方式,因此给使用全监督的方式训练分割网络带来巨大的成本,所以兴起了很多无监督或弱监督语义分割的方向。