相关工作2.1 弱监督目标检测 当下弱监督目标检测的研究大多建模一个多实例学习, 将弱监督目标检测问题转化为多标签分类 问题 [26∼34] . 多实例学习应用到弱监督目标检测的研究可分为多阶段弱监督目标检测算法 [35∼39] 和端 到端弱监督目标检测算法 [15∼17, 19, 22, 40∼43] .WSDDN [15] 由检测分支和分类分支组成, 算法将检测得分和分类得分相乘得到候选框得分, 选择 高置信度正样本. Kantorov等人 [43] 引入两种上下文感知模型, 即加法模型(Additive model)和对比模 型(Contrastive model), 利用上下文信息改进WSDDN池化部分. 在WSDDN基础上, Tang等人 [16] 发现 将图像级标签转化为实例级监督能有效提高分类精度, 提出在线精细化实例分类网络(Online instance classifier refinement, OICR). 多实例检测网络与在线精细化实例分类网络结合, 达到了更好的性能. 激 活热力图(Class activation map, CAM)可定位目标位置 [43,44] , TS2C [35] 用CAM作为目标先验, 补充在线 精细化实例分类网络的监督信息. C-MIDN [40] 由两个互补的多实例检测网络组成, 利用移除候选框挖 掘不同的候选边界. C-MIL [42] 为缓解多实例学习中的非凸性问题, 将实例划分为不同子集, 在子集中 定义一系列平滑损失函数逼近原损失函数. 考虑到每个类别中可能存在多个实例, PCL [41] 提出候选框 聚类法, W2F [39] 提出PGE、PGA算法挖掘实例监督信息. MELM [17] 通过最小化局部、全局熵进行目标 检测. WSOD2 [19] 采用自适应线性组合, 结合自下而上的目标线索和自上而下的类别置信度检测目标 边界. Zigzag [38] 和Zhang等人 [24] 衡量图像中目标定位困难程度, 在训练过程中从易到难训练样本, 获得 更好的检测效果.虽然当下已提出许多基于多实例学习的弱监督目标检测算法, 验证了多实例检测网络与在线精细 化实例分类网络结合后的有效性, 但是在空间、类别和实例间丰富依赖关系上仍处于探索阶段. 本文 提出了一种基于点标注的弱监督目标检测算法, 通过推理依赖关系弥补弱监督目标检测中监督信息的 不足, 以达到更好的弱监督目标检测效果.
点标注在当前海量数据下, 弱监督学习试图从低成本的弱标注中学习目标特征, 例如: 图像级标注(Imagelevels annotations) [15,35,46,47] 、 涂鸦标注(Scribble annotations) [48∼50] , 噪声标注(Noise annotations) [51,52] , 点标注(Point annotations) [25, 53∼58] 和其他标注 [59] 等. 弱标注与精确的边界框标注相比, 标注数据更容 易获得并有较好的检测结果. 然而, 目前在对基于点标注的弱监督目标检测这一领域的探索上仍处于 空白.基于点标注的计算机视觉研究中, Point-cut [53] 提出交互式的图像分割算法. 算法以标注点为种 子, 计算超像素与种子间的颜色距离, 估计前景并抑制背景杂波. What's the Point [25] 在PASCAL VOC 2012数据集上手工为图片提供点标注, 将点标注纳入训练损失函数中, 提高图像语义分割的准确性. 基 于What's the Point, LC-FCN [54] 进一步提出两种新的损失函数: Split-level loss和False-positive loss, 并设 计线性分割法(Line-split method)和分水岭分割法(Watershed-split method)分割多实例区域. Laradji等