Two-Stream Residual Dilation Network Algorithm for Crowd Counting Based on RGB-T Images
-
摘要: 在人群计数中,针对尺度变化、行人分布不均以及夜间较差成像条件,提出了一种基于RGB-T(RGB-Thermal)图像的多模态人群计数算法,称为双流残差扩张网络,它由前端特征提取网络、多尺度的残差扩张卷积模块和全局注意力模块所构成。其中,前端网络用来提取RGB特征和热特征,扩张卷积模块进一步提取不同尺度的行人特征信息,全局注意力模块用来建立全局特征之间的依赖关系。此外,还引入了一种新的多尺度差异性损失,以提高网络的计数性能。为评估该方法,在RGBT-CC(RGBT Crowd Counting)数据集和DroneRGBT数据集上进行了对比实验。实验结果表明,在RGBT-CC数据集上与CMCRL(Cross-modal Collaborative Representation Learning)算法相比该算法的GAME(0)(Grid Average Mean absolute Errors)和RMSE(Root Mean Squared Error)分别降低了0.8和3.49,在DroneRGBT数据集上与MMCCN(Multi-Modal Crowd Counting Network)算法比分别降低了0.34和0.17,表明具有较好的计数性能。Abstract: We proposed a multimodal crowd counting algorithm based on RGB-Thermal (RGB-T) images (two-stream residual expansion network) in crowd counting, given scale changes, uneven pedestrian distribution, and poor imaging conditions at night. It has a front-end feature extraction network, multi-scale residual dilation convolution, and global attention modules. We used the front-end network to extract RGB and thermal features, and the dilated convolution module further extracted pedestrian feature information at different scales and used the global attention module to establish dependencies between global features. We also introduced a new multi-scale dissimilarity loss method to improve the counting performance of the network and conducted comparative experiments on the RGBT crowd counting (RGBT-CC) and DroneRGBT datasets to evaluate the method. Experimental results showed that compared with the cross-modal collaborative representation learning (CMCRL) algorithm on the RGBT-CC dataset, the grid average mean absolute error (GAME (0)) and root mean squared error (RMSE) of this algorithm are reduced by 0.8 and 3.49, respectively. On the DroneRGBT dataset, the algorithm are reduced by 0.34 and 0.17, respectively, compared to the multimodal crowd counting network (MMCCN) algorithm, indicating better counting performance.
-
Keywords:
- crowd counting /
- RGB-T images /
- dilated convolution /
- global attention /
- multi-scale disparity loss
-
0. 引言
近年来,为了进一步提高农业生产效率,解决农村劳动力资源短缺的问题,农机装备被列为“中国制造2025”十大重点研究领域之一[1]。作为智能农机的重要组成部分,无人农机的环境感知能力对于提升作业效率、保证作业安全十分重要。为了提高复杂农业环境下(大雾、沙尘天气以及夜晚作业等)无人农机环境感知能力,研究适合无人农机的红外与可见光图像融合方法具有重要意义。
传统的红外与可见光图像融合方法大多基于多尺度分解,即将源图像进行多尺度变换后得到一系列的子图像或系数,然后针对融合需求制定不同的统合框架和融合规则,融合分解得到的子图像或系数,最后经过相对应的逆变换得到融合图像[2]。文献[3]提出了一种基于目标增强的多尺度变换分解的红外和可见光图像融合。文献[4]提出了一种基于多尺度变换和范数优化的红外和可见光图像融合方法。文献[5]提出了一种基于显著性检测和双尺度变换分解的红外和可见光图像融合。上述方法融合规则比较复杂,处理速度偏慢,难以满足无人农机对环境的实时监控需求。
基于深度学习的红外与可见光融合方法,一般基于改进网络结构进行图像融合,文献[6]提出了一种生成对抗网络框架下基于深度可分离卷积的红外与可见光图像融合方法。文献[7]提出了一种基于离散小波变换和生成对抗网络来融合高光谱图像和多光谱图像的方法。文献[8]提出了红外与可见光图像注意力生成对抗融合方法。此类方法融合质量一般取决于训练集的质量好坏。
Pérez等人提出的泊松图像编辑(Poisson Image Editing,PIE)[9],可以将两幅图像自然融合,但是在融合过程中需要手动制作红外图像显著区域掩膜,无法满足无人农机实时处理环境信息的要求,本文通过引入深度学习技术实现红外图像显著区域掩膜的自动生成。在农机实际生产过程中,复杂的环境会影响红外图像显著区域掩膜生成的准确性,农机环境感知能力不仅要具备实时性,而且要能够在复杂环境中精确处理大量的图像。本文通过自制适合本文背景的数据集来训练条件生成对抗网络CGAN自动生成红外图像显著区域掩膜并对生成的掩膜进行形态学优化,简化红外图像显著区域掩膜的生成过程并加快了生成速度。使用Adam算法和随机梯度下降算法优化网络权重,并采用学习率衰减来减小成本函数收敛到最优解时的振荡。对融合结果采用直方图均衡化进行增强对比度处理。
1. 原理和方法
1.1 泊松图像编辑
泊松图像编辑是利用基于泊松方程的通用插值机制来实现不同图像之间的无缝融合,如图 1所示。将可见光图像背景S中与周围环境对比度低的Ω区域替换为红外图像中高亮的g区域,∂Ω表示合成边界。
要使g在插入S的同时内容平滑,边界无缝过渡,Ω中的像素值f应该满足以下条件:
$$ \mathop {{\text{min}}}\limits_f \mathop \iint \nolimits_\varOmega \nabla f - V{\text{d}}p $$ (1) 式中:$ \nabla =\left(\frac{\partial }{\partial x},\frac{\partial }{\partial y}\right) $是梯度算子;V是g中导出的梯度场,然后,引入狄利克雷边界条件:
$$ \Delta f = {\text{div}}\vec V\;\;\;\;\;{\rm{with}}\;\;\;\;\;f\left| {_{\partial \varOmega }} \right. = {f^*}\left| {_{\partial \varOmega }} \right. $$ (2) 式中:$ \Delta =\left(\frac{{\partial }^{2}}{\partial {x}^{2}},\frac{{\partial }^{2}}{\partial {y}^{2}}\right) $是拉普拉斯算子;${\text{div}}\vec V = \left( {\frac{{\partial u}}{{\partial x}},\frac{{\partial v}}{{\partial y}}} \right)$为g的散度。$ f\left| {_{\partial \varOmega }} \right. = {f^*}\left| {_{\partial \varOmega }} \right. $是狄利克雷边界条件;f*是背景图像。定义$f = g + \tilde f$,既有:
$$ \Delta \tilde f = 0 \;\;\;\;\;\; \tilde f\left| {_{\partial \varOmega }} \right. = \left( {{f^*} - g} \right)\left| {_{\partial \varOmega }} \right. $$ (3) 当$\tilde f\left| {_{\partial \varOmega }} \right.$近似为常数时,合成边界差异最小,合成图像效果最好。
在融合的过程中,需要对背景图像和目标图像进行Mask操作,得到g和Ω区域,其表示如下:
$$ \begin{equation} \begin{array}{r} \nabla G(x, y)={\rm{Mask}}(i, j) \times \nabla G_{\mathrm{IR}}(i, j)+ \\ (1-{\rm{Mask}}(i, j)) \times \nabla G_{\mathrm{VIS}}(i, j) \end{array} \end{equation} $$ (4) 式中:∇G(x, y)、∇GIR(i, j)和∇GVIS(i, j)分别为融合后图像、红外图像和可见光图像在(i, j)处的梯度,Mask(i, j)为红外图像经过Mask操作后得到的显著区域。
1.2 条件生成对抗网络
CGAN原理如图 2所示,由生成器以及判别器构成[10]。采用U-net网络作为生成器,结构如图 3(a)所示。它是一个5层卷积神经网络,每层网络都包含卷积层、ReLu激活层[11]和归一化层[12],解码器包含反卷积层、激活层和归一化层。编码器的作用是特征提取,而解码器的作用是恢复图像。判别器采用马尔可夫判别器[13],结构如图 3(b)所示。马尔可夫判别器采用全卷积形式,图像输入作为一个N×N矩阵,原图中的每一小块都对应着N×N矩阵中的一个元素。
CGAN经过训练可以实现从观察到的图像x和随机噪声向量z到输出图像y,即:G: {x, z}→y。目标函数如式(5)所示:
$$ \begin{gathered} {L_{{\text{CGAN}}}}\left( {G,D} \right) = {E_{x,y}}\left[ {\log D\left( {x,y} \right)} \right] + \hfill \\ \quad \quad {E_{x,z}}\left[ {\log \left( {1 - D\left( {x,G\left( {x,z} \right)} \right)} \right)} \right] \hfill \\ \end{gathered} $$ (5) 在CGAN网络训练过程中,生成器与判别器之间互相对抗。经过训练后生成器生成的结果无法与“真实”的图像相区分。而经过训练的判别器则尽可能地区分生成器生成结果图像的真伪,与此同时,CGAN网络生成一幅和参考值很相似的图像。为了更好地恢复图像的低频信息,引入下式L1距离:
$$ {L_{L1}}\left( G \right) = {E_{x,y,z}}\left[ {y - G{{\left( {x,z} \right)}_1}} \right] $$ (6) 本文所使用的损失函数如下式所示:
$$ {G^*} = {\text{argmi}}{{\text{n}}_G}\;{\max _D}\;{L_{{\text{cGAN}}}}\left( {G,D} \right) + \lambda {L_{L1}}\left( G \right) $$ (7) 式中:λ为循环一致性损失系数,其数值为10。
2. 训练与评价
2.1 CGAN的训练
首先,在公开TNO数据集中提取85幅红外图像和可见光图像,将图像的尺寸批量压缩到300×300并使用Photoshop软件绘制红外图像对应的掩膜图像,通过MATLAB进行裁剪,最终得到765幅256×256红外图像及对应的图像显著性掩膜,舍弃其中165幅显著信息缺失的图像,将剩余的600对图像进行逐个配对。配对后的600幅图像为训练集。图 4为训练数据集中部分红外图像以及对应的掩膜图像。
网络训练过程中为了优化网络权重,使用Adam算法和随机梯度下降算法,且每一轮迭代时都对学习率进行衰减。训练在一台个人计算机(AMD Ryzen 7 4800H、2.9 GHz、16 GB内存、NVIDIA GeForce 1650 Ti、4 GB显存)上进行,用时4.5 h完成训练。
采用TNO数据集中未经裁剪和MSRS数据集中共85幅红外图像作为测试数据集。经过测试,训练后的网络模型可以一次性快速得到测试数据集对应的掩膜图像,85幅图像用时仅需8 s。图 5为得到的部分图像掩膜测试结果。
经过网络生成的掩膜图像中会有小的空洞,并且轮廓会存在不平滑的现象,所以,本文对生成的掩膜图像做形态学优化处理,即图像的闭运算,先膨胀,后腐蚀。闭运算可以在不改变目标大小的前提下平滑轮廓的一部分,可以消除细小的空洞,弥合高亮部分与高亮部分中较窄的间断,填补一部分轮廓的断裂。优化前后对比如图 6所示。
2.2 融合结果评价
本文融合算法框架结构如图 7所示。
使用泊松无缝融合可能会对融合结果有一定的影响,比如会对边缘产生不必要的平滑,显著目标与周围环境颜色趋于一致等问题,所以对融合结果采用直方图均衡化进行增强对比度处理。融合结果选用测试集中7组图片,使用本文融合结果与传统的红外与可见光图像融合算法结果,包括加权平均方法(Weighted average、WA)[14]、PCA变换法[15]和小波变换法(Wavelet transform、WT)[16]进行对比,对比结果如图 8所示。
为了评价融合结果的质量,本文采用3个客观评价指标。评价指标分别是图像标准差[17]、信息熵[18]和平均梯度[19],分别对应为下式:
$$ {\text{SD}} = \sqrt {\frac{1}{{W \times H}}\mathop \sum \nolimits_{i = 1}^N \mathop \sum \nolimits_{j = 1}^M {{\left( {F\left( {i,j} \right) - \mu } \right)}^2}} $$ (8) 式中:μ为图像平均亮度值。SD值越大表明融合图像的对比度越高。
$$ {\text{EN}} = - \mathop \sum \nolimits_{l = 0}^{L - 1} {p_{\text{F}}}\left( l \right){\log _2}{p_{\text{F}}}\left( l \right) $$ (9) 式中:L为图像灰度等级;pF(l)为融合图像中灰度级l级出现的概率,EN值越大表明融合图像中信息越丰富。
$$ {\text{AG}} = \frac{1}{{MN}}\mathop \sum \nolimits_{i = 1}^N \mathop \sum \nolimits_{j = 1}^M \sqrt {\frac{{\nabla {F_x}^2\left( {i,j} \right) - \nabla {F_y}^2\left( {i,j} \right)}}{2}} $$ (10) 式中:∇Fx(i, j)=F(i, j)-F(i+1, j),∇Fy(i, j)=F(i, j)-F(i, j+1)。AG值越大表明融合后图像边缘保留程度越好[20]。
评价对象为主观对比图中的7组图像。客观对比数据如表 1所示。
表 1 图像客观数据对比Table 1. Comparison of objective data of imagesImage Fusion methods SD EN AG Image 1 WA 18.563 6.095 0.022 PCA 40.323 7.149 0.054 WT 20.297 6.262 0.040 Ours 69.133 7.308 0.101 Image 2 WA 15.079 5.097 0.012 PCA 18.987 4.681 0.012 WT 17.711 5.274 0.022 Ours 56.634 6.894 0.045 Image 3 WA 22.342 5.054 0.012 PCA 22.189 5.156 0.019 WT 24.558 5.212 0.022 Ours 55.994 6.775 0.058 Image 4 WA 12.861 4.763 0.013 PCA 18.170 4.431 0.015 WT 16.014 5.015 0.024 Ours 79.514 6.691 0.047 Image 5 WA 23.504 6.018 0.022 PCA 36.432 6.348 0.041 WT 27.516 6.182 0.037 Ours 72.358 7.531 0.068 Image 6 WA 24.221 5.236 0.015 PCA 41.457 5.799 0.037 WT 26.996 5.384 0.027 Ours 53.211 5.992 0.046 Image 7 WA 11.552 4.325 0.010 PCA 17.432 4.611 0.012 WT 14.299 4.547 0.018 Ours 67.119 7.128 0.048 为进一步证明本文算法有效性,对测试集中85组图像进行客观对比试验,客观数据SD平均值与标准差如表 2所示。
表 2 客观数据SD对比Table 2. SD comparison of objective dataSD WA PCA WT Ours Average value 17.568 30.442 20.502 66.534 Standard deviation 3.774 8.167 4.191 8.326 客观数据EN平均值与标准差如表 3所示。
表 3 客观数据EN对比Table 3. Comparison of objective data ENEN WA PCA WT Ours Average value 4.854 5.664 5.556 6.754 Standard deviation 0.542 0.966 0.582 0.443 客观数据AG平均值与标准差如表 4所示。
表 4 客观数据AG对比Table 4. Comparison of objective data AGAG WA PCA WT Ours Average value 0.018 0.031 0.033 0.086 Standard deviation 0.004 0.012 0.007 0.021 根据图表综合对比分析,本文所提方法能在保留红外图像中显著目标高对比度的同时,保留更多的可见光图像细节。同时,融合后的图像在各项指标上表现优异,能保留更多的有效信息,更加符合人眼感知情况。
3. 结论
本文提出了一种基于CGAN和PIE的红外与可见光图像融合方法,该方法通过引入深度学习技术解决了传统PIE方法掩膜生成的问题,而且相比于传统融合方法,本文方法得到的融合图像质量更高,可读性更强。本文算法即保留了红外图像中与周围环境有温差的目标的对比度,又保留了可见光图像中的环境细节。对比结果证明了本文算法的有效性。可以为无人农机在能见度低的环境下提供较好的环境感知能力,是一种可行有效的融合方法。不过该方法在融合过程中可能会受到其他非行人高温目标的干扰,更精确的融合方法是今后努力的目标。
-
图 2 TSRDNet网络的结构图。TSRDNet包括两个VGG-19前12层组成的前端网络、4个残差扩张卷积模块(RDCB)、4个全局注意力模块和一个用于回归密度图的卷积层
Figure 2. Structure diagram of the TSRDNet network. TSRDNet consists of two VGG-19 front-end networks consisting of the first 12 layers, 4 residual dilated convolution modules (RDCB), 4 global attention modules and a convolutional layer for regressing density maps
图 8 本文算法的部分测试结果图。第一列和第二列分别代表RGB图像和热图像,第三列是对应的人群密度图真值,第四列是本文方法的预测值
Figure 8. Part of the test results of the method in this paper. The first and second columns represent the RGB image and thermal image, respectively, the third column is the corresponding ground-truth crowd density map, and the fourth column is the predicted value of our method
表 1 在RGBT-CC数据集上的对比实验结果
Table 1 Comparative experimental results on the RGBT-CC dataset
Methods GAME(0) GAME(1) GAME(2) GAME(3) RMSE UCNet[20] 33.96 42.42 53.06 65.07 56.31 HDFNet[21] 22.36 27.79 33.68 42.48 33.93 MCNN[22] 21.89 25.70 30.22 37.19 37.44 SANet[23] 21.99 24.76 28.52 34.25 41.60 CSRNet[18] 20.4 23.58 28.03 35.51 35.26 BBSNet[24] 19.56 25.07 31.25 39.24 32.48 MVMS[25] 19.97 25.10 31.02 38.91 33.97 BL[26] 18.70 22.55 26.83 34.62 32.67 CMCRL[13] 15.61 19.95 24.69 32.89 28.18 TSRDNet
(Ours)14.81 18.77 23.04 28.76 24.69 表 2 在RGBT-CC数据上不同光照环境下的对比实验结果
Table 2 Comparative experimental results under different lighting environments on RGBT-CC data
表 3 在DroneRGBT数据集上的对比实验结果
Table 3 Comparative experimental results on the DroneRGBT dataset
表 4 全局注意力模块和CBAM的对比实验
Table 4 Comparative experiments of global attention module and CBAM
Evaluation index
Attention moduleGlobal attention module CBAM[19] GAME(0) 14.81 15.31 GAME(1) 18.77 21.72 GAME(2) 23.04 28.20 GAME(3) 28.76 35.42 RMSE 24.69 27.29 -
[1] 张宇倩, 李国辉, 雷军, 等. FF-CAM: 基于通道注意机制前后端融合的人群计数[J]. 计算机学报, 2021, 44(2): 304-317. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJX202102004.htm ZHANG Yuqian, LI Guohui, LEI Jun, et al. FF-CAM: crowd counting based on front-end and back-end fusion of channel attention mechanism [J]. Journal of Computer Science, 2021, 44(2): 304-317. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJX202102004.htm
[2] YANG Z, WEN J, HUANG K. A method of pedestrian flow monitoring based on received signal strength[J]. EURASIP Journal on Wireless Communications and Networking, 2022, 2022(1): 1-17. DOI: 10.1186/s13638-021-02080-5
[3] 王曲, 赵炜琪, 罗海勇, 等. 人群行为分析研究综述[J]. 计算机辅助设计与图形学学报, 2018, 30(12): 2353-2365. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJF201812018.htm WANG Qu, ZHAO Weiqi, LUO Haiyong, et al. Review of research on crowd behavior analysis[J]. Journal of Computer-Aided Design and Graphics, 2018, 30(12): 2353-2365. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJF201812018.htm
[4] 蒋一, 侯丽萍, 张强. 基于改进空时双流网络的红外行人动作识别研究[J]. 红外技术, 2021, 43(9): 852-860. http://hwjs.nvir.cn/article/id/f44f08d7-9ff9-413b-938d-de049d8dc5a2 JIANG Yi, HOU Liping, ZHANG Qiang. Research on infrared pedestrian action recognition based on improved space-time dual-stream network [J]. Infrared Technology, 2021, 43(9): 852-860. http://hwjs.nvir.cn/article/id/f44f08d7-9ff9-413b-938d-de049d8dc5a2
[5] 赵才荣, 齐鼎, 窦曙光, 等. 智能视频监控关键技术: 行人再识别研究综述[J]. 中国科学: 信息科学, 2021, 51(12): 1979-2015. https://www.cnki.com.cn/Article/CJFDTOTAL-PZKX202112002.htm ZHAO Cairong, QI Ding, DOU Shuguang, et al. Key technologies for intelligent video surveillance: A review of pedestrian re-identification research [J]. Science in China: Information Science, 2021, 51(12): 1979-2015. https://www.cnki.com.cn/Article/CJFDTOTAL-PZKX202112002.htm
[6] Enzweiler M, Gavrila D M. Monocular pedestrian detection: Survey and experiments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 31(12): 2179-2195.
[7] LI M, ZHANG Z, HUANG K, et al. Estimating the number of people in crowded scenes by mid based foreground segmentation and head-shoulder detection[C]//2008 19th International Conference on Pattern Recognition, 2008: 1-4.
[8] CHEN K, Loy C C, GONG S, et al. Feature mining for localised crowd counting[C]//BMVC, 2012: 3-12.
[9] Pham V Q, Kozakaya T, Yamaguchi O, et al. Count forest: Co-voting uncertain number of targets using random forest for crowd density estimation[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 3253-3261.
[10] PAN S, ZHAO Y, SU F, et al. SANet++: enhanced scale aggregation with densely connected feature fusion for crowd counting[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021: 1980-1984.
[11] 吴奇元, 王晓东, 章联军, 等. 融合注意力机制与上下文密度图的人群计数网络[J]. 计算机工程, 2022, 48(5): 235-241, 250. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC202205031.htm WU Qiyuan, WANG Xiaodong, ZHANG Lianjun, et al. Crowd counting network integrating attention mechanism and context density map [J]. Computer Engineering, 2022, 48(5): 235-241, 250. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJC202205031.htm
[12] TANG H, WANG Y, CHAU L-P. TAFNet: a three-stream adaptive fusion network for RGB-T crowd counting[J/OL]. arXiv preprint arXiv: 2202.08517, 2022. https://doi.org/10.48550/arXiv.2202.08517.
[13] LIU L, CHEN J, WU H, et al. Cross-modal collaborative representation learning and a large-scale rgbt benchmark for crowd counting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 4823-4833.
[14] PENG T, LI Q, ZHU P. RGB-T crowd counting from drone: a benchmark and MMCCN network[C]//Computer Vision – ACCV 2020, 2021: 497-513.
[15] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//International Conference on Learning Representations (ICLR), 2014: 1-14.
[16] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[17] DAI F, LIU H, MA Y, et al. Dense scale network for crowd counting[C]//Proceedings of the 2021 International Conference on Multimedia Retrieval, 2021: 64-72.
[18] LI Y, ZHANG X, CHEN D. Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 1091-1100.
[19] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[20] ZHANG J, FAN D P, DAI Y, et al. UC-Net: uncertainty inspired RGB-D saliency detection via conditional variational autoencoders[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 8582-8591.
[21] PANG Y, ZHANG L, ZHAO X, et al. Hierarchical dynamic filtering network for rgb-d salient object detection[C]//European Conference on Computer Vision, 2020: 235-252.
[22] ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 589-597.
[23] CAO X, WANG Z, ZHAO Y, et al. Scale aggregation network for accurate and efficient crowd counting[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 734-750.
[24] FAN D P, ZHAI Y, Borji A, et al. BBS-Net: RGB-D salient object detection with a bifurcated backbone strategy network[C]//European Conference on Computer Vision, 2020: 275-292.
[25] ZHANG Q, CHAN A B. Wide-area crowd counting via ground-plane density maps and multi-view fusion cnns[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 8297-8306.
[26] MA Z, WEI X, HONG X, et al. Bayesian loss for crowd count estimation with point supervision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 6142-6151.
[27] ZENG L, XU X, CAI B, et al. Multi-scale convolutional neural networks for crowd counting[C]//IEEE International Conference on Image Processing (ICIP), 2017: 465-469.
[28] SHEN Z, XU Y, NI B, et al. Crowd counting via adversarial cross-scale consistency pursuit[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 5245-5254.