Follow us 登录 注册
0 (755) 33615138 周一~周五, 8:00 - 20:00
82372468@qq.com 随时欢迎您的来信!
爱联地铁站B口 薄新一路5-7号501

基于PaddlePaddle搭建工业级ICNET应用 预测速度超TensorFlow 20%

引言

提起ICNET,就不得不说说ICNET构建的初衷-解决图像语义分割在实时应用中的挑战。图像语义分割(semantic segmentation)是结合了图像分类和对象检测,对图像中的每个像素实现细粒度的分类,就像下面的图中看到的那样,可以对封闭形状区域进行类别标记!得益于深度学习技术的爆发式发展,图像语义分割也进入高速的发展阶段。

技术现状

首先将全卷积网络(FCN)应用于图像分割的端到端训练。FCN修改了VGG6等网络使其 具有非固定大小的输入生成具有相同大小的分割图像,同时通过卷积层替换所有完全连接的层。由于网络生成 具有小尺寸和密集表示的多个特征映射,因此需要进行上采样以创建相同大小的特征。基本上,它包含于一个 步幅不小于1的卷积层。它通常称为反卷积,因为它创建的输出尺寸大于输入。这样的话,整个网络是基于像 素点的损失函数进行训练的。此外,J. Long在网络中添加了跳过连接,以将高层级特征映射表示与网络顶层更 具体和密集的特征表示相结合。FCN把CNN最后的全连接层换成卷积层,这也是其名字的由来。

针对J. Long的FCN模型进行了两步改进,第一步使用模型生成要素图,这些要素图被缩减 为具有池化层的单个全局特征向量。使用L2欧几里德范式对该上下文向量进行归一化,并且将其取出(输出是 输入的扩展版本)以生成具有与初始值相同的大小的新特征映射。第二步再使用L2 欧几里德范式对整个初始特 征映射进行归一化。最后一步连接前两个步骤生成的要素图。规范化有助于缩放连接的要素图值,从而获得更 好的性能。

开发了金字塔场景解析网络(PSPNet),以更好地学习场景的全局内容表示。PSPNET使 用具有扩张网络策略的特征提取器从输入图像中提取模式。特征提供给金字塔池化模块以区分具有不同比例的模 式。它们与四个不同的尺度合并,每个尺度对应于金字塔等级,并由1x1卷积层处理以减小它们的尺寸。这样,每 个金字塔等级分析具有不同位置的图像的子区域。金字塔等级的输出被上采样并连接到初始特征图以最终包含局部 和全局的上下文信息。然后,它们由卷积层处理以生成逐像素的预测。

针对高清图像的实时语义分割,提出了一个基于PSPNet的图像级联网络(ICNET), 它解决了现实应用中的基于像素标签推断需要大量计算的难题。ICNET可以在单块GPU卡上实现实时推断并在 Cityscapes,CamVid等数据验证有相对不错的效果。当今基于深度学习的各种网络架构不断提升图像语义分割 的性能,但是都距离工业界的实际应用有一定距离,像在Cityscapes数据集取得不错效果的ResNet和PSPNet 针对1024*1024的图像至少需要1秒钟做出推断,远远不能满足自动驾驶,在线视频处理,甚至移动计算等领域 实时的要求,ICNET即是在这样的背景下,在不过多降低预测效果的基础上实现毫秒级相应以满足实时处理的 要求。在Cityscapes数据集上,ICNET的响应时间可以达到33ms,处理能力达到30.3fps,准确率达到70.6%的 mIoU分数。

Comments (2)

  • Brad Bukovsky

    评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论

    回复
    • Brad Bukovsky

      评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评

      回复
  • Brad Bukovsky

    评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论评论

    回复

Leave Comment

Contact Us

Feel free to call us on
0 (755) 3361-5038
Monday - Friday, 8am - 7pm

Our Email

Drop us a line anytime at
82372468@qq.com,
and we’ll get back soon.

Our Address

Come visit us at
Longgang luen, shenzhen,
NY 5-7