南康家具网-南康家具行业领导者,南康家具批发首选网站,南康家具城最大的家具批发网
当前位置: 首页 » 知识 » 家具知识 » 正文

室内图像中家具多标签标注的实现

放大字体  缩小字体 发布日期:2018-01-18  来源:网络  浏览次数:170
  摘要:在基于图像进行家居虚拟设计的应用中,由于图像缺乏场景的深度信息、物体之间存在相互遮挡等问题,给获取图像信息带来一定的挑战。该文利用深度学习技术,提出了一种结合卷积神经网络和循环神经网络的方法,对室内图像进行特征提取,实现家具的多标签标注,以获取家具的属性信息,包括种类、位置、颜色和材质等。结果表明,该方法提高了虚拟展示内容的丰富性和精确性,为家居智能交互作了很好的铺垫。
  关键词: 深度学习; 图像标注; 卷积神经网络; 循环神经网络; Faster R-CNN
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)35-0219-03
  A Method of Dense Furniture Caption for Indoor Images
  MA Tian-yao
  (School of Software Engineering, Tongji University, Shanghai 201804, China)
  Abstract: In the application of image-based virtual house design system, it becomes a huge challenge to obtaining rich information from images because of some problems such as the lack of scene depth and the occlusion between objects. With the development of deep learning, this paper proposes a method of dense furniture caption for indoor images, which combines CNN and RNN to extract features. It can get multiple information of furniture, such as classification, location, color, material, etc. The result indicates that the method improves the richness and accuracy of furniture information, which makes a great contribution to virtual house design system.
  Key words: deep learning; image caption; CNN; RNN; Faster R-CNN
  隨着互联网的迅速发展,家居虚拟展示跨越了时空的局限,帮助用户直观、全面地了解到室内设计方案,因而被家居行业广泛接受。近年来,基于图像进行家居虚拟设计[1]的方法不断涌现,在一定程度上克服了纯3D技术渲染速度慢、模型制作复杂等缺点,且素材丰富、获取容易。但是,图像往往缺少一些关键信息,如场景的深度信息等。同时,室内图像中物品之间存在相互遮挡,这些都会给获取图像信息带来一定的挑战。
  本文着力于获取丰富、准确的图像信息,利用深度学习技术,设计出一个合理的、高效的解决方案来对室内图像中的家具进行多标签标注,以获取其属性信息,包括种类、位置、颜色以及材质等,进而降低家居虚拟展示过程的复杂性,并提高虚拟展示的内容丰富性和精确性。
  1 基于Faster R-CNN的物体多标签标注模型
  本文将采用卷积神经网络Faster R-CNN[2]和循环神经网络GRU[3]结合的方式对室内图像中的物体进行多标签多标签标注。首先,将Faster R-CNN的最后一层与两个全连接层相连,每个全连接层都使用ReLU[4]和Dropout[5]。然后,把上述生成的图像特征和Word2vec生成的词向量特征作为输入,连接到GRU中。
  在训练GRU时,对于文本,其词向量标记为。其中,表示区域编码,对应特定符号,对应特定符号< END>。在测试时,只需要输入,当输出的预测值为,当前过程终止,完成该物体的多标签标注。
  1.1 Faster R-CNN的代价函数
  为了减少Fast R-CNN[6]在计算候选区域时所消耗的时间,Faster R-CNN在其基础上提出了候选区域网络(Region Proposal Network, RPN)来加以改进,生成region proposal。在最后一层卷积层输出的feature map上设置了一个滑动窗,该滑动窗与RPN进行全连接。对于滑动窗滑过的每个位置,模型中给定若干个以滑动窗中心为中心、不同尺度与长宽比的anchor,RPN将以每个anchor为基准相应地计算出一个候选区域。候选区域网络是一个全卷积网络,网络的第一层将滑动窗的输入特征映射到一个较低维的向量,然后将该向量输入到两个并列的全连接子层,其中分类层(cls layer)用于输出该向量对应图像属于物体还是背景的概率分布,回归层(reg layer)用于输出候选区域的坐标信息。
  Faster R-CNN的损失函数可定义为:
  其中,i表示第i个anchor,表示预测其是物体的概率,表示预测bounding box的4个参数化坐标。分类损失是一个二值分类器的softmax loss,回归损失。和是两个normalization参数,是平衡因子。
  对于bounding box的回归,4个参数化坐标定义如下:
  其中,x、y、w、h表示box的中心坐标以及它的宽度和高度,、、分别针对于预测的box、anchor box和实际的box(y、w、h类似)。可以认为是从一个anchor box到一个附近实际的box的bounding box回归。
 
 
[ 知识搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 

 
推荐图文
推荐知识
点击排行
 
网站首页 | 关于我们 | 联系方式 | RSS订阅 | 赣ICP备13007224号-5
南康家具批发网-南康家具行业领导者,南康家具批发首选网站,南康家具城最大的家具批发网