关键词: 深度学习; 图像标注; 卷积神经网络; 循环神经网络; Faster R-CNN
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)35-0219-03
A Method of Dense Furniture Caption for Indoor Images
MA Tian-yao
(School of Software Engineering, Tongji University, Shanghai 201804, China)
Abstract: In the application of image-based virtual house design system, it becomes a huge challenge to obtaining rich information from images because of some problems such as the lack of scene depth and the occlusion between objects. With the development of deep learning, this paper proposes a method of dense furniture caption for indoor images, which combines CNN and RNN to extract features. It can get multiple information of furniture, such as classification, location, color, material, etc. The result indicates that the method improves the richness and accuracy of furniture information, which makes a great contribution to virtual house design system.
Key words: deep learning; image caption; CNN; RNN; Faster R-CNN
隨着互联网的迅速发展,家居虚拟展示跨越了时空的局限,帮助用户直观、全面地了解到室内设计方案,因而被家居行业广泛接受。近年来,基于图像进行家居虚拟设计[1]的方法不断涌现,在一定程度上克服了纯3D技术渲染速度慢、模型制作复杂等缺点,且素材丰富、获取容易。但是,图像往往缺少一些关键信息,如场景的深度信息等。同时,室内图像中物品之间存在相互遮挡,这些都会给获取图像信息带来一定的挑战。
本文着力于获取丰富、准确的图像信息,利用深度学习技术,设计出一个合理的、高效的解决方案来对室内图像中的家具进行多标签标注,以获取其属性信息,包括种类、位置、颜色以及材质等,进而降低家居虚拟展示过程的复杂性,并提高虚拟展示的内容丰富性和精确性。
1 基于Faster R-CNN的物体多标签标注模型
本文将采用卷积神经网络Faster R-CNN[2]和循环神经网络GRU[3]结合的方式对室内图像中的物体进行多标签多标签标注。首先,将Faster R-CNN的最后一层与两个全连接层相连,每个全连接层都使用ReLU[4]和Dropout[5]。然后,把上述生成的图像特征和Word2vec生成的词向量特征作为输入,连接到GRU中。
在训练GRU时,对于文本,其词向量标记为。其中,表示区域编码,对应特定符号
1.1 Faster R-CNN的代价函数
为了减少Fast R-CNN[6]在计算候选区域时所消耗的时间,Faster R-CNN在其基础上提出了候选区域网络(Region Proposal Network, RPN)来加以改进,生成region proposal。在最后一层卷积层输出的feature map上设置了一个滑动窗,该滑动窗与RPN进行全连接。对于滑动窗滑过的每个位置,模型中给定若干个以滑动窗中心为中心、不同尺度与长宽比的anchor,RPN将以每个anchor为基准相应地计算出一个候选区域。候选区域网络是一个全卷积网络,网络的第一层将滑动窗的输入特征映射到一个较低维的向量,然后将该向量输入到两个并列的全连接子层,其中分类层(cls layer)用于输出该向量对应图像属于物体还是背景的概率分布,回归层(reg layer)用于输出候选区域的坐标信息。
Faster R-CNN的损失函数可定义为:
其中,i表示第i个anchor,表示预测其是物体的概率,表示预测bounding box的4个参数化坐标。分类损失是一个二值分类器的softmax loss,回归损失。和是两个normalization参数,是平衡因子。
对于bounding box的回归,4个参数化坐标定义如下:
其中,x、y、w、h表示box的中心坐标以及它的宽度和高度,、、分别针对于预测的box、anchor box和实际的box(y、w、h类似)。可以认为是从一个anchor box到一个附近实际的box的bounding box回归。