三维模型表示：TL-embedding Network

object representation

一个三维模型的表示应符合两个标准：

在三维空间中是可生成的（We should be able to reconstruct objects in 3D from it.），即需要保证物体可以通过这种表示被重构出来。
在二维空间中是可预测的（We should be able to easily infer this representation from images.），即需要能够从二维图像中提取出这种对三维模型的表示。

参考论文

Learning a predictable and generative vector representation for objects

Introduction

之前的工作主要关注上述两个标准的其中一个，很少有工作将两者结合起来，这篇论文提出了一种将三维模型和二维图像结合的训练方法，作者将其称为TL-embedding network。它将三维模型与二维图像同时映射到latent space中。通过这一模型，我们既可以从二维模型中学习到三维物体的表示，也可以通过表示构建出物体的三维模型。

在TL-embedding network中，主要有两部分组成：第一部分是一个自动编码器，负责将三维的体素网格映射到64维的latent space中，并且将其解码到体素网格；第二部分是一个卷积神经网络，将二维的RGB图像映射到64维的latent space中。

TL-embedding Network

TL-embeddingNetwork

TL-embedding Network的结构如上图所示。用于训练的神经网络被称为T-embedding Network，这一网络有两种不同的输入，分别是二维的RGB图像以及三维的体素模型，最终输出为三维的体素模型，网络的代价函数设置为体素重建的损失函数以及两种64维向量表示的欧式距离的结合。用于测试的神经网络被称为L-embedding Network，在测试网络中，输入为二维的RGB图像，卷积网络将从二维图像中提取出三维模型的信息作为representation，之后的decoder将预测最终的三维体素模型。