— order: 3 —1 PaMIR: Parametric Model-Conditioned ImplicitRepresentation for Image-based Human Reconstruction时间:2020.7参考了 这篇解读 这篇PaMIR 用的还是 PIFu 的方法去预测体素化的 occupancy只是加了几何信息的先验即 SMPL 信息(又因为这已经包括了深度信息,所以直接把 PIFu 原本的𝑍(𝑋)删了),随后将 SMPL 转换为体素,并通过 3D encoder 提取 Voxel-aligned Feature𝑭𝑉𝐹(𝐶(𝑝)):3[0,1]𝐶(𝑝)=(𝑆(𝑭𝐼,𝜋(𝑝)),𝑆(𝑭𝑉,𝑝))𝑇𝑆表示双线性插值,𝑭𝐼 2D encoder 得到的图片特征,𝜋(𝑝) PIFu 一个意思(所要求的内外参应该也是?以及 mask 信息去背景应该也需要吧?),𝑭𝑉 SMPL 体素特征,𝑝 3D 两边特征提出来,concate 一下,随后直接怼到隐函数中进行重建SMPL 哪来?用当时的 SOTA 模型 GCMR GraphCMR,以后出新的 SOTA 可以替换GCMR 其实是直接出了一个 body mesh 了,直接把这个 mesh 体素化不就行了?不知道为什么后面还要转成𝛽init,𝜃initPaMIR 素化的是这个 GCMR mesh还是把它转回原始 SMPL 的参数化表达再用 SMPL 模型参数得到的 mesh 来体素化,我就不清楚由于预测出来的 SMPL ground truth SMPL 之间有差距(尤其是深度,因为图像在深度信息上天生有模糊性),作者提出了深度模糊的重建损失函数具体而言就是加一个对人体深度偏移的补偿(因为训练的时候 ground truth SMPL 是知道的,所以可以算出来)Δ𝑧𝑖=𝑗𝒩(𝑖)𝑤𝑗𝑖𝑤𝑖(𝑍(𝑣𝑗𝑣𝑗))其中𝒩(𝑖)𝑝𝑖4最近邻集合(在 posed mesh 中),根据𝑝𝑖与它们的距离算了个混合权重并归一化之所以这样做,是因为我们其实不在乎回归出的人体模型中心的绝对坐标到底在哪,只要几何曲面重建得好就行这里也就对应 ICON 作者说把 ground truth SMPL 灌给 PaMIR但依旧不能泛化到未见姿态)的那句话对于 RGB 预测,跟 PIFu 应该也差不多,只是多预测了个混合值𝛼,将该点对应图片中观察到的颜色和预测出的颜色做了混合PaMIR 也可以自然地拓展到多视角图片的预测,但比 PIFu 好的一点在于它不需要 calibration or synchronization因为它能通过SMPL 建立 correspondence across different viewsbody reference optimization inference 时,网络权重固定,作者把最终 SMPL 的顶点送入 implicit function 预测计算跟0.5的插值,把 SMPL 参数𝛽,𝜃再优化一下(因为 GCMR 预测跟真值还是有差距),鼓励最终预测和 SMPL 的预测对齐,同时用正则项惩罚𝛽,𝜃 GCMR init 预测的差异𝐵=1𝑛𝑆𝑛𝑆𝑗=1𝑞(𝐹(𝑐(𝑣𝑗))0.5)𝑞(𝑥)={|𝑥|𝑥015|𝑥|𝑥<0这里的这个 loss意思是对外部的点(占用小)施加更小的惩罚,通过这种方式,虽然 SMPL 学的是 naked body但对 looseclothing 也有一定的鲁棒性训练的时候为什么不能这样做呢?个人理解:首先,optimized-based 方法是指过拟合到某一个场景,而 learning-based 方法是学到某种通用的模式,之后还能泛化到其它场景。比如说(原始)NeRF 那种,本身就是一个场景一个网络,那用 optimized-based 当然没问题。对 PaMIR推理的时候再调优一下没啥问题,训练的时候就甭想了;其次,因为那个时候网络都还没训好,没法这样调优得益于此,作者声称 PaMIR SMPL 预测不那么敏感,在 SMPL 不准的情况下也能做后续优化(算是获得更准确的 SMPL trick吧)train 阶段:输入数据是一组(去除了背景的)RGB 图片以及对应的 meshes包括对应的 texture 和顶点的 UV map)。作者首先在自己的 training set fine-tune GCMR然后训练 single-view network之后在其上 fine-tune multi-view networkinference 阶段:只需要(去除了背景的)RGB 图片即可输出 SMPL 的参数和 reconstructed surface with texture不过为了最好的性能,都跑了一遍 body reference optimization