Tag: 3Dreconstruction

Posted Mar 15, 2026Updated Mar 15, 2026blogan hour read (About 6815 words)

引言

更新，已决定停止更新（ x

可以看到本文的 publishDate 是 4096-16-64, 实际上的 publishDate 是 2026-02-10 。
本文的初衷是一个长期更新的 3D recon 系列论文阅读，之前其实已经发过了一些该领域的论文的精读了，但是显然精读必然是不可长期持续的。因此，我想以本文——一个系列的形式记录对大多数论文的浅要阅读，当然如果有特别重要的论文，我也会单开一篇文章进行精读的。

本文的 cover image 是一个词云，记录了本文包含的工作的名称，希望它能不断地更新，成为一个 3D recon 领域的词云图谱。

CUT3R

CUT3R 的输入是视频序列，但是也可以 unordered （据作者所言训练的时候是无序训练的，但是推理的时候推理的时候是 dataloader 先计算重合率来进行初步排序。），使用一个 feed forward 网络预测 camera parameters 和点云。

cut3r

然后是一个 recurrent 模型，每一帧输入的时候添加一个 pose token 然后经过 encoder 和 decoder ，之后使用交叉注意力更新 $s_{t}$ 和 $F_{t}$ ，之后再使用不同 head 来从 $s_{t}$ 和 $F_{t}$ 中提取 output 。

显然这样缺少修正，对于长序列容易造成偏移。但是作者似乎也提到了一个 revisit 机制，在输入结束之后拿着全局的 $s$ 来做之前的预测，在 7scene 上的 acc 和 comp 是有改善的，但是 NRGBD 不怎么明显。

此外，作者也说因为数据集质量的原因，采用的 head 即使已经有一个 pose head 和 local points head ，也仍然要加入一个 world ptshead （缺乏高质量的数据集）。

$π^{3}$ "> $π^{3}$

$π^{3}$ 是一个相对来说比较有趣的东西，模型结构如下：

pi3

首先与之前的最大不同是它没有显式地选取参考帧和一个特定的 scale factor ，像 VGGT 就是先选取了一个 ref frame 然后做重建，但是重建质量受 ref 影响很大，因此 $π^{3}$ 选择了一个方案，就是一次性将所有帧全部输入，所有帧之间均平等，然后 inference 出一组相对位姿和局部点云，这样就能规避确定某一个 frame 作为坐标原点造成的不确定性问题。

但是仔细一想， $π^{3}$ 仍然不怎么好避免一个 ref 的问题，首先，在一个 batch 内部，虽然我们预测的是一组相对位姿，但是直觉上感觉仍然是把某一帧与其他帧不融洽所导致的原先的那种大的，显著的，偶然性的损失转化为了现在的看起来不明显的、高一致的、所有帧都有的系统性损失。但作者通过实验证明了损失会变小，其实这也是比较好解释的，因为原先的可能是 $T_{2}$ 依赖 $T_{1}$ ， $T_{3}$ 依赖 $T_{2}$ ……这种单向参考，而 $π^{3}$ 则进行了交叉注意力计算，仔细想来确实会更好。

其次，交叉注意力的复杂度大概是 $O (n^{2})$ ，显然对于长序列是不可接受的，作者训练和测试的时候均采用了有限个 batch 内 frame 的做法，但对于实际的长序列的话，感觉并不是很好做。如果切片进行拼接的话，显然也会面临 ref 的选择问题，但是这时候是一个 scene 之间的拼接，感觉确实会降低很多错误，如果分层做的话，也会降低误差，总之感觉似乎确实是一个不错的方案。

DA3

DA3 是字节 seed 的一个项目，可以说是力大飞砖，充分体现了工业界解决问题的规模（ x 。

da3
DA3 的主要创新点在于：

更简单的模型，作者的意思是 VGGT 即使结构很简单，但是由于其在 DINO 后接 AA 层的操作，因为 AA layers 是新训练的，因此过程中可能数据的利用率不高。而 DA3 选择了只利用 DINO 这一个方案，通过在 DINO 的 $L_{g}$ 层中变形数据完成了 AA 层所做的事情。因此， DA3 的几乎所有参数都是预训练过的，而 vggt 则有 $\frac{2}{3}$ 的参数是从头开始训的，这是 DA3 的简洁之处。
预测任务的简洁性。相比于 VGGT 通过不同 head 得出了不同结果， DA3 则使用了一个更新的表达方式： Ray-depth 表达，具体来说就是使用一个 Dual head 来分别输出一个像素的深度信息和光心与之相连的射线的信息，从而天然地同时包含了点云和 pose 信息，而且在设计 loss 的时候是可以加入一致性信息的。相比与 vggt ，这似乎加强了一致性，也提高了数据利用率，感觉 pose 和 pts3d 反而是不容易加入一致性的，作者做的消融实验也证实了这一点。
使用 teacher 标定数据，首先训了一个 teacher 模型用于给深度不好的 frame 重新生成 depth ，之后依照这个 depths 训练。感觉最终效果也很依赖这个 teacher 模型。

但是， DA3 的弊端也有一些，他的效果确实非常好，但是阅读之后才发现他是用 128 x H100 训练的，这个规模确实有点难以复现。小算力情况下上面两条结论似乎很有帮助，可以尝试。

MapAnything

首先是 Meta 的项目，和 VGGT 难道不构成什么竞争关系嘛（）

主要创新点在于他的输入很有意思，不同于 VGGT 还有以往的重建工作只输入图像序列， MapAnything 支持多种多样的输入，对于每一个输入都会通过一个 encoder 最后对齐到 DINOv2 输出的 image token 上，然后就是正常处理的流程，不过似乎它多加了一个 scale token ，用于预测 scale 信息。

mapanything

感觉其利用了 nlp 里面的多模态，证明了给定不同类型的输入其预测的准确性与相应的专家模型性能相似，这是很有价值的，因为他减少了很多训练量（虽然也是在 64xH200 上训了 10 天）。

另外一个比较有趣的地方在于，他最后的点云数据不是直接输出的，而是由 depth ， ray ， pose 联合输出，这解耦了 VGGT 的冗余预测模式，而且在设计 loss 的时候能保持更好的一致性，感觉这个跟 DA3 输出 Depth-ray 的做法还是很像的。

不过其缺点也非常明显，首先对于长序列情况下，其仍然没有摆脱 $O (n^{2})$ 的处理复杂度；其次模型是 offline 的，不过感觉各有各的应用场景；最后就是推理速度和显存占用，推理速度在 100frame 的时候就已经接近 10s ，而且这时的显存占用也已经来到了 65G 左右，即使采用了作者提出的 Mem Efficent 策略，即在 dpt 头采用串行计算策略也是 20G 左右，似乎有点太大了（ x

此外，作者表示了在输入过程中模型无法对噪声数据进行处理，也就是说潜在的噪声可能会污染整个 transformer 的内容，另外融合时机是在 encoder 之后进行，而且是简单的相加，可能有更精细的融合方式。

AnySplat

anysplat

与之前讲过的大多数点云重建的工作不同， AnySplat 是 3dgs 重建。具体来讲就是他在 vggt 的基础上进行改造， backbone 与 vggt 相同，但其 head 则是一个 gaussian head, 一个 depth head ，还有一个 Camera head 。然后通过一个可微体素化将原本稠密的高斯球聚合到一起，训练的时候则监督：

每一帧位置的 rgb loss
depth 的深度与 gaussian depth 的差异损失
相机参数与 vggt 预测出的损失
模型预测深度与 vggt 之间的深度差异

首先， 2 的 loss 保证了其几何一致性，也就是让不同视角的深度尽量保持一致，可以避免分层现象。此外，文章作者说他们实现了一个 Differentiable Voxelization ，可以有效解决生成的稠密高斯球产生的复杂度问题。

总体来说，这是一个高度模仿 vggt 的工作，只不过换了一下 head 和输出形式，其余部分都差不多。此外为 offline 的重建，看上去速度似乎还可以，但是同样面临长序列问题。另外，固定世界坐标系为第一张图片，去监督每一个绝对位姿是否正确，似乎也是存在 $π^{3}$ 所述的归纳偏置问题的。

RayZer

rayzer

令人耳目一新的自监督模型，训练过程只需要图片而不需要 gt 的 pose 和内参，训练过程大概是这样的：

首先输入 $K$ 张图片，将其分为 $L_{a}$ 和 $L_{b}$ 两个集合。
然后模型通过 Camera Estimator 模块，预测出 pose 和 intrinsics 。
之后对于 $L_{a}$ ，模型根据其对应的预测出来的 $R_{a}$ 和本身的图片输入，生成场景的 token $z$ .
然后对于 $L_{b}$ ，模型选择通过 $z$ 和 $R_{b}$ $L_{b}$ 预测出 $\hat{L}_{b}$ 然后监督 $\hat{L}_{b}$ 与 $L_{b}$ 之间的损失，然后更新所有的值。

因此，推理时的大致步骤大概就是先把场景的已知几张图片输入得到 $z$ ，之后针对一个特定的 pose ，计算一个光线图，之后输入到 rendering decoder 里得到在这个特定的 pose 下的 rgb 图片。

感觉和 nerf 好像，都是一个隐式的表达整个场景，不过不同的是 RayZer 是一个更直接的模型，图里的三个模块每个都是 8 层 naive transformer ， loss 仅由最后的 rgbloss 和 LPIPS loss 决定，感觉挺聪明的。不过感觉 rendering 部分采用的表现形式——类 raymap 形式似乎真的挺好用的。

另外，值得注意的是第一部分，在预测 pose 和 intrinsics 时，直接选取了中间帧作为参考帧，使得模型能跨越更长的距离。此外，如果说我们在第一部分就引入 $z$ ，能否实现定位功能？不过作者似乎做了消融实验，发现在训练的时候，从图像特征中提取几何关系比从一个未成形的 $z$ 中提取容易得多。但是我觉着可以在 rendering 部分再添加一个 decoder 用于定位。

另外，这个模型完全打败了 LVSM （一个有监督的模型），感觉是一个非常惊艳的工作，看项目主页的 demo 视频感觉真的很不错啊。

Spa3R

spa3r

首先是一个自监督的模型，模型的 backbone 设计的有点复杂：

我们给出一个场景的 views ，然后将 views 分为 context view 和 target view ，首先将所有 views 通过一个改造过的 vggt （似乎是只引入了 head 之前的部分），改造内容是在 context Views 的 AA 层那里把 Target Views 给 mask 掉，然后得到 Context Views 的 feature $F_{c}$ 和 Target Views 的 camera token 和 Feature $F_{t}$ ，之后，数据流向两条路径：

Context views ： $F_{c}$ 与一组可学习的 $q$ 通往 Encoder ，然后得到 $z$ 作为空间的隐式表征。
Target views ： camera tokens 通过 camera head 生成 camera embeds $r$ ，然后与 $z$ 一起输入到 Decoder 里生成对 Target views 的预测过的 feature $\hat{F}_{t}$ ，然后将得到的预测 feature 与 $F_{t}$ 进行监督得到 loss 。

推理的阶段我们就只看 Context Views 得到的 $z$ ，将 $z$ 与 qwen2.5 vl 得到的 $F_{V}$ 输入到一个Adapter里，然后将这个 adapter 和 text prompt 输入到 llm 里得到最终结果。

首先，肉眼可见这项工作把大量的其他工作缝合到了一起， Target View 阶段用了 DINOv3 和 VGGT ， $z$ 的后续处理用到了 qwen2.5 vl ，但是这篇文章叫 Spa3R 啊， Dust3R 被放到哪了呢？然后可训练的内容只有 Encoder 和 Decoder ，仅 6 层 Transformer ，而且通过两个 $F_{t}$ 作为 loss 进行训练，训练结束之后即丢弃 Decoder ，保留训好的 Encoder 和 q 。然后后续还有一个针对 Adapter 的一个微调，让其学到怎么生成一个合理的融合 $F_{in p u t}$ 。

模型做了几个消融实验：

Target Views 阶段作者证明了同时使用 VGGT 和 DINO 会更好（包含语义和空间信息），这是一个比较显然的结论。
提取出一个场景 $z$ 表征是一个更好的手段，相对于现有的几个类似于 VG-LLM 简单把所有特征输入到 llm 里效果更好（但是只提升了 3 个点，感觉有点低于预期，考虑到第二阶段训练只进行了 1 个 epoch ，有没有可能是训练量不够？我也是第一次读 VLM 相关的文章（），不过看具体的比分， Multi-Choice 涨分了，而 Numerical 几乎没变，确实是 make sense 的）。
pose embedding 的影响， PRoPE 比 plucker 更好。
Mask Ratio ，这也是一个比较显然的消融实验。
Adapter 使用提高了点数，比较 make sense 。

模型只在 ScanNet 和 ScanNetpp 上进行了 pre train ，使用了 8 张 5090 进行训练，在 VSI-Bench 上达到了 58.6 的水平，超过了之前的大部分 model ，查看现在的 VSI-Bench Leaderboard ，其性能也是处于前列的（不过论文里的表格好像有些数据有点不对？可能有更新吧）。算是为领域开了一个新坑（），自监督看上去也不错（）。

看上去这篇文章正在投 CVPR ，是笔者写阅读笔记的两天前才登上了 arxiv ，也不知道中没中，方法是很有趣

Spann3R

结构很复杂，首先大部分模型权重继承自 Dust3r ，然后模型的 backbone 大致如下：

spann3r

预编码 ：首先将一帧输入到 ViT Encoder 得到一个 $f_{t}^{I}$ ，此时我们手上还有一个上一帧的 $f_{t - 1}^{Q}$ 。
查询记忆： 根据 $f_{t - 1}^{Q}$ ，我们可以从历史记忆中查询出一个 $f_{t - 1}^{G}$ 来作为下一步的输入。
主要推理部分： 之后我们将这两个 feature 输入到 Target Decoder 和 Reference Decoder ，这两个 Decoder 会做 self attention 和 Cross attention 然后分别得到 $f_{t}^{H ’}$ 和 $f_{t - 1}^{H}$
Heads ： 对于 $f_{t}^{H ’}$ ，在推理阶段我们会使用一个 query head 来提取出 $f_{t}^{Q}$ ，然而在训练阶段我们也会加入一个 head 将其转化为点云和置信度来监督训练；对于 $f_{t - 1}^{H}$ ，我们会通过一个 reference head 将其重建出点云和置信度。
记忆： 之后，根据 $f_{t - 1}^{H}$ 和 $f_{t - 1}^{I}$ ，我们将其通过一个 Memory encoder + MLP head 生成一个 $f_{t - 1}^{K}$ ，然后根据这个和点云通过一个 Memory Encoder 生成 $f_{t - 1}^{V}$ ，之后 $f_{t - 1}^{K}$ 会对已有记忆去重，如果工作记忆已满剩下的就会进长期记忆然后做进一步处理。

这是一篇 24 年的文章了，主要创新点就在于他改良了 Dust3R ，使得可以对多个图片输出一个一致的全局坐标系下的点云，此外使用记忆方法，分层处理记忆。

但很显然的是，虽然该方法加入了记忆，但是记忆看上去也是近期记忆的方案，客观上因此而存在长距离漂移的现象，此外，如果遇到 reloop 现象，记忆是否能健康提取也会是一个比较大的问题。

做的消融实验大致有这几个：

关于记忆方面的消融实验，去掉长期记忆会引起很大的漂移现象，而注意力不截断的话也会引发噪声的干扰
关于长期记忆应该取多大：作者发现 1000-2000token 的过程中漂移得到极大修正，但是 4000+之后就不会有明显的提升，因此最后作者选择了 4000.
Dust3R 采用了 exp confidence function ，本文将其改为了 sigmoid ，事实证明是有所改善的。

Flow4R

一个局限性很大的三维重建追踪方案，不过在表现形式上很有新意。

模型的 backbone 很优雅，首先接收两张图片作为输入，通过共享权重和 cross attention 的两个对称 encoder-ecoder-head 结构得到每张图的 $P, F, W, C$ 其中， $P$ 是相机坐标系下的点云， $F$ 是一个场景流，描述每一个像素如何从本张图片移动到下一张点云，之后还有一个 $W$ 指示哪个像素在求解 pose 的时候最可靠，最后的 $C$ 是全局的置信度。

flow4r

得到这些元素之后，可以首先将 pose 通过最小二乘法求出：
$\hat{T} = ar g min_{T \in SE (3)} \sum_{i = 1}^{H W} W^{i} ∣∣ P_{v t}^{i} - T P^{i} ∣ ∣_{2}$

$P_{v t}$ 是由 $P + F$ 得到的，得到 pose 之后就可以做位姿流和场景流的分解，然后很多下游任务就可以进行处理了。

针对于长序列数据，作者提出了将第 1 张 frame 作为锚点，后续的每一张都与之输入处理，好处是可以通过 L2 norm 来归一化尺度，但是坏处也非常明显，一是稍微长一点的序列，就会出现遮挡现象，模型目前来看没有一种很好的应对方式；二是极其依赖第一张 frame 的质量，鲁棒性不算太好。观察其论文里呈现的 demo ，看起来也通常是对一个角落 or 一个相似视角区域做的重建，完整场景重建效果存疑。

此外，作者竟然只做了一个消融实验（能中吗？）对比了三种不同的网络预测和监督变体：

预测场景流 $F$ ，并用真实的 $F$ 进行损失监督。
预测场景流 $F$ ，但用目标帧的真实 3D 点位置 $\overline{P}_{v t}$ 进行监督。
直接预测目标帧的 3D 点位置 $P_{v t}$ ，并用真实的 $P_{v t}$ 监督（场景流则通过简单的减法推导： $F = P_{v t} - P$ ）。

消融结果：实验证明，直接预测并监督 $P_{v t}$ 的性能最佳 。因此后来直接预测的实际上是 $P = P, P_{v t}, W, C$

总体来说，这篇工作证明了一点，可以通过引入流的方式来完成 Dust3R 这种结构从静态到动态的拓展，但确实局限性很大。

这项工作似乎还没有开源（）

AMB3R

把三维体素引入到了重建中，使得模型能够真正地从空间角度来考虑重建任务。简而言之就是之前的重建采用的 ViT 将图像分为一个一个 patch 造成隐式几何中缺乏空间紧凑性约束，于是论文作者想了一个办法把空间紧凑性加入到了 backbone 当中。

amb3r

大致的 backbone 分为前端和后端，其中，前端继承了 VGGT 的网络和参数，一张图片进入之后会经过 Encoder 得到一个初步的 feature ，然后数据的主题是向 decoder 移动，但是这部分 feature 也会使用一个 scale head 预测一个绝对尺度。

然后，进入 decoder 的 feature 会对 keyframes 做 cross attention ，这里的 keyframe 就可以理解为场景的隐式表达，经过该过程之后， decoder 就会输出一个 pointmap 和一个 confidence ，在推理阶段，之后会有一个门控机制：如果置信度足够高，那就直接进入下一阶段，反之则会将点云和 feature 变为体素，然后通过一个 point transformer 优化该体素的 feature ，之后再会逆变换变为 2Dfeature ，之后我们会将该 feature 注入到前端的 decoder 中，重新拿到一个高级的点云。

然后我们拿到了当前帧的点云以及物理尺度，然后系统会将该结构放大/缩小，然后根据 keyframes 和 VGGT 预测出的 pose 将该结构拼接到大的全局点云中，最后我们会评测该点云是否可以成为 keyframes ，然后将其处理掉。

将体素引入到点云重建里很厉害，作者做的几个消融实验：

移除了基于 sparse voxel 的后端，转而使用一个 2D 做 alternate attention 的后端，发现精度不如之前。
去除了零卷积机制，发现模型短时间内根本就未收敛。
在算 loss 的时候去除了 scale 发现效果变差，也就是说模型需要去专注思考几何结构。这是在训练阶段做的事情

这篇文章的训练成本非常非常的低，依赖于一个已经训好的 VGGT ，只训练了微调点云特征的一个 point Transformer 和一堆 head ，感觉非常有启发性非常厉害，同时也中了 CVPR2026 ，符合预期（似乎是 Spann3R 的续作）

VGGT-SLAM

我说这是一篇数学论文，文中没有训练任何模型，仅仅是介绍了一种局部点云拼合办法。

vggt-slam

顾名思义，这篇工作基于 VGGT 输出的点云和 pose ，作者认为 VGGT 预测出 pose 和局部点云之后直接进行 Sim(3)变化为全局点云是有问题的，主要灵感来自于传统 CV 里面的双目立体视觉：相机之间的单应性矩阵或者说是本征矩阵并非仅仅包含了 pose 中进行的旋转、平移，更有一些拉伸，透视等等等。具体来讲就是 VGGT 预测出的点云深度包含了相机的射影形变，直接使用 Sim(3)方法来还原是不准确的。

因此，作者转而使用了 SL(4)进行点云的对齐，具体来讲，当 VGGT 得出了点云和 pose 之后，会进行以下几个操作：

对于一个子地图里的帧，作者选择相信 VGGT 的质量，作者在代码里设置了一个 submap_size 参数用于控制子地图的大小。
对于不同子地图之间，因为我们想得到一个在不同坐标系下共享的三维点，所以作者这里采用了一个很聪明的办法，将上一个子地图的最后一帧重复输入到下一个子地图里，这样 VGGT 的输出就包含了相同图片在不同坐标系下的点云，由此可以建立点与点之间的对应关系。
之后根据传统的一些算法，可以计算两个子地图之间的 SL(4)矩阵，到这里第一步就算完成了
下一个步骤就是全局对齐，作者也写得太数学了吧：
具体来讲，作者构建了一个基于最大后验估计的非线性因子图，目标是最小化所有子地图之间的相对单应性误差：

$\hat{H}=argmin_{H\in SL(4)}\sum_{(i,j)\in\mathcal{L}}||Log(H_{i}^{-1}H_{j}(H_{j}^{i})^{-1})||{\Omega{ij}^{H}}^{2}$
然后引入各种优化器，这里我的数学太烂了（ x ）根本看不懂，只知道他是需要迭代优化的。
嗯嗯，所以这样我们就可以得到一个后端，对于每一个子地图，都给出了一个将其变换到潜在全局坐标系下的 SL(4)矩阵，从而消除了 Sim(3)变换带来的问题。

此外，文章还提出了一种 reloop 机制，就是说在一个子地图待输入的时候，系统会利用 SALAD 描述子去寻找历史子地图中是否有相似的图片，若有，系统就会选择将那张图片作为共享帧，我们这时候就会有多个相对的信息。

总体来说，这篇工作就是提供了一个偏传统的对齐方法，比较优雅，但是很显然缺点也很明显，首先对于单个子地图，该工作完全信任 VGGT 的输出结果，缺乏鲁棒性；其次，其得出对齐是通过迭代优化得出，相对于直接拼接会慢上很多，另外有太多的查询操作（如 reloop ），感觉复杂度还是有点高的。

不过可以从上图看到，他确实改善了点云拼接时可能产生的分层的质量。但是，查看其 github 里的 issue ，似乎稳定性存疑：

Due to potential randomness in our approach caused by RANSAC, we report the average performance over five runs, which have a low spread (small standard deviation) as shown in Sec. 5.5.

而且那个 issue 到最后作者都没有回答，感觉有点尴尬（ x

Posted Nov 29, 2025Updated Nov 29, 2025blog15 minutes read (About 2249 words)

SF3D 论文阅读记录

引言

mesh construction 是我刚刚开始了解的一个方向, 今天读了SF3D: Scene Fusion for 3D Reconstruction with Transformers这篇论文, 本文笔记记录用于后续翻阅学习。

读完这篇论文之后, 感觉 mesh reconstruction 与 point cloud reconstruction 还是有很大区别的, 尤其是这篇文章中引入的几个新的 mesh 专有的 module, 感觉要比 point cloud reconstruction 更加复杂一些.OK,
废话不多说, 直接进入正题.

Introduction

作者一上来就提出了几个 issue:
SF3D提出的问题

Light bake-in: 现有的模型将光照信息直接 bake 到 texture 里, 使得生成的 mesh 难以利用, 而在 SF3D 中, 作者提出了使用 explicit illumination 和一个不同的使用 Spherical Gaussian 的 shading model 来解决这个问题(如上图第一行所示).
Vertex Coloring: 现有的工作中, 生成的 vertex 的数量过多, 使得性能开销很大. 作者认为一个关键问题就是 UV unwrapping 的额外处理时间, 于是作者提出了一种 highly parallelizable fast box projection-based UV
unwrapping method 来解决这个问题(如上图第二行所示), 这使得时间从 10-30s 减少到了 0.5s, 而且从图上来看, 细节比 baseline 的 TripoSR 的效果更好.
Marching Cube Artifacts: feed-forward network 通常生成类似与 Triplane NeRFs 的体素网格, 然后使用 marching cube 来提取 mesh, 但是这种方法会引入一些 artifacts,
作者提出了使用一个对高分辨率 Triplane 更有效的 architecture, 并且使用 DMTet 来对生成的 vetex diplacement 和 normal map 生成最终的 mesh, 这样可以有效减少 marching cube 引入的 artifacts(如上图第三行所示).
Lack of Material Properties: 现有的工作生成的 mesh 在不同光照下都会看起来 dull, 这是因为缺乏 explicit 的 material properties.为解决这个问题, 作者预测了 non-spartially varying material properties
(如上图第 4, 5 行所示).

通过以上的改进, SF3D 可以从单张图像生成高质量的 mesh, 且生成的 3D 资产体积小(1 MB)并且可以在 0.5s 内生成.

Method

为了解决上面提到的问题, 作者提出了 SF3D.

首先, SF3D 是在 TripoSR 的基础上进行改进的. TripoSR 训练了一个能够生成 Triplane 3D representation 的 transformer. 它使用 DINO encode image, 然后把 token 送入 transformer 中, transformer 输出一个 $64 \times 64$ 分辨率的
triplane, 然后 triplane feature 之后被 decode 为 color 和渲染成标准 NeRF. TripoSR 只学到了 colors 并且不能处理反射等材质属性.

Overview

SF3D 的整体架构如下图所示:
SF3D架构图
可以看到, SF3D 由 5 个主要模块组成:

Enhanced Transformer: 用于预测高分辨率的 triplane feature.
Merterial Estimation: 用于预测材质属性.
Illumination Modeling: 处理光照问题.
Mesh extraction and refinement: 用于从 triplane 中提取 mesh 并进行细化.
UV Unwrapping and Export: 产生 low-poly mesh 和高分辨率 texture map.

Enhanced Transformer

为了生成高分辨率的 triplane feature, 作者对 TripoSR 的 transformer 进行了改进, 主要有以下几点:

首先, 作者将 DINO 替换成了 DINOv2, 这样可以获得更好的 image feature.
其次, 作者对 triplane 导致的 aliasing 问题进行了讨论

如上图所示, 低分辨率的 triplane 会导致 aliasing 问题, 但是简单地提高 triplane 的分辨率会导致模型更复杂, 作者说, 他从 PointInfinity 中获得启发,
(PointInfinity 提供了一个不需要计算 triplane 的 self-attention 的架构), 因此, 作者将分辨率提高到 $96 \times 96$ , 从而降低了走样.

Material Estimation

SF3D 输出了 metallic 和 roughness 两个材质属性. 论文中提到, 理想状况下, 人们希望材质属性是 spatially varying 的, 但是这样并不现实. 于是作者简化了这个问题, 为整个物体
预测这两个属性, 作者提到虽然这种非空间变化的材质属性通常适用于同质物体, 但是实际上能显著改善渲染效果.

为了实现这个预测, 作者引入了一个 Material net, 首先将图像通过 CLIP encoder 编码, 然后通过 2 个 MLP 预测 metallic 和 roughness.

Illumination Modeling

作者提出要显式 estimating 光照, 如果不这样做的话, 输出的 RGB 颜色会将光照信息 bake 进去, 使得生成的 mesh 难以利用. 为此, 作者提出了一个 Light net, estimate SG 光照. 因为 triplane encode 了场景的几何信息, 所以可以能够推断光照变化.

具体实现上, 作者使用 Transformer 输出的 $96 \times 96$ 分辨率的 triplane 作为输入, 使其通过 2 个 CNN 层, 接着进行 max pool,
最后通过一个 MLP 。 Light Net 输出 24 个 SG 的 grayscale amplitude values, 并使用 Softplus 以确保值为正数。这些 SG 的轴和锐度值保持固定, 其设置旨在覆盖整个球体。
利用这些振幅值, 作者实施了一种类似于 NeRD [4] 中使用的 deferred physically based rendering 方法.

此外, 作者的方法在训练阶段还引入了一个 lighting demodulation loss $L_{Demod}$ , 该损失函数旨在确保：一个具有 entirely white albedo 的物体上的光照,
能与输入图像的亮度紧密匹配。 lighting demodulation loss 强制学习到的光照与训练数据中观察到的光照条件保持一致.
这可以被视为一种 bias, 用于解决 appearance 和 shading 之间的 ambiguity.

为了从 triplane 中提取 mesh, 作者使用了 DMTet. 作者提出了两个 MLP head 来预测 vertex offsets 和 vertex normals. 这里受 MeshLRM 启发, 作者也单独使用了分离的 decoder MLP 来辅助这两个 head 的训练.
作者发现, vertex offset 能够反走样, 而 vertex normal 则能提升细节表现. 鉴于一开始 normal map 的预测不会太准确, 于是作者使用了 slerp 来稳定训练, 这是在一开始的 5K step 里发生.

然后引入了各种 loss 来训练这个 mesh extraction and refinement 模块:

$$\mathcal{L}_{\text{Nrmconsistency}}$$: 法线一致性损失
$$\mathcal{L}_{\text{Laplacian}}$$: Laplacian 平滑损失
$$\mathcal{L}_{\text{Offset}} = v_o^2$$: 顶点偏移正则化
$$\mathcal{L}_{\text{Nrmrepl}} = 1 - n \cdot \hat{n}$$: 法线复制损失
$$\mathcal{L}_{\text{Nrmsmooth}} = (\hat{n}(x) - \hat{n}(x + \epsilon))^2$$: 法线平滑损失

UV Unwrapping and Export

SF3D 模型的最终阶段是一个高效的导出流水线, 关键挑战在于传统 UV 展开的计算密集性, 这不符合快速生成的要求. 为此, 作者提出了一个基于立方体投影的展开方法. 该方法利用网格面法线独立决定投影方向, 实现了可并行化的展开过程.
具体实现上, 该方法执行 2D 三角形-三角形相交测试来处理 UV 图集中的遮挡, 并根据深度和接近度对相交面进行重新分配. 同时, 通过遵循径向 $z$ 切线方向旋转 UV 岛以最小化阴影接缝. 接着, 通过 UV 展开将世界坐标和占用率烘焙到 UV 图集上
, 用于从 triplane 中查询反照率和表面法线. 为防止接缝伪影, 作者采用了一个迭代过程, 使用 $3 \times 3$ 部分卷积和最大池化来扩展 UV 边界, 确保纹理平滑向外混合.

之后, 作者将所有文件作为 glb 格式导出.

Overall Training and Loss Functions

由于直接在网格渲染任务上训练方法会产生不满意的结果, 作者首先在 NeRF 任务上进行了预训练. 完成预训练后, 模型过渡到网格训练,
将 NeRF 渲染替换为 differentiable mesh rendering 和基于 SG 的着色.

分步的损失函数如下所示: $\begin{split}\mathcal{L}{\rm render}&=\underbrace{ \lambda{\rm MSE}}{ 1 0}\mathcal{L}{\rm MSE}+\underbrace{ \lambda_{\rm LPIPS}}{ 2}\mathcal{L}{\rm LPIPS}+\underbrace{\lambda_{ \rm Mask}}{ 1 0}\mathcal{L}{\rm Mask}\ \mathcal{L}{\rm mesh}&=\underbrace{\lambda{\rm Laplacian }}{ 0.01}\mathcal{L}{\rm Laplacian}+\underbrace{\lambda_{\rm Nrm Consistency}}{ 0.001}\mathcal{L}{\rm Nrm consistency}+\underbrace{\lambda_{\rm Offset}}{ 0.1}\mathcal{L}{\rm Offset}\ \mathcal{L}{\rm shading}&=\underbrace{\lambda{\rm Nrm repl}}{ 0.2}\mathcal{L}{\rm Nrm repl}\underbrace{\lambda_{\rm Nrm smooth}}{ 0.02}\mathcal{L}{\rm Nrm smooth}+\underbrace{\lambda_{\rm Demod}}{ 0.01}\mathcal{L}{\rm Demod}\end{split}$
总损失为: $L = L < e m > render + L < / e m > mesh + L_{shading}$

Results

作者在 GSO 和 OminiObject3D 数据集上对 SF3D 进行了评估. 结果如下图所示:
结果图
可以看到, SF3D 在视觉效果上明显优于其他方法, 并且在数值指标上也有显著提升.

在速度方面, 确实如作者所说, SF3D 的 UV 展开非常快, 只需 0.5s, 远快于其他方法的 10-30s.
速度对比

Conclusion

因此, 我似乎大致总结完了 SF3D 的主要结构, 从一张图像生成高质量的 mesh, 能不能对视频进行这样的操作呢? 我们看到这个任务里实际上用了大量生成的先验知识, 我在想一个完全
基于 image 的 3D reconstruction 方法, 能不能做到不依赖于这些先验知识?

Posted Nov 01, 2025Updated Nov 01, 2025blog14 minutes read (About 2168 words)

SLAM Former 阅读

引言

最近几天读了SLAM-Former: Putting SLAM into One Transformer这篇很近很近的工作，本文笔记记录用于后续翻阅学习

首先， SLAM-Former 与之前读到的所有论文相似，都是致力于从 RGB 图像序列中恢复三维场景结构和相机位姿等属性的工作。但是与之前的工作（包含一个冗长复杂的 pipeline ）不同，
SLAM-Former 对已有的 transformer 架构进行了大胆的改进，使之更适合进行重建任务，并在实验中得到了 competitive 的结果。

模型结构

SLAM-Former架构图

据作者所述， SLAM-Former 的主要 pipeline 由 frontend 和 backend 两部分组成，至于模型的 backbone ， SLAM-Former 建立在一个 Transformer 架构之上，
而这个 Transformer aggregate 了 intraframe 和 interframe 的信息，并使用 task specific heads 预测不同的三维属性。
值得注意的是，这个 Transformer 的输入与 $π^{3}$ 类似，对所有的输入的 image token 共享一个相同的 register tokens
从而使模型不依赖于一个不稳定的 reference frame 。

模型的 backbone 包含了 $L$ 层组合了 intra-frame attention 和 inter-frame attention
来联合捕捉图像内容和图像之间的关系。

此外， Front end 部分负责增量式的逐帧重建， back end 负责全局的点云对齐和相机优化，他们共享一个
Transformer backbone 。

Front end

图中大部分内容都是 front end 的处理细节，当一个新的 frame 输入时， frontend 首先会
决定其是否为 keyframe ，如果是的话，则会进行进一步处理。

当给定一个 frame sequence 时， frontend 将每一个 frame 映射到一个 map token 集合中： $F < e m > t = f < / e m > f n (I < e m > t) < / e m > C_{k} < e m > K \in S$
这里, ${C_k}{K\in S}$表示之前 keyframe 的KV cache，
， $S$ 代表着 keyframe 的索引集合， $F_{t}$ 是当前 frame 的 map token, 作为该 frame 的
一个隐式神经表示。同时新的 KV cache 也通过$C_t = Cache(f(\mathbb{F}t))$产生，
也会视情况被扩充到${C_k}{K\in S}$中。

Keyframe detection

在上一步中我们已经对当前帧 generated 了 map token ，接下来我们需要决定是否为 keyframe.

作者采用了 pose head 来预测当前帧的 pose ： $g_{t} = h_{p ose} (F_{t})$

当当前 frame 的 relative pose 与最近的 keyframe 的 pose 之间的差异大于一个阈值时，
则将当前 frame 标记为 keyframe 。

但是作者在论文里又表明，在检测 frame 是否为 keyframe 时，他们并没有依赖 KV cache
, 而是直接应用了 $f_{f n} (I_{k_{p re v}}, T_{t})$ 来检测，就相当于之前的 KV cache 是将该图片
与所有的 keyframe 进行 attention 计算，而这里则是只与最近的 keyframe 进行 attention 计算。
这样增加了效率并且避免了选取一个特定的 reference frame 。（这里似乎我没怎么懂跟特定的 reference frame 有什么关系）

Front end tracking and mapping

接着上一步，如果一个新的 frame 已经被认为是一个 keyframe ，我们就可以重新利用全部的 KV cache 来重新
计算他的 map token, 并更新 M, S.

好了， front end 到这里差不多结束了，作者说 frontend 只依赖于过去的 keyframe ，
使得其适合于 online 的 tracking ，然而，这种处理顺序会导致误差累积和局部不一致，
为了解决这一问题，作者引入了一个 back end 模块来进行 global refinement.

Backend

Backend 的主要任务是 refine 所有的 frame 来达到全局的一致性。传统的
SLAM 系统通常会使用 loop closure 和 bundle adjustment 来实现这一点，
但是这些方法都非常的 costly, 作为对比，作者使用了一个 transformer-based 的
back end 来进行全局的优化。

作者认为这个设计的有效性在于 backend transformer 内部的 full attention 机制，
他的全局感受野使得模型能够完成误差纠正和结构一致性。

此外，为了继承 backend refinement 的优势， frontend 和 backend 共享了 KV cache ，
使得 frontend 能够受益于 backend 的全局优化。

Training Strategy

与以往的一些论文不同， SLAM-Former 的创新点不止在于模型架构，也在于一些训练策略。

作者的目标是使一个 transformer 同时胜任 frontend 和 backend 的任务，为了达到这个目标，
作者用三种模式联合训练，每一个模式都对应着不同的输入输出对。

训练模式图

Training Frontend

Frontend 用了一个 causal mask 来确保每一个 frame 只能访问之前的 keyframe 。

然而，纯净的使用 causal mask 会自动的将第一帧作为 reference frame ，
作者又注意到党对两帧或更多帧进行联合操作时，没有单一的 refernce frame,
这避免了后续帧需要与 reference frame pose 相似的要求。

因此，作者对前两帧使用了 full attention ，并同时对所有后续 frame 使用 causal mask,
在这种情况下， inference 时， keyframe detection 将最后一帧关键帧和当前的输入帧进行处理，
tracking and mapping 时，前两个 keyframe 则会联合处理决定全局坐标。

作者的原文是：

For tracking and mapping, the
first two keyframes are jointly processed to determine the
global coordinate.

取前两帧的做法与之前的 tracking and mapping 部分提到的 use full KV cache 不符，
我感觉不怎么理解。

Training Frontend with Backend Cooperation

为了在 frontend 和 backend 之间建立联系，作者使用 maxed attention 来模拟 backend 和
cache sharing 的过程。

具体来说，采用混合注意力在一个统一的正向传播中同时完成地图精炼（后端/全注意力）和新数据处理，
并且前端的 casual attention 并非独立工作，而是以 KV cache 为条件，实现了高效且信息流一致的前端-后端协作，确保前端的实时处理结果能够立即对齐到后端修正后的全局结构。

$F = f_{f n} (I) < e m > C < / e m > M$

woc 这什么花式操作啊

Training Backend

作者最后使用 full attention 来训练 backend transformer ，

Joint Training

在所有的三种模式中，三维属性均是由 task specific heads 预测的：

$P^{<} e m >, Σ^{<} / e m >, g^{*} = h (F) .$

但值得注意的是，并不像其他的工作一样， SLAM-Former 只预测每一帧的 local
pointmap 来避免设定一个特定的世界坐标系的需求，这倒是与 $π^{3}$ 非常相似。

剩下的 loss 函数都比较常规。
这三种模式都会在一个 batch 中共享权重依次训练。

Pipeline

在图片和叙述过程中， pipeline 已经是显而易见的，于是我便不再赘述。

Experimental Setup

本模型有 36 层 framewise 和 global attention 相结合的 transformer layer, 训了 10 个
epoch, 在 32 个 A100 上训练了 11 小时。可以可以。

Results

模型在 pose ， tracking 和 reconstruction 等任务上都达到了很好的指标。数据冗长不再多说。
值得一提的是作者对 Front end 和 back end 的联系的理解。

back end assist front end 无疑是显而易见的，但是作者还发现 back end 同样也
benefit from front end, 作者解释了是因为 back end 使用了来自于 frontend 的
implicit 的顺序信息，从而使得 back end 能够更好地理解 frame 之间的关系。（迷）

总结

总之， SLAM-Former 通过对 transformer 架构的改进和训练策略的设计，
成功地实现了一个统一的模型来处理 SLAM 任务。

但 SLAM-Former 仍然存在一些局限性，比如说作者用 full attention 来替代传统的 loop
closure 和 bundle adjustment ，受限于 full attention 的计算复杂度，模型难以处理非常长的序列，
其次， frontend 不支持一个 local 的 inference ，因为在 inference 之前需要将所有的 KV cache 输入到 frontend 中。

此外，文章中没有提到的是，我去看他们的 demo ，发现重建结果有很明显的分块化现象，目前不知是否与 transformer 的架构有关。

此文撰写的时候， SLAM-Former 的代码尚未开源，期待后续的代码发布。

Posted Oct 31, 2025Updated Oct 31, 2025blog12 minutes read (About 1868 words)

重返vggt

引言

这是本人在学了一些基础知识并做了一些实验之后, 察觉到之前对于一些经典论文的阅读并不充分, 于是决定重新阅读VGGT一文, 并写下这篇文章, 以供后续查阅.

首先, VGGT 是一个完全的前馈式神经网络用于多目重建任务, 通过 look into 他的代码, 可以看到基本上是没有什么 pipeline 的, 直接将图片输入网络, 然后输出各种三维属性, 并在作者的宣称下, 他们所预测的多个指标在存在 BA 的前提下
均达到
子领域的 SOTA 水平, 这一点非常厉害.

模型结构

VGGT 的 backbone 是一个标准的 transformer 结构, 首先接受大量图片作为输入, 首先通过一个 DINO 提取了分块的 feature, 然后将这些 feature 通过一个主体网络结构(包含了 Alternating frame-wise layer 和 global attention layer)
进行处理, 最后通过多个 task-specific heads 输出不同的三维属性.
VGGT架构图
接下来, 我们详细叙述各个细节部分:

Alternating attention frame-wise layer

据文章作者所述, 该 AA 机制与标准的 transformer attention 机制有所不同, 能够使 Transformer 以交替的方式聚焦每一帧和全局.

frame wise attention layer: 该层的 attention 仅在同一帧内进行, 也就是说, 每个 patch 只能与同一帧内的其他 patch 进行 attention 计算. 这样做的好处是能够更好地捕捉每一帧内部的局部特征.
global attention layer: 该层的 attention 在所有帧之间进行, 也就是说, 每个 patch 可以与所有帧内的其他 patch 进行 attention 计算. 这样做的好处是能够捕捉不同帧之间的全局特征.

另外值得一提的是, 作者采用了 $L = 24$ 层的 AA 机制, 并通过消融实验证明了 AA 机制的有效性, 此外, 作者声称他们的架构并没有采用 cross attention, 只采用 self attention.

任务特定的heads

将输入的图片通过 backbone 网络处理后, 会得到一个全局的 feature 表示, 然后通过多个 task-specific heads 输出不同的三维属性. 值得注意的是, DINO 编码的 feature 并非直接输入到 AA 中, 而是被添加了一个额外的相机 token
$t_{i}^{g} \in R^{1 \times C}$ 和四个 register tokens $t_{i}^{R} \in R^{4 \times C}$ 进行增强, 然后将 $(t_{i}^{L}, t_{i}^{g}, t_{i}^{R})$ 作为最终的输入.

此处值得注意的是, 第一帧的输入 token 是 $(t_{1}^{g} = t_{ini}^{g}, t_{1}^{R} = t_{ini}^{R})$ , 之后的帧的输入 token 是 $(t_{i}^{g} = t_{f o ll o w}^{g}, t_{i}^{R} = t_{f o ll o w}^{R})$ , 也就是说, 第一帧和之后的帧的 camera token 和 register token 是不同的.
但是作者说他们都是 learnable 的. 这使得模型能够将第一帧和其他帧区分开来, 并在第一个相机的坐标系下表示全局点云以及各种数据.但是, 经过 AA 层之后, 本来被赋予同一初值的 camera token 和 register
token 均会变为帧特定的, 这是因为 AA 层的 frame-wise attention layer 会使得每一帧的 token 在不同的计算中产生不同的表示.

最后遵循常规做法, register token 会被丢弃, camera token 和 image token 会被保留用于预测.

Camera parameter head

这个 head 从上图中的模型的 backbone 就可以看到, 他是将 camera token 通过 4 个 self-attention layers 进行处理, 然后通过一个 MLP 预测出每一帧的相机参数(包含内参和外参).

Dense Prediction

输出的 image token 在这里被使用, 用于预测 depth map $D_{i}$ , point map $P_{i}$ 和 tracking features $F_{i}$ . 更具体地来讲, $\hat{t}_{i}^{I}$ 首先会通过一个 DPT head 转化为一个 dense feature map
$F_{i} \in R^{C ’’ \times H \times W}$ , 之后每一个 $F_{i}$ 会通过一个 $3 \times 3$ 的卷积层解析出 corresponding depth 和 point map. 另外, DPT 头同样也会输出 dense feature map $T_{i}$ 用于后续的 tracking,
在此同时, vggt 同样也会输出 confidence map $Σ_{i}^{D} \in R^{C \times H \times W}$ 和 $Σ_{i}^{P} \in R^{C \times H \times W}$ 用于表示 depth 和 point 的置信度. 这个置信度用于后续的模型的 loss 计算和
真实预测时的 conf 输出.

Tracking

这一方面我并不打算去深入了解, 因此先跳过.

Training

Loss function

VGGT 的 loss function 包含多个部分, 主要包含以下几种:

Camera loss: 这个 loss 监管了相机参数$L_{camera} = \sum_{i=1}^{N} ||\hat{g}i - g_i||{\epsilon}$, 使用了 Huber loss.
Depth loss: 这个 loss 沿用了 dust3r 的 loss 设计$\mathcal{L}{\mathrm{depth}}=\sum{i=1}^N|\Sigma_i^D\odot(\hat{D}_i-D_i)|+|\Sigma_i^D\odot(\nabla\hat{D}_i-\nabla D_i)|-\alpha\log\Sigma_i^D$
Point loss: 这个 loss 同样沿用了 dust3r 的 loss 设计$\mathcal{L}{\mathrm{point}}=\sum{i=1}^N|\Sigma_i^P\odot(\hat{P}_i-P_i)|+|\Sigma_i^P\odot(\nabla\hat{P}_i-\nabla P_i)|-\beta\log\Sigma_i^P$
Tracking loss: 这个 loss 监管了 tracking feature 的质量, 具体细节我并不打算深入了解, 因此先跳过.

因此, 最终的 loss function 为: $L < e m > t o t a l = L < / e m > c am er a + L < e m > d e pt h + L < / e m > p o in t + λ_{t r a c kin g} L_{t r a c kin g}$

坐标Normalization

如果缩放的话, 重建结果应该同样也是正确的, 为了消除这种不确定性, 作者采用了归一化进行处理. 首先将所有量表示在第一个相机的坐标系中, 然后计算所有点的平均欧氏距离, 然后利用该尺度归一化相机平移, 点云坐标和深度值.

值得注意的是, 作者没有对预测结果施加任何归一化, 相反强制模型去学习预测归一化后的值, 这样做的好处是能够使得模型更好地适应不同尺度的场景.

Details

我难以想象训练的规模, 按照作者所述, 这一个 transformer 模型包含了 $1.2 B$ 的参数, 在 64 块 A100 上训练了 9 天, 属实是第一次见了.

另外, 训练的数据集之多也是难以想象:
dsfa
有点离谱了.

结论

vggt 的指标基本上达到 SOTA 水平, 但是值得注意的是, 直接的输出并没有达到, 作者加入了 BA 优化之后才达到了 SOTA, 因为 BA 是一个 costly 的优化过程, 因此我觉着这一方面或许还可以改进? 作者在论文中提到了
应用 diffentiable BA 的可行性, 但是也因为 BA 的计算量过大, 因此并没有进行进一步的尝试.

此外, VGGT 向我们展示了不需要一个复杂的 pipeline 也可以进行高质量的多目重建说你呢, SLAM3R, 我 TM 的快改吐了, 再结合最近发布的 SLAM Former, 我觉着这是一个很有意义的方向.

非常重要的是, vggt 证明了联合预测多个任务是有益的, 虽然并没有在 loss 阶段进行互相的监督, 但是通过多个任务的单独监督, 使得模型学到了更好的表示,

此外, vggt 另一个重要的发现是, 通过 depth 和 pose 反解出来的点云比直接预测的点云要好.

ok, 让我们把仓库链接抬出来:

另外, 这是真的可以的嘛?

iasdf

Posted Sep 04, 2025Updated Sep 04, 2025blog15 minutes read (About 2176 words)

论文阅读记录：Fast3R

引言

OK, 本人昨天又读了一篇 3D reconstruction 方向的论文：Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass，因此写下此篇 Blog 分享自己的理解与发现。

Fast3R 从本质上来说感觉和 SLAM3R 解决的是一类问题，都是对原本 DUst3R 存在的局限性：一次只能对两张图片进行处理，如果对多张图片进行处理的话， DUst3R 则是选择进行两两配对进行重建，最后进行全局坐标下的对齐，显然这将会是一个
$O (N^{2})$ 的过程。而 Fast3R 提出了对于打乱序列的多张图片（ 1000+）的处理方法， SLAM3R 则是解决了由视频进行重建的方法。感觉两者的本质上的区别就是 input 的图像集是否有序，后续两者的网络结构区别也正是在此。

从论文的 introduction 上来看，他们主要做了以下三方面的贡献：

创建了 Fast3R ，一个基于 Transformer 的对多目图片重建点图的端到端的模型，据论文所述，它在速度上取得显著提升，并且可以规模化计算。
展示了随着训练时视角增多，模型表现也会加强。另外，当推理时视角增多时，每张视角重建结果的精确度也会提升。并且模型可以处理比训练时多得多的模型。
在相机的位姿定位上达到了SOTA水平，另外也展现出了极快的速度。

好的，现在到了我们喜闻乐见的介绍模型环节啦！

模型

Fast3R 给出了一个看起来在推理环境就很庞大的结构图：
Fast3R

问题定义

从图中右边就可以看到， Fast3R 采用了两个头： Global Head 和 Local Head 来处理输出的 token ，因此可见， Fast3R 为每张图片预测了两个点图：本地坐标系下的点图 $X_{L}$ 和全局坐标系下的点图 $X_{G}$ ，可以用公式表示： $Fast3R : I \to (X < e m > L, Σ < / e m > L, X < e m > G, Σ < / e m > G)$
$Σ_{X}$ 指代的是 $X$ 点图的置信度。

值得注意的是，全局坐标系值得是第一张图片的坐标系，本地坐标系是每个对应图片的坐标系。（虽然 Fast3R 并没有次序的概念，但其也需要一个切入点，所以随机选取了一张图片作为第一张图片）

训练对象

类似于 Dust3R ， Fast3R 的损失函数分别采用了同样的处理方法处理本地点图和全局点图两部分： $L < e m > total = L < / e m > X_{G} + L_{X_{L}}$
阅读其论文，发现其与 Dust3R 的损失函数基本一致，因此不多赘述。

模型架构

Image Encoder

由上图所示，我们可以看到每一个输入的图片都会经过一个共享权重的 Vit Encoder 生成对应的 token 序列 $H_{i} = h_{i, j}_{j = 1}^{H W / P^{2}}$ ，即： $H_{i} = F (I_{i}), i \in 1, \dots, N$
论文中提到，他们使用了和 Dust3R 相同的 Encoder ： CroCo ViT ，但是他们提到了 DINOv2 的表现与之相似。

另外，在把 token 传入 fusion transformer 之前，作者为每一个 token 添加了一个一维的位置编码，目的是让模型知道哪些图像块来自于同一张图片，并且帮助模型认出上文标定的第一张图片。这同样也能让模型隐式地去理解这些图片里反映的相机位姿。

Fusion Transformer

模型中大多数计算都发生在 Fusion Transformer 里面，作者使用了一个类似于ViT-L的 24 层的 transformer 作为这一模块的主体。它将来自所有的视角的 token 作为输入，并且通过全连接的自注意力机制进行处理，使的模型能够理解所有视角的信息，远超 Dust3R 能理解的两个视角的信息。

Pointmap Decoding Heads

最后， Fast3R 使用了两个独立的 DPT 解码头将 Fusion Transformer 的输出解码为点图，即图片中右边部分。

位置编码

论文最后的目标是进行多图片处理，并且实现推理时的可以处理的图片数量远远多于训练时的图片数量，因此我们就要考虑推理时为 token 嵌入位置编码的手段。

一开始，文章尝试使用相同的球谐函数嵌入编码，文章中又提到：在 LLM 中，这种方法导致性能不佳。果不其然，在文章的初步实现中，他们同样发现当输入图像数量超过训练时使用图像的数量时，模型的效果并不好。
因此，文章借鉴了大预言模型中的位置插值方法：在训练时从一个集合 $1, \dots, N ’$ 中均匀随机抽取 $N$ 个索引，这样模型便被迫去学习处理更大范围的索引。

对于 transformer 来说，这种策略感觉和 masking 没什么区别，文章中也说：

This strategy enables Fast3R to handle N = 1000 images during inference, even if only trained with N = 20 images.

有效利用显存

从模型架构的图片来看，这看起来就是一个占用很大显存的模型。但是文章提出，由于模型的特点（ meta-architecture ），这个模型可以广泛使用各种并行化以及分片技术。
文章提出他们在训练和推理的时候利用了两种不同形式的并行化和 FlashAttention 技术，并认为随着未来的技术成熟他们的模型会持续受益（废话）。

具体采用的策略来实现高效训练。

首先，使用 FlashAttention 来提高时间和内存效率。即便如此，当 N>16 时，一个朴素的实现即使在批量大小为 1 的情况下也会耗尽内存（ 128 x A100-80GB 啊，离大谱）。
因此，后来使用了 DeepSpeed ZeRO stage 2 训练，将优化器状态、动量估计和梯度在不同的机器上进行分区。这样就能够以每个数据样本最多 N=28 个视角进行训练，同时每个 GPU 的批量大小为 1 。

模型效果：

miaomiao
就模型所给出的表格而言，确实是达到了 Sota 水平。

在推理速度上，由于所做的各种优化，它也得到了显著的提升。

但是，其实我更好奇的是它跟同期的 SLAM3R 的性能比较，阅读论文，发现两者并没有过同一个精度指标的比较，通过本人的本地测试，发现对于一个很小的数据集（ 82 张有序图片），两者速度上并没有太多差距，但是重建质量上来说
， SLAM3R 的质量远超 Fast3R 。这很好的符合了 SLAM3R 对有序图像序列进行针对性重建的特性，而 fast3R 是对一个随机图像重建的方法。

所以，当我看到 Fast3R 的 demo 里有对视频重建的选项时，我感觉并不适合。因为从直觉上来说，人们从一个没有次序的图像集中理解环境的过程也大致遵循一个先排序再重建的过程，也就是说人们对无次序的图片集中还原 3D 场景的难度远大于从视频中还原场景的难度。

论文中也提到了局限性的存在：

缺少包含大型场景的数据因而缺少在此类场景下的泛化能力。
没有更好的位置嵌入，不过论文提出可以参考那些能处理极长上下文序列的大语言模型。

ok ，关于 Fast3R 我就处理到这里，欸，我觉着或许我以后应该认真去看看训练细节和实验部分，总去看模型结构有种高屋建瓴的感觉，还是应该多看看代码（ x

Posted Sep 02, 2025Updated Sep 02, 2025blog15 minutes read (About 2245 words)

论文阅读记录：MAst3R

引言

经过一周的对SLAM3R进行 online 以及可视化 demo 改造的低效率劳作且工作完成，我终于有时间来补档我这篇早在近两个周之前就读完的论文Grounding Image Matching in 3D with MASt3R

读完这篇论文之后，我的第一感觉就是：这是一个 DUst3R 的修补模型，他并没有太多的像 DUst3R 那样的开创性地将 transformer 运用于双目三维重建那样的举动，而是在 DUst3R 模型上进行了
少许修补，并提出了少许修补中的一些独创性方法，感觉是一篇介绍 small trick 的论文。同时，我们似乎也可以这么说： MAst3R 发现本聚焦于三维重建任务的 DUst3R 在像素匹配问题上同样达到了 SOTA
于是， MAst3R 将 DUst3R 稍加改造，得到了一个在像素匹配上表现更强的模型 MAst3R.

模型介绍

MASt3R 的模型结构与 Dust3R 大致相同：
mast3r

Encoder

与 DUst3R 相同， MAst3R 的 encoder 部分同样是由 ViT 组成的，且与 DUst3R 相同的是， MAst3R 的 encoder 部分也是共享权重的。
就像这样： $H_{1} = E n co d er (I^{1}) H_{2} = E n co d er (I^{2})$

Decoder

MASt3R 的 Decoder 同样采用了 cross-attention 的机制，这能使得 MAst3R 能够理解同一像素在不同视角下的信息，有助于后续进行像素匹配。 $H ’^{1}, H ’^{2} = Deco d er (H^{1}, H^{2})$

Heads

对于 Dust3R 来说，他只有一个 head ，直接将 decoder 的输出转化为点图信息和置信度（上图灰色部分）

3D Heads

MASt3R 对这个 head 基本上与 DUst3R 的 head 相同，都是将 decoder 的输出转化为点图信息和置信度。

Matching Heads

MASt3R 在此基础上又增加了一个 head ，专门用于像素匹配任务(上图蓝色部分)，这个头部由一个简单的两层的 MLP 组成，使用了 GELU 作为激活函数，另外在处理完后进行归一化处理，负责输出两张密集的特征图： $D^{1} = He a d_{d esc}^{1} ([H ’_{1}, H ’ < e m > 2]) D^{2} = He a d < / e m > d esc^{2} ([H ’_{1}, H ’_{2}])$

Loss

Mast3R 的损失函数由两部分组成： $L < e m > t o t a l = L < / e m > co n f + β L_{ma t c h}$

3D Loss

MAst3R 的 3D Loss 与 DUst3R 的 3D Loss 基本相同，都是由点图的 L1 损失和置信度的交叉熵损失组成。
但是， MAst3R 在计算回归损失的时候，原本的 DUst3R 计算公式是这样的： $ℓ_{regr} (ν, i) = ∣ ∣ \frac{1}{z} X_{i}^{ν, 1} - \frac{1}{z ^} \hat{X} < e m > i^{ν, 1} ∣ ∣,$
MAst3R 认为在它的应用场景中，并不鼓励尺度不变性，而更多的是需要绝对的尺度一致性，因此 MAst3R 将上式改为了： $ℓ < / e m > regr (ν, i) = \frac{∣ ∣ X _{i}^{ν, 1} - X ^ < e m > i ^{ν, 1} ∣ ∣}{z ^}$
因此， MAst3R 的 3D Loss 计算公式为： $L < / e m > conf = ν \in 1, 2 \sum i \in V^{ν} \sum C_{i}^{ν} ℓ_{regr} (ν, i) - α lo g C_{i}^{ν} .$

Matching Loss

这个损失函数是对 Matching Head 输出的特征图进行监督的，基本思想是：我们鼓励一个图像中的一个特征匹配符，最多与另一张图像中代表同一个 3D 点的特征匹配符进行匹配，
需要注意的是，这个匹配本质上是一个交叉熵分类损失，当网络猜到正确的像素（而非邻近的像素）时，才会得到奖励。

具体实现上，我们利用了 InfoNCE loss 来实现这个想法，其作用于一组对应关系 $\hat{M} = (i, j) ∣ \hat{X_{i}}^{1, 1} = \hat{X_{j}}^{2, 1}$ ，具体公式如下： $L < e m > match = - \sum < / e m > (i, j) \in \hat{M} lo g \frac{s _{τ} ( i , j )}{\sum _{k \in P^{1}} s _{τ} ( k , j )} + lo g \frac{s _{τ} ( i , j )}{\sum _{k \in P^{2}} s _{τ} ( i , k )}$
其中， $s_{τ} (i, j) = exp (\frac{D _{i}^{1} \cdot D _{j}^{2}}{τ})$ ， $τ$ 是一个温度参数， $P^{1}$ 和 $P^{2}$ 分别是图像 1 和图像 2 中所有像素的集合。

这极大地鼓励了网络进行高精度匹配。

最后，两个损失函数被结合起来，形成了 MAst3R 的总损失函数： $L < e m > t o t a l = L < / e m > co n f + β L_{ma t c h}$
有了上述模型与 Loss 就可以训练了，但是网络的输出还需要经过一些处理，才能得到需要的匹配关系。注意，网络只输出了 PointMap 和每个像素的 LocalFeature ，而期望得到的是两个图像之间的像素点级别的匹配，匹配相关的部分就是图中新增的 NN 模块。

快速互惠匹配

当给定两张特定的预测图 $D D^{1}, D^{2} \in R^{H \times W \times d}$ 时，我们的目标是提取一组可靠的像素对应关系，即互惠最近邻。

数学定义：

互惠最近邻集合由公式定义： $̲$ </li> <li>这里的$…" style="color:#cc0000">\mathcal{M}={(i,j)|j=\mathrm{NN}_2(D_i^1)\mathrm{<del>and</del>}i=\mathrm{NN}_1(D_j^2)} $$</li> <li>这里的 $N N_{A} (D_{j}^{B})$ 表示在特征图 $D^{A}$ 中与特征 $D_{j}^{B}$ 距离最近的特征的索引。其数学定义为：
\mathrm{NN}_A(D_j^B)=\arg\min_i|D_i^A-D_j^B| $</li> </ul> <h3 id="传统方法"><a href="#传统方法" class="headerlink" title="传统方法"></a>传统方法</h3>传统上，计算互惠最近邻的方法是通过暴力搜索来实现的，这种方法的时间复杂度为 O ((H W)^{2}) ，这在高分辨率图像中是不可行的。 虽然优化最近邻搜索是可能的，例如使用 K-d 树，但这种优化在高维特征空间中通常会变得非常低效，在某些情况下，其速度甚至比 MASt3R 输出 D_{1} 和 D_{2} 的推理时间慢几个数量级。 <h3 id="MASt3R的方法"><a href="#MASt3R的方法" class="headerlink" title="MASt3R的方法"></a>MASt3R的方法</h3>MASt3R 提出了一种基于子采样*的快速方法。 这个方法是从一个稀疏的第一张图片的像素集合出发的，通过找到这个集合中每个像素在第二张图片上的最近邻得到最近邻集合，然后再从这个最近邻集合中找到每个像素在第一张图片上的最近邻，最后通过检查互惠性来得到最终的互惠最近邻集合。 整个过程可以表示为：$
U^t\mapsto[\mathrm{NN}2(D_u^1)]{u\in U^t}=V^t\mapsto[\mathrm{NN}1(D_v^2)]{v\in V^t}=U^{t+1}
\mathcal{P}i^{(T\times d)}=E{pts}(\hat{X}_i^{(H\times W\times3)}),i=1,…,K+1. $然后，由于我们实际上不能只通过点图信息来进行建模（如纹理相同的两个不一样的平面或不同的一块地面），因此我们选择将特征与 I 2 P 网络中的特征融合：$
\mathcal{F}_i^{(T\times d)}=F_i^{(T\times d)}+\mathcal{P}_i^{(T\times d)},i=1,…,K+1. $̲K + 1$ 个点图输入到两个解…" style="color:#cc0000">在这之后，我们便生成了每张点图的位置外观特征序列。 紧接着，我们会这 $K + 1$ 个点图输入到两个解码器中： <h4 id="Registration-Decoder"><a href="#Registration-Decoder" class="headerlink" title="Registration Decoder"></a>Registration Decoder</h4>Registration Decoder 将所有 token 作为输入，然后目的是将 L2W 的关键帧重建转换到场景坐标系下，它与 $D_{k ey}$ 采用相同的架构。 解码过程大概是：
\mathcal{G}{sce_i}=D{sce}(\mathcal{F}{sce_i},\mathcal{F}{key}),\quad i=1,…,K $ <h4 id="Scene-Decoder"><a href="#Scene-Decoder" class="headerlink" title="Scene Decoder"></a>Scene Decoder</h4>Scene Decoder 同样将所有 token 作为输入，但是它的目的是在不改变场景坐标系的情况下，精化坐标几何。他同样采用与 D_{k ey} 相同的架构，但是他是对每一个在已选中的关键帧点图进行优化：$
\mathcal{G}{sce_i}=D{sce}(\mathcal{F}{sce_i},\mathcal{F}{key}),\quad i=1,…,K $通过这样的方式将已生成的 p o in t ma p 进行优化 最后，我们采用类似于 I 2 P 模块中的方法对我们所有已经重建的关键帧 t o k e n 进行点图重建：$
\tilde{X}_i^{(H\times W\times3)},\tilde{C}_i^{(H\times W\times1)}=\mathrm{H}(\mathcal{G}_i^{(T\times d)}),i=1,…,K+1.
$$

得到一个实时的三维表示。

结论
本人目前涉猎不深，但是论文最后与其他系统做比较，其展现的效率确实令我印象深刻，感觉以上的这个系统的两大模块也令非常简洁舒适。等我再去阅读其他的 3R 文章来进一步理解这个 SOTA 的含金量吧😋

github 项目地址：

喵喵又是充实的一天🥳，本人可能理解有偏差（ bushi

引言

CUT3R

π3">π3

DA3

MapAnything

AnySplat

RayZer

Spa3R

Spann3R

Flow4R

AMB3R

VGGT-SLAM

引言

Introduction

Method

Overview

Enhanced Transformer

Material Estimation

Illumination Modeling

Mesh Extraction and Refinement

UV Unwrapping and Export

Overall Training and Loss Functions

Results

Conclusion

引言

模型结构

Front end

Keyframe detection

Front end tracking and mapping

Backend

Training Strategy

Training Frontend

Training Frontend with Backend Cooperation

Training Backend

Joint Training

Pipeline

Experimental Setup

Results

总结

引言

模型结构

Alternating attention frame-wise layer

任务特定的heads

Camera parameter head

Dense Prediction

Tracking

Training

Loss function

坐标Normalization

Details

结论

引言

模型

问题定义

训练对象

模型架构

Image Encoder

Fusion Transformer

Pointmap Decoding Heads

位置编码

有效利用显存

具体采用的策略来实现高效训练。

模型效果：

引言

模型介绍

Encoder

Decoder

Heads

3D Heads

Matching Heads

Loss

3D Loss

Matching Loss

快速互惠匹配

结论

Categories

Recents

Archives

Tags

$π^{3}$ "> $π^{3}$