SLAM3R读后有感
最近几天读完了SLAM3R的论文,这是 2025 年 CVPR 的一 篇Highlight论文,也是我在 3R 方向的读过的第 3 篇论文。
这篇论文主要介绍了一个叫做SLAM3R的根据视频即时重建的系统,感觉是由DUst3R中获得的灵感,不同的是DUst3R是根据两张图片重建出三维点图,并且是离线处理;而SLAM3R是从一个单目视频中实时在线重建,并且相较于之前的一些方法具有极高的效率。
SLAM3R的主要模块
SLAM3R 主要由I2P和L2W两大模块组成,分别负责从视频中的关键帧重建点图(Image to Point)和利用点图增量式地重建全局点图( Local to World ), 具体结构如下:

视频预处理
首先, SLAM3R 采用了滑动窗口算法将视频拆成多个小片段,把多个小片段输入到 I2P 中进行处理。
I2P网络
I2P 模块接受预处理产生的视频片段,该视频片段由多个帧组成。通常我们从中选取最中间的帧作为关键帧,剩下的个帧作为补充帧输入到 I2P 中。
首先,我们将所有帧通过一个由个 ViT encoder 组成的,生成相应的 token ,然后再进行 decoder 操作。具体就是将关键帧的 token 输入到一个特殊处理的 decoder:里(如下图所示),然后剩下的个补充帧共享同一个 decoder 结构(继承自DUst3R,由个 ViT decoder 组成),均生成对应的。
