设为首页|收藏本站|
开启左侧

[问答] 麻省理工最新!NeRF-SLAM: 具有神经辐射场的实时密集单 ...

[复制链接]
70454 0
电车之狼2 发表于 2022-11-15 09:55:07 | 只看该作者 打印 上一主题 下一主题
 
论文:https://arxiv.org/pdf/2210.13641
作者单位:麻省理工学院

麻省理工最新!NeRF-SLAM: 具有神经辐射场的实时密集单 ... 第1张图片
论文思路:

本文提出了一种新颖的几何和光度3D映射pipeline,用于从单目图像中准确,实时地重建场景。为此,本文利用了密集的单目SLAM和实时分层体积神经辐射场的最新进展。本文的见解是,密集的单目SLAM通过提供准确的姿势估计和具有相关不确定性的深度图,提供了正确的信息来实时适应场景的神经辐射场。通过本文提出的基于不确定性的深度损耗,本文不仅实现了良好的光度精度,而且实现了出色的几何精度。实际上,本文提出的pipeline实现了比竞争方法更好的几何和光度精度 (高达179% 更好的PSNR和86% 更好的L1深度),同时实时工作并仅使用单目图像。
作者:汽车人
自动驾驶之心->:【SLAM】技术交流群
强烈推荐!自动驾驶与AI学习社区:欢迎加入国内首个自动驾驶开发者社区!这里有最全面有效的自动驾驶与AI学习路线(感知/定位/融合)和自动驾驶与AI公司内推机会!
主要贡献:

本文提出了第一个场景重建pipeline,该pipeline结合了密集的单目SLAM和分层体积神经辐射场的优势。本文的方法从图像流中构建准确的辐射场,而不需要姿势或深度作为输入,并且可以实时运行。本文在单目方法的Replica数据集上实现了最先进的性能。
网络设计:

本文方法的主要思想是使用密集的单目SLAM的输出来监督神经辐射场。密集单目SLAM可以估计密集深度图和相机姿势,同时还提供深度和姿势的不确定性估计。有了这些信息,本文可以训练一个辐射场,其密集深度损失由深度的边际协方差加权。通过使用密集SLAM和radiance field训练的实时实现,并并行运行它们,本文可以实现实时性能。图2显示了本文pipeline中的信息流。

麻省理工最新!NeRF-SLAM: 具有神经辐射场的实时密集单 ... 第2张图片
图2。本文pipeline的输入由顺序的单目图像 (这里表示为Img 1和Img 2) 组成。从右上角开始,本文的架构使用Instant-NGP [17] 适合NeRF,本文使用RGB图像I,深度D进行监督,其中深度由其边际协方差 Σ D加权。受Rosinol等人的启发。[23],本文从密集的单目SLAM中计算这些协方差。在本文的例子中,本文使用Droid-SLAM [31]。本文在Sec3.1 中提供了更多关于信息流的细节。在蓝色中,本文显示Droid-SLAM的 [31] 贡献和信息流,同样,在粉红色是Rosinol的贡献 [23],在红色中,本文的贡献。

麻省理工最新!NeRF-SLAM: 具有神经辐射场的实时密集单 ... 第3张图片
图1。从左到右,输入RGB图像,估计的深度不确定性,反向投影的深度图到点云中,在通过其不确定性 (σ d ≤ 1.0) 对深度进行阈值化以进行可视化之后,以及从与输入图像相同的视点呈现的所得神经辐射场。本文的pipeline能够在仅给定RGB图像流的情况下实时重建神经辐射场。
本文的pipeline由一个跟踪和一个映射线程组成,既实时运行又并行运行。跟踪线程连续最小化关键帧活动窗口的BA重新投影误差。映射线程总是优化从跟踪线程接收的所有关键帧,并且没有活动帧的滑动窗口。
这些线程之间的唯一通信发生在跟踪pipeline生成新的关键帧时。在每个新的关键帧上,跟踪线程都会将当前关键帧的姿势及其各自的图像和估计的深度图以及深度图的边际协方差发送到映射线程。仅将跟踪线程的滑动优化窗口中当前可用的信息发送到映射线程。跟踪线程的活动滑动窗口最多由8个关键帧组成。一旦前一个关键帧和当前帧之间的平均光流高于阈值 (在本文的情况下为2.5像素),跟踪线程就会生成一个新的关键帧。最后,映射线程还负责渲染以实现重建的交互式可视化。
实验结果:


麻省理工最新!NeRF-SLAM: 具有神经辐射场的实时密集单 ... 第4张图片
表1。Geometric (L1) and Photometric (PSNR) results for the Replica dataset. IMAP和NICE-SLAM首先使用来自Replica的Ground-Truth深度作为监督进行评估(前两行)。 本文还评估NICE-SLAM时,不使用 ground-truth 深度作为监督进行比较。 TSDF-Fusion, σ-Fusion,和本文的方法是用来自密集单目SLAM的姿态和深度来评估的,如SEC中所解释的。 3.1. 最好的结果在粗体。

麻省理工最新!NeRF-SLAM: 具有神经辐射场的实时密集单 ... 第5张图片
图3。 使用不同的映射方法对Replica Office-0数据集进行定性分析。 从上到下,原始点云从本文的跟踪模块,TSDF重建使用σ-Fusion,NICE-SLAM的结果,和本文的。

麻省理工最新!NeRF-SLAM: 具有神经辐射场的实时密集单 ... 第6张图片
图4。 使用有无ground-truth深度的深度监督,以及初始化有ground-truth的姿态或噪声姿态时对性能的影响; 与本文估计密集深度和姿态的方法相比。 结果60s后收敛。
自动驾驶与AI学习社区

欢迎加入国内首个自动驾驶开发者社区!这里有最全面有效的自动驾驶与AI学习路线(感知/定位/融合)和自动驾驶与AI公司内推机会!
自动驾驶之心-SLAM

建了自动驾驶之心-SLAM交流群!想要进交流群的同学,可以直接加微信号:wenyirumo。加的时候备注一下:SLAM+学校/公司+昵称,即可。然后就可以拉你进群了。
往期回顾

自动驾驶之心 | 最新代码开源!TartanCalib:自适应亚像素细化的广角镜头标定
自动驾驶之心 |PSA-Det3D:探究3D目标检测小尺寸解决方案
自动驾驶之心 | 最新综述!一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)
自动驾驶之心 | 多传感器融合新思路!CRAFT:一种基于空间-语义信息互补的RV融合3D检测方法
自动驾驶之心 | BEV蒸馏来了!BEVDistill:用于多目3D目标检测的跨模态BEV蒸馏
自动驾驶之心 | 史上最全 | 基于深度学习的3D分割综述(RGB-D/点云/体素/多目)
自动驾驶之心 | 2022最新!更面向工业场景:基于视觉方案不同挑战环境下的车道检测与跟踪
自动驾驶之心 | 2022最新!视觉SLAM综述(多传感器/姿态估计/动态环境/视觉里程计)
自动驾驶之心 | 点云BEV融合!PTTR++:3D点云单目标跟踪新SOTA(南洋理工)
自动驾驶之心:ECCV 2022 | 稀有类别提升31%!如何解决3D检测中长尾问题?(Waymo最新)


上一篇:名校项目推荐 I 麻省理工最小而精的留学项目!还有机会转博士?
下一篇:麻省理工学院(MIT)迎来新任女校长——对亚裔申请人有何 ...
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-5-17 06:29