设为首页|收藏本站|
开启左侧

[问答] 【深度估计】KITTI数据集介绍与使用说明

[复制链接]
36879 0
滚犊子873 发表于 2022-3-9 01:59:31 | 只看该作者 打印 上一主题 下一主题
 
KITTI数据集简介

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田工业大学芝加哥分校联合赞助的用于自动驾驶领域研究的数据集[1]。作者收集了长达6个小时的真实交通环境,数据集由经过校正和同步的图像、雷达扫描、高精度的GPS信息和IMU加速信息等多种模态的信息组成[2]。作者还在数据集官网提供了光流、物体检测、深度估计等多种任务的Benchmark。
传感器配置


  • 2个一百四十万像素的PointGray Flea2灰度相机;
  • 2个一百四十万像素的PointGray Flea2彩色相机;
  • 4个Edmund的光学镜片,水平视角约为90°,垂直视角约为35°;
  • 1个64线的Velodyne旋转激光雷达,10Hz,角分辨率为0.09度,每秒约一百三十万个点,水平视场360°,垂直视场26.8°,至多120米的距离范围;
  • 1个OXTS RT3003组合导航系统,6轴,100Hz,分别率为0.02米,0.1°。
传感器的配置示意图如下所示,双目相机之间的距离为0.54米。

【深度估计】KITTI数据集介绍与使用说明 第1张图片

图1 传感器配置示意图

数据集组成

数据集可以分为Road、City、Residential、Campus、Person几类。所有的视频录制于2011年9月26日、28日、29日、30日和10月3日,数据集总大小约为180G。

【深度估计】KITTI数据集介绍与使用说明 第2张图片

KITTI中五类样本的示例

KITTI数据集包含以下信息:

  • 原始和经同步与校正处理的双目灰度图像序列,以png格式存储,大小1240*370左右;
  • 原始和经同步与校正处理的双目彩色图像序列,以png格式存储,大小1240*370左右;
  • 3D Velodyne点云,每帧约10万个点,以bin的方式存储;
  • 3D GPS/IMU数据,包括位置、速度、加速度、元信息等,以txt方式存储;
  • 校正文件,包括相机参数、相机与GPS/IMU之间、相机与Velodyne转换,以txt存储;
  • 3D 目标检测标签,含汽车、卡车、有轨电车、行人、骑自行车的人,以xml的形式储存。
使用时我们只需要经过处理(synced+rectified)过后的数据即可。数据集的文件树如下所示[2]

【深度估计】KITTI数据集介绍与使用说明 第3张图片

数据集文件树

文件说明

  • timestamps.txt文件是时间戳文件,记录了生成每条数据的具体时间;
  • image_0x文件夹下的frame_number.png文件是图像文件,格式是8位PNG图,已经裁剪掉了天空和引擎盖,文件夹后的数字x表示不同相机(01灰色23彩色),图像经校正后大约50万像素;
  • oxts文件夹下的frame_number.txt文件是GPS/IMU信息,包括方向、速度、加速度在内的30余种信息,可以在dataformat.txt文件中查看具体信息;
  • velodyne_points文件加下为雷达点云文件,由浮点数组成,含坐标xyz和角度r信息,具体含义如下图[2]所示。每一帧对应的点数量不一定相同,大约有12万个点。

【深度估计】KITTI数据集介绍与使用说明 第4张图片

坐标值示意图


  • tracklet_labels.xml文件为标注文件,包括“Car”“Van”“Truck”“Pedestrian”“Person(sitting)”“Cyclist”“Tram”“Misc”几类。每个对象都有类别标签和对应的大小信息。每一帧中,都提供了物体的变换旋转矩阵信息。
  • data_calib.zip文件中为校正文件,将在下一节中详细说明。
各种传感器信息的校正

各系统中坐标信息的定义如下:
Camera: x = right, y = down, z = forward
Velodyne: x = forward, y = left, z = up
GPS/IMU: x = forward, y = left, z = up
图像信息对齐

图像对齐中用到的各个符号定义如下所示,这些变量存储在calib_cam_to_cam.txt文件中。其中i代表相机编号,0号为左灰度相机,1号为右灰度相机,2号为左彩色相机,3号为右彩色相机。

【深度估计】KITTI数据集介绍与使用说明 第5张图片
一般认以0号相机相对参考,将场景中的3D点 【深度估计】KITTI数据集介绍与使用说明 第6张图片 投影到第  个相机画面中的像素点 【深度估计】KITTI数据集介绍与使用说明 第7张图片 的公式可以表示为

【深度估计】KITTI数据集介绍与使用说明 第8张图片
其中投影矩阵 【深度估计】KITTI数据集介绍与使用说明 第9张图片
为了确保画面准确,还应考虑参考相机的旋转校正矩阵 【深度估计】KITTI数据集介绍与使用说明 第10张图片 ,这个矩阵大小为4*4,其中第四行和第四列除 【深度估计】KITTI数据集介绍与使用说明 第11张图片 外全为0,从具体数值来看,得到的矩阵类似单位阵。于是,可以得到场景中点映射到参考图像的最终公式:

【深度估计】KITTI数据集介绍与使用说明 第12张图片
雷达点的投影矩阵

为了得到深度图,我们还需要将雷达点云投影到参考相机图中,得到深度数值,需要的参数如下,保存在calib_velo_to_cam.txt中。

【深度估计】KITTI数据集介绍与使用说明 第13张图片
场景中的3D雷达点云 【深度估计】KITTI数据集介绍与使用说明 第14张图片 投影到第  号相机图像坐标为 【深度估计】KITTI数据集介绍与使用说明 第15张图片 的点的公式可以表示为

【深度估计】KITTI数据集介绍与使用说明 第16张图片
其中 【深度估计】KITTI数据集介绍与使用说明 第17张图片
这里参考[3]中的一副图来说明整个过程。

【深度估计】KITTI数据集介绍与使用说明 第18张图片

雷达点云投影到图像的示意图

数据集下载

可以在官网的原始数据页面直接下载相应的文件,或者通过wget -i命令使用下面的文档直接下载原始数据。
【深度估计】KITTI数据集介绍与使用说明 第19张图片kitti_archives_to_download.txt
7.1K
· 百度网盘


由于国内访问官网可能存在困难,可以采用反代的方式加速下载,具体可参考[4]将目标服务器域名换成以下任意域名。
hk1.functionweb.tk
http://us1.functionweb.tk
数据集使用

本部分代码参考Github。
参考


  • ^http://www.cvlibs.net/datasets/kitti/index.php
  • ^abcVision meets robotics: The KITTI dataset https://journals.sagepub.com/doi/full/10.1177/0278364913491297
  • ^https://github.com/windowsub0406/KITTI_Tutorial
  • ^https://bendfunction.gitbook.io/dataset-download/tu-xiang-shu-ju-ji-fan-dAI-xia-zai-fu-wu-shuo-ming



上一篇:如何看待美国援助乌克兰,乌克兰一分钱都没拿到,泽连斯基 ...
下一篇:雅阁往事(上):日本车征服北美
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-5-21 06:20