【深度估计】KITTI数据集介绍与使用说明

滚犊子873 · 发表于 2022-3-9 01:59:31

KITTI数据集简介

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田工业大学芝加哥分校联合赞助的用于自动驾驶领域研究的数据集[1]。作者收集了长达6个小时的真实交通环境，数据集由经过校正和同步的图像、雷达扫描、高精度的GPS信息和IMU加速信息等多种模态的信息组成[2]。作者还在数据集官网提供了光流、物体检测、深度估计等多种任务的Benchmark。
传感器配置

2个一百四十万像素的PointGray Flea2灰度相机；
2个一百四十万像素的PointGray Flea2彩色相机；
4个Edmund的光学镜片，水平视角约为90°，垂直视角约为35°；
1个64线的Velodyne旋转激光雷达，10Hz，角分辨率为0.09度，每秒约一百三十万个点，水平视场360°，垂直视场26.8°，至多120米的距离范围；
1个OXTS RT3003组合导航系统，6轴，100Hz，分别率为0.02米，0.1°。

传感器的配置示意图如下所示，双目相机之间的距离为0.54米。

【深度估计】KITTI数据集介绍与使用说明第1张图片

图1 传感器配置示意图

数据集组成

数据集可以分为Road、City、Residential、Campus、Person几类。所有的视频录制于2011年9月26日、28日、29日、30日和10月3日，数据集总大小约为180G。

【深度估计】KITTI数据集介绍与使用说明第2张图片

KITTI中五类样本的示例

KITTI数据集包含以下信息：

原始和经同步与校正处理的双目灰度图像序列，以png格式存储，大小1240*370左右；
原始和经同步与校正处理的双目彩色图像序列，以png格式存储，大小1240*370左右；
3D Velodyne点云，每帧约10万个点，以bin的方式存储；
3D GPS/IMU数据，包括位置、速度、加速度、元信息等，以txt方式存储；
校正文件，包括相机参数、相机与GPS/IMU之间、相机与Velodyne转换，以txt存储；
3D 目标检测标签，含汽车、卡车、有轨电车、行人、骑自行车的人，以xml的形式储存。

使用时我们只需要经过处理(synced+rectified)过后的数据即可。数据集的文件树如下所示[2]

【深度估计】KITTI数据集介绍与使用说明第3张图片

数据集文件树

文件说明

timestamps.txt文件是时间戳文件，记录了生成每条数据的具体时间；
image_0x文件夹下的frame_number.png文件是图像文件，格式是8位PNG图，已经裁剪掉了天空和引擎盖，文件夹后的数字x表示不同相机（01灰色23彩色），图像经校正后大约50万像素；
oxts文件夹下的frame_number.txt文件是GPS/IMU信息，包括方向、速度、加速度在内的30余种信息，可以在dataformat.txt文件中查看具体信息；
velodyne_points文件加下为雷达点云文件，由浮点数组成，含坐标xyz和角度r信息，具体含义如下图[2]所示。每一帧对应的点数量不一定相同，大约有12万个点。

坐标值示意图

tracklet_labels.xml文件为标注文件，包括“Car”“Van”“Truck”“Pedestrian”“Person（sitting）”“Cyclist”“Tram”“Misc”几类。每个对象都有类别标签和对应的大小信息。每一帧中，都提供了物体的变换旋转矩阵信息。
data_calib.zip文件中为校正文件，将在下一节中详细说明。

各种传感器信息的校正

各系统中坐标信息的定义如下：

Camera: x = right, y = down, z = forward
Velodyne: x = forward, y = left, z = up
GPS/IMU: x = forward, y = left, z = up

图像信息对齐

图像对齐中用到的各个符号定义如下所示，这些变量存储在calib_cam_to_cam.txt文件中。其中i代表相机编号，0号为左灰度相机，1号为右灰度相机，2号为左彩色相机，3号为右彩色相机。

【深度估计】KITTI数据集介绍与使用说明第5张图片

一般认以0号相机相对参考，将场景中的3D点【深度估计】KITTI数据集介绍与使用说明第6张图片

投影到第个相机画面中的像素点【深度估计】KITTI数据集介绍与使用说明第7张图片

的公式可以表示为

其中投影矩阵

为了确保画面准确，还应考虑参考相机的旋转校正矩阵【深度估计】KITTI数据集介绍与使用说明第10张图片

，这个矩阵大小为4*4，其中第四行和第四列除【深度估计】KITTI数据集介绍与使用说明第11张图片

外全为0，从具体数值来看，得到的矩阵类似单位阵。于是，可以得到场景中点映射到参考图像的最终公式：

【深度估计】KITTI数据集介绍与使用说明第12张图片

雷达点的投影矩阵

为了得到深度图，我们还需要将雷达点云投影到参考相机图中，得到深度数值，需要的参数如下，保存在calib_velo_to_cam.txt中。

【深度估计】KITTI数据集介绍与使用说明第13张图片

场景中的3D雷达点云【深度估计】KITTI数据集介绍与使用说明第14张图片

投影到第号相机图像坐标为【深度估计】KITTI数据集介绍与使用说明第15张图片

的点的公式可以表示为

【深度估计】KITTI数据集介绍与使用说明第16张图片

其中

这里参考[3]中的一副图来说明整个过程。

【深度估计】KITTI数据集介绍与使用说明第18张图片

雷达点云投影到图像的示意图

数据集下载

可以在官网的原始数据页面直接下载相应的文件，或者通过wget -i命令使用下面的文档直接下载原始数据。
【深度估计】KITTI数据集介绍与使用说明第19张图片

kitti_archives_to_download.txt
7.1K
· 百度网盘

由于国内访问官网可能存在困难，可以采用反代的方式加速下载，具体可参考[4]将目标服务器域名换成以下任意域名。

hk1.functionweb.tk
http://us1.functionweb.tk

数据集使用

本部分代码参考Github。
参考

^http://www.cvlibs.net/datasets/kitti/index.php
^abcVision meets robotics: The KITTI dataset https://journals.sagepub.com/doi/full/10.1177/0278364913491297
^https://github.com/windowsub0406/KITTI_Tutorial
^https://bendfunction.gitbook.io/dataset-download/tu-xiang-shu-ju-ji-fan-dAI-xia-zai-fu-wu-shuo-ming

上一篇：如何看待美国援助乌克兰，乌克兰一分钱都没拿到，泽连斯基 ...
下一篇：雅阁往事（上）：日本车征服北美

白金会员	积分	兔币	帖子
白金会员, 积分 3433, 距离下一级还需 1567 积分	3433	1879	1554
在线时间：0 小时	最后登录：2024-2-19

[问答] 【深度估计】KITTI数据集介绍与使用说明

关联主题

268元引争议，《黑神话：悟空》不得不走这

空大500次也不会被嘲笑的3个英雄！玩他随便

一分钟“天堂到地狱”！低空经济人气股炸板

vivo Y200 GT开箱上手：更实际的千元中端机

华为mate X6又要“遥遥领先”？起售价或为1

开车时，使用免提比手持电话更安全吗？

能与圆明园媲美的北宋皇家园林“艮岳”，后

1099元起，vivo Y200系列开箱体验，线下走

沪指再创年内新高！今天是“全金属狂潮”+

DNF：开放“角色交易系统”，游戏就会“回

重磅！类人速度超快语音响应！OpenAI推出新

斯洛伐克总理遇刺细节，现场传出5声枪响，

今晚《非诚勿扰》用“心跳”说话，“最强男

潘达利亚活动官方完整介绍视频！国服要是玩

268元引争议，《黑神话：悟空》不得不走这

自然资源部：支持地方政府以合理价格收回企

东邪西毒：上华山很容易的啊

合富永道 | 什么样的基民需要保护

川普提前摊牌，声称如果当选总统，美国的首

OpenAI宫斗大戏第二幕核心安全团队解散负

鸡蛋大小！广州多地降下冰雹，“天空数次闪

万科，破鼓万人捶

3个半小时，点球10-11，夺冠热门出局，黑马

印媒：“负债累累”的巴基斯坦如何获取最新

败者组半决赛，KSG4比1拿下TTG，和狼队争夺

学罗永浩带货还债？贾跃亭宣布将开启个人IP

辛芷蕾为玩梗道歉，单方面艾特杨洋被嘲太“

巴勒斯坦“入联”遭美阻挠，联合国一票否决

日本扩大出口管制范围：项庄舞剑，意在沛公

普京启程访华前，先定下了俄罗斯的二把手，

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸