本文选自gongzhonghao【图灵学术计算机SCI论文辅导】
关注我们,掌握更多顶会顶刊发文资讯
在机器人感知领域,现实场景的复杂光照、密集动态环境与传感器噪声给可靠环境理解带来严峻挑战。多模态数据融合与时空特征建模的结合正成为突破这一瓶颈的关键方向。多模态融合综合摄像头、激光雷达、惯性测量单元等异构传感器信息,互补数据优势克服单一感知局限;时空建模则捕捉目标的连续运动模式与环境演变规律,有效提升在遮挡、视角变化等复杂条件下的鲁棒性。
这种协同方法在工业分拣、仓储物流和自主导航等任务中展现出关键价值:既能精准识别和定位各类物体与动态障碍,又能增强系统在极端光照和干扰下的泛化能力。通过高效的数据结构与模型优化,感知系统在确保高可靠性的同时满足移动平台的实时响应需求。
今天小图给大家精选3篇CVPR有关机器人感知方向的论文,请注意查收!
JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments
方法:
文章首先基于JRDB数据集构建了JRDB-PanoTrack,继承了其全面的人体标注套件,并在此基础上增加了高质量的2D泛视觉分割和跟踪标注,以及额外的3D标签投影。其次,根据类别的分布,将数据集划分为已知和未知类别,分别用于封闭世界和开放世界的基准测试。最后,通过在该数据集上广泛评估现有的先进方法,展示了其在处理复杂人类拥挤环境时的挑战性,并讨论了这些方法的优势和不足。
创新点:
-
提供了涵盖室内外拥挤场景的多样化数据,包含2D和3D同步数据模态,支持视觉和机器人应用。
-
提出了基于最优子模式匹配(OSPA)的度量方法,用于处理多标签场景下的泛视觉分割和跟踪评估。
-
引入了开放世界基准测试,包含多类别标注,用于评估模型在不可预测环境中的泛化能力。
论文链接:
https://ieeexplore.ieee.org/document/10655429
JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups
方法:
文章首先基于JRDB数据集,通过增加个体属性、群体内互动和社会群体背景的注释来构建JRDB-Social数据集。在个体层面,对性别、年龄和种族进行了细致的分类和注释;在群体内部层面,对每对个体之间的互动进行了多标签的细粒度注释;在社会群体层面,通过文本描述提供了关于群体身体姿态与场景内容的关联、显著场景内容的存在、特定地点或场所以及群体目的和意图的详细信息。此外,文章还利用先进的多模态大语言模型对数据集进行了评估,以探索这些模型在理解人类社交行为方面的潜力和局限。
创新点:
-
提供了个体属性、群体内互动以及社会群体背景的多层面注释,能够更全面地理解人类社交行为。
-
在个体层面,除了现有的人类原子动作和社会分组注释外,还增加了性别、年龄和种族等详细的人口统计学信息。
-
在群体层面,提供了关于群体身体姿态与场景内容的关联、显著场景内容的存在、特定地点或场所以及群体目的和意图的详细描述,从而提供了全面的情境概述。
论文链接:
https://ieeexplore.ieee.org/document/10655148
MCD: Diverse Large-Scale Multi-Campus Dataset for Robot Perception
方法:
文章通过在三个欧亚大学校园中采集数据,构建了包含多种传感器模态的数据集,包括经典旋转激光雷达、NRE激光雷达、高质量惯性测量单元、相机和超宽带传感器。在语义标注方面,精心标注了59k个NRE激光雷达扫描,覆盖了典型室内外物体。此外,利用基于优化的连续时间注册方法,将激光雷达-惯性数据与高精度先验地图对齐,生成了连续时间真值,为SLAM和定位研究提供了更准确的基准。
创新点:
-
提供了首个涵盖多种感知模态、高精度真值和多样化挑战环境的多校园数据集,填补了该领域的空白。
-
首次为非重复式旋转(NRE)激光雷达扫描提供了29个类别的语义标注,推动了稀疏激光雷达点云语义分割研究。
-
提出了基于优化的连续时间真值生成方法,相比离散时间真值,能更准确地反映机器人在复杂环境中的运动。
论文链接:
https://ieeexplore.ieee.org/document/10656126
更多计算机发文资讯
欢迎来gongzhonghao👉🏻图灵学术计算机SCI论文辅导 找到我们
评论前必须登录!
注册