云计算百科
云计算领域专业知识百科平台

基于强化学习的目标跟踪 研究初探

强化学习 目标跟踪

    • Visual tracking by means of deep reinforcement learning and an expert demonstrator
    • YOLO 检测下基于 ETC-DDPG 算法的无人机视觉跟踪
    • 基于特征与深度强化学习方法的机器人视觉伺服技术研究
    • 高性能可拓展视频目标跟踪算法研究
    • 基于目标运动与外观特征的多目标跟踪算法研究
    • 基于深度强化学习的多目标跟踪技术研究
    • Others

Visual tracking by means of deep reinforcement learning and an expert demonstrator

通过深度强化学习和专家演示进行视觉跟踪,2019,42引用

研究背景与问题   视觉目标跟踪是计算机视觉中的一大难题,需在连续视频帧中通过边界框持续识别和定位目标对象,面临遮挡、光线变化、快速运动和运动模糊等挑战,且诸多实际应用要求实时且准确的预测。现有基于卷积神经网络(CNNs)的方法存在计算量大、处理速度难达实时,以及基于强化学习(RL)的方法存在在线更新复杂、训练阶段多等问题。 研究思路与贡献   受强化学习中利用专家演示加速策略学习的启发,研究者提出两种新型跟踪器A3CT和A3CTD。A3CT利用最先进跟踪器的演示来学习有效的跟踪策略;A3CTD则在跟踪过程中利用同一专家跟踪器来纠正自身行为。 方法与架构   问题设定:将跟踪问题定义为马尔可夫决策过程(MDP),包含状态、动作、状态转移和奖励函数等要素。状态由利用前一帧边界框裁剪相邻两帧得到的图像块组成;动作是目标对象的相对运动向量,用于从先前边界框预测当前边界框;奖励函数基于预测边界框与真实边界框的交并比(IoU)定义。   智能体架构:跟踪智能体通过深度神经网络(DNN)同时维护策略和状态价值函数的表示,网络以两个图像块为输入,经卷积分支、全连接层、LSTM层等处理后输出动作和状态值。   训练过程:基于在线策略的异步Actor-Critic(A3C)强化学习框架进行端到端离线训练,部分智能体进行传统A3C学习,另一部分以监督方式模仿专家跟踪器动作,并采用课程学习策略辅助训练。   跟踪策略:A3CT自主跟踪目标;A3CTD在跟踪阶段利用学习到的状态价值函数评估自身和专家跟踪器的性能,据此选择输出自身或专家的边界框。 实验与结果   在GOT-10k、OTB-100、LaSOT、UAV123和VOT等基准数据集上的大量实验表明,所提跟踪器达到最先进性能且能实时运行。A3CT处理速度为90 FPS,A3CTD为50 FPS。例如,在GOT-10k测试集上,A3CT性能优于包括专家跟踪器SiamFC在内的多数方法,A3CTD在A3CT基础上进一步提升;在UAV123上,A3CTD也表现出色。 在这里插入图片描述

结论与未来工作   A3CT和A3CTD在多个基准上表现优异,适合实时应用。未来将研究集成更多专家跟踪器及专家池对跟踪器性能的影响。

YOLO 检测下基于 ETC-DDPG 算法的无人机视觉跟踪

2025.6.17 这篇论文聚焦于提升无人机动态目标跟踪的效率和精度,提出了结合DDPG算法与YOLO目标检测技术的ETC-DDPG算法,具体内容如下:

研究背景与问题   无人机凭借机动性强、成本低等优势,在搜索巡逻、电力巡检等任务中应用广泛,对地面车辆的稳定跟踪是其执行自主任务的关键能力。目前基于视觉的无人机跟踪技术虽有优势,但结合视觉图像与深度强化学习的方法存在训练过程不稳定、计算资源需求高等局限。

算法设计与优化

  • 核心算法:ETC-DDPG算法引入事件触发机制和课程学习来优化DDPG算法。事件触发机制通过动态调整策略更新频率,仅在目标状态变化超出阈值时触发更新,减少无效计算;课程学习构建分阶段训练框架,从基础跟踪任务逐步过渡到复杂飞行控制任务,提升无人机对复杂任务的适应性。
  • 相关技术结合:采用YOLO进行目标检测,其高检测速度能确保无人机实时捕捉目标位置;DDPG算法适合处理连续动作空间,结合事件触发机制和课程学习后,进一步提升了在跟踪任务中的性能。
  • 状态与动作空间:状态空间包含无人机与目标在x、y轴方向的距离、速度和加速度等6个维度;动作空间为三维连续空间,涉及偏航角、俯仰角和横滚角。
  • 奖励函数:改进了奖励函数,增加正奖励机制,不仅惩罚不良行为,还奖励良好行为,激励智能体学习更优策略。

实验与结果

  • 实验环境:基于ROS和Gazebo仿真框架,部署了四旋翼无人机和无人车,配备多种传感器,采用MAVLink协议实现通信。 在这里插入图片描述

  • 实验结果:ETC-DDPG算法成功率达93.357%,相比原始DDPG算法和ETC-TD3算法,成功率分别提升56.175%和37.1%,能有效提升跟踪效率和训练稳定性,减少计算资源需求。

  • 对比与消融实验:对比实验表明ETC-DDPG在动态目标跟踪中性能更优;消融实验验证了事件触发机制和课程学习的协同作用,事件触发机制降低计算需求,课程学习加快收敛速度。

  • 鲁棒性实验:调整超参数、权重初始化方式和神经元数量后,算法仍能稳定收敛,体现出良好的鲁棒性。

在这里插入图片描述 这个图表可堪称完美

结论与未来工作 ETC-DDPG算法通过事件触发机制和课程学习的协同作用,提升了无人机动态目标跟踪性能。未来将研究多目标、多障碍物等复杂场景下无人机与地面车辆的空地协同,进一步提升系统的复杂环境适应能力。

基于特征与深度强化学习方法的机器人视觉伺服技术研究

2025.6 中国科学院大学 博士学位论文

这篇论文围绕基于特征与深度强化学习方法的机器人视觉伺服技术展开研究,具体内容如下:

研究背景与问题   机器人视觉伺服控制是融合计算机科学、机器视觉与机器人运动控制的先进技术,在多个领域应用广泛。基于图像的视觉伺服控制虽无需依赖目标精确模型且鲁棒性较强,但面临复杂目标形状、非合作目标运动状态的影响,存在图像特征交互矩阵难获精确解析形式、控制系统收敛范围有限、视场限制等问题。

主要研究内容与方法

  • 基础理论建模

    • 基于空间算子代数理论推导机器人运动学与动力学模型,包括各关节速度、加速度的解析表达及递推关系,基于Newton-Euler方程给出动力学模型解析表达。
    • 分析视觉系统建模方法,采用张正友标定法标定摄像机内/外参数,利用改进灰狼算法对机器人视觉伺服系统手眼参数进行全局寻优。
  • 基于图像矩特征的控制

    • 针对一般轮廓目标的视觉伺服定位,提出6个图像矩特征控制摄像机俯仰与偏航运动,还提出离线算法选择最优图像特征,其交互矩阵解耦性好、条件数小,扩展了控制器收敛范围。
    • 针对动态目标跟踪中系统延迟影响精度的问题,提出基于自适应模糊的滑模控制算法,通过自适应模糊逻辑系统在线辨识并补偿跟踪误差,搭建基于LabVIEW Real-Time系统的实验平台验证。
  • 基于深度强化学习的端到端控制

    • 提出基于Soft-Actor-Critic算法的端到端深度神经网络视觉伺服控制器,以图像特征误差及机器人状态为输入,机器人关节控制速度为输出,避免位姿奇异。
    • 设计新颖奖励函数提高智能体训练效率与稳定性,通过对比仿真实验表明该方法在收敛域及控制精度上有优势,搭建基于Ros2与IGH主站的实验系统,验证其能从任意初始位姿实现误差收敛及亚像素级定位精度。 在这里插入图片描述
  • 动力学视觉伺服控制

    • 提出基于深度强化学习与时间延时估计的机器人动力学视觉伺服控制算法,设计眼在手配置的视觉伺服控制系统避免摄像机遮挡。
    • 采用双层控制架构,第一层为基于深度强化学习的端到端速度规划控制器,第二层结合时间延时估计与自适应神经网络构建动力学速度跟踪控制器,利用Lyapunov理论验证系统稳定性,通过仿真实验验证其对静态目标的视觉定位控制效果。
  • 实验与结果

    • 在静态目标定位实验中,所提图像矩特征相比传统特征收敛域更大、鲁棒性更强。
    • 动态目标跟踪实验中,自适应模糊补偿的滑模控制算法跟踪精度较传统方法提升一个数量级。
    • 基于深度强化学习的端到端控制在仿真和实际实验中均实现亚像素级定位精度,且泛化能力较好。
    • 动力学视觉伺服控制算法在名义模型、不同延迟时间及有系统扰动情况下,均能有效实现静态目标视觉定位控制。

    结论与未来工作   论文提出的多种方法在机器人视觉伺服控制中表现优异。未来将探索构建完全解耦的图像特征、将基于深度强化学习的端到端控制器应用于动态目标跟踪任务、在实际机器人平台验证动力学视觉伺服控制器并改进优化等。

    高性能可拓展视频目标跟踪算法研究

    2024.12.15 博士学位论文 大连理工大学   这篇论文围绕高性能可拓展的视频目标跟踪算法展开研究,从精度、效率和可拓展性三个方面提出解决方案,具体内容如下:

    研究背景与挑战   目标跟踪在计算机视觉中占据核心地位,广泛应用于安防监控、自动驾驶等领域。但实际应用中仍面临诸多挑战:精度上,现有算法边框预测精度不足,难以捕捉长距离依赖关系;效率上,先进跟踪模型计算量和参数量大,难以实时运行和在资源受限设备上部署;可拓展性上,传统算法多针对单一子任务优化,缺乏泛化能力,难以应对复杂任务需求。

    在这里插入图片描述

    主要研究内容与方法

  • 高精度视频目标跟踪算法

    • 基于精确边框与掩码估计的高精度跟踪算法:核心是精确的边界框修正和掩码预测模块,能与任何跟踪器结合提升精度。通过探索多种特征融合模块和预测头部设计,最终采用像素级相关层、关键点预测头及辅助掩码头,可在增加少量计算负担的情况下显著提高跟踪精度,在多项基准上表现优异。 在这里插入图片描述 在这里插入图片描述

    • 基于时空Transformer的高精度跟踪算法:构建全新跟踪框架,用Transformer替代相关实现模板与搜索区域的深度交互,引入动态模板更新机制引入时序信息,通过简洁的角点预测头直接获取目标边框。该算法能充分利用视频时空信息,简化推理流程,在短时和长时跟踪基准上均表现出色且能实时运行。 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

  • 高效率视频目标跟踪算法

    • 面向开放词汇跟踪的实时跟踪算法:针对开放词汇跟踪效率问题,提出解耦注意力特征增强器、高速嵌入存储、核插值三项关键技术,突破文本编码器、特征增强器和实例解码器的计算瓶颈,相比以往最优开放词汇跟踪器,运行速度提升20倍,精度相当甚至更优。 在这里插入图片描述
    • 基于网络结构搜索的轻量化跟踪算法:提出适用于目标跟踪任务的网络结构搜索框架、轻量化搜索空间与搜索流程。搜索出的轻量化跟踪器在保证精度的同时,减少了参数量和计算量,能在多种移动设备上实时运行,缩小学术研究与工业应用的差距。
  • 可拓展视频目标跟踪算法

    • 基于时空对应的多任务跟踪算法(Unicorn):针对单目标与多目标跟踪统一的挑战,提出目标先验作为任务切换开关,实现统一预测头部;基于传播和关联优化目标,提出统一对应关系学习方法;采用统一网络输入和骨干网络,实现输入层面统一。该算法实现四项目标跟踪任务在网络架构和学习范式上的统一,在多项基准上表现优异。
    • 基于物体发现与检索的多任务跟踪算法(UNINEXT):将六项目标跟踪任务统一为提示词引导的物体发现与检索问题。通过提示词生成模块将多样化提示转化为统一格式,利用前融合模块融合图像与提示特征,通过物体发现与检索模块预测实例候选并选出最匹配实例。该算法能灵活跟踪不同目标,在多项任务上表现卓越。 在这里插入图片描述
  • 实验与结果

    • 高精度算法在多个短时和长时跟踪基准上精度超越现有方法,同时保证实时性。
    • 高效率算法在资源受限设备上速度提升显著,且精度未明显下降。
    • 多任务算法在多项跟踪任务中,与专用模型相比性能相当或更优,展现出良好的泛化能力和可拓展性。

    结论与展望   论文提出的算法在精度、效率和可拓展性上均有显著提升。未来将探索更优骨干网络,优化训练与搜索算法以降低计算成本,引入新的时空信息提取机制,提升对未见过类别的跟踪能力,进一步推动视频目标跟踪技术的发展。

    基于目标运动与外观特征的多目标跟踪算法研究

    2024.6 硕士学位论文 西安理工大学

      这篇论文围绕多目标跟踪中存在的轨迹混淆、轨迹断裂和跟踪丢失等问题展开研究,提出了相应的解决方案,具体内容如下:

    研究背景与问题

      多目标跟踪在智能监控、自动驾驶等领域需求日益增加,但复杂场景中存在诸多挑战:目标相互接近导致轨迹混淆,目标被遮挡导致轨迹断裂,目标长时间消失导致跟踪丢失,这些问题影响了跟踪的准确性和稳定性。

    主要研究内容与方法

  • 基于重匹配机制的多目标跟踪算法

    • 问题针对:解决目标相互接近导致的轨迹混淆问题。

    • 核心方法:将第一次匹配未成功的高分检测框与低分检测框共同参与第二次匹配,提高高分检测框的匹配概率,降低漏检率。 在这里插入图片描述

    • 流程:通过YOLOX获取检测框并分为高分和低分两类,第一次匹配高分检测框与轨迹,未匹配成功的高分检测框与低分检测框合并进行第二次匹配,最终处理未匹配的轨迹和检测框。

  • 基于特征匹配与校正的多目标跟踪算法

    • 问题针对:解决目标被遮挡导致的轨迹断裂问题。

    • 核心方法:提取低分检测框和未匹配轨迹预测框的嵌入特征,计算余弦相似度,并基于未匹配时长设计可信度计算方法校正相似度,增强同一目标在不同帧间的连贯性。 在这里插入图片描述

    • 流程:高分检测框与轨迹首次匹配后,对低分检测框和未匹配轨迹进行第二次特征匹配,利用校正后的相似度矩阵完成匹配。

  • 基于动态目标匹配策略的多目标跟踪算法

    • 问题针对:解决目标长时间消失导致的跟踪丢失问题。

    • 核心方法:综合考虑短期关联中IOU和长期关联中特征匹配的重要性,采用基于gate机制的动态匹配策略,实时更新gate值调整检测框与轨迹的关联方式。 在这里插入图片描述

    • 流程:首次匹配后,对未匹配的检测框和轨迹,通过IOU计算相似度矩阵,结合gate值判断使用IOU或特征匹配的相似度,完成动态匹配。

  • 实验与结果

    • 数据集:在Mot17和Mot20标准数据集上进行实验,这两个数据集包含复杂场景和密集人群,适合验证算法性能。
    • 结果:
      • 基于重匹配机制的算法提升了高分检测框利用率,在MOTA、IDF1等指标上优于Bytetrack等算法。
      • 基于特征匹配与校正的算法减少了轨迹断裂,FN指标显著降低,MOTA指标接近先进水平。
      • 基于动态目标匹配的算法在目标长时间消失场景中表现优异,MOTA指标与顶尖算法差距极小。

    结论与展望   论文提出的三种算法分别有效解决了轨迹混淆、断裂和丢失问题,在多个数据集上验证了有效性。未来将探索端到端多目标跟踪模式,优化特征提取网络以应对遮挡,平衡跟踪速度与精度,并采用更先进的检测算法提升整体性能。

    基于深度强化学习的多目标跟踪技术研究

    2525.5.16 杭州电子科学技术大学 硕士学位论文

    在这里插入图片描述在这里插入图片描述   一个非常标准的毕业设计的论文结构。

      这篇论文聚焦于基于深度强化学习的多目标跟踪技术,旨在解决传统多目标跟踪方法在大规模、高动态目标场景中存在的实时性和准确性问题,具体内容如下:

    研究背景与问题   多目标跟踪技术在雷达信号处理、智能驾驶等领域应用广泛,但传统方法在处理大规模目标时,目标状态分配环节计算复杂度高,难以满足实时性要求。随机有限集理论虽能处理复杂环境下的多目标跟踪问题,但在大规模场景中仍存在计算效率不足的问题。而强化学习在解决分配问题时展现出计算成本低的优势,因此论文将随机有限集理论与深度强化学习结合,以提升多目标跟踪的实时性和准确性。

    主要研究内容与方法

  • 基于深度强化学习的目标状态分配方法

    • 将多目标跟踪中的目标状态分配问题建模为在线二分图匹配模型,进一步转化为马尔可夫决策过程。

    • 设计基于深度确定性策略梯度(DDPG)的强化学习模型,包含演员网络和评论家网络。演员网络通过结构简化降低计算量,输出匹配决策;评论家网络捕获历史匹配信息,优化策略网络。 模型训练架构图

    • 实验表明,该方法在运行时间和匹配准确度上综合性能优异,在大规模图中耗时仅为匈牙利算法的30.91%,能满足实时性要求。

  • 基于随机有限集和强化学习的多目标跟踪方法

    • 建立基于标签多伯努利(LMB)滤波器的多目标跟踪模型,利用联合预测更新思想将多目标跟踪状态剪枝合并为分配问题。 在这里插入图片描述

    • 引入上述基于深度强化学习的分配方法进行多目标状态分配,传递多目标后验密度,输出多目标航迹信息。

    • 仿真实验证实,该方法在保证跟踪准确性的同时,有效提高了实时性,满足实际应用需求。

  • 实验与结果

    • 在不同规模的二分图数据集上,所提深度强化学习分配方法相比基于图神经网络、贪婪策略等方法,在匹配质量和运行时间上综合表现更优。
    • 在多目标跟踪仿真场景中,与基于Murty算法、Gibbs采样的LMB滤波器及GLMB滤波器相比,结合深度强化学习的LMB滤波方法(LMB-DRL)在运行时间上优势显著,同时保持了较高的跟踪精度,平均OSPA距离与传统方法接近。

    结论与展望   论文提出的方法有效提升了多目标跟踪的实时性和准确性。未来将进一步优化算法的收敛速度和稳定性,探索自适应调整机制以适应动态环境,并拓展算法在无人驾驶、智能监控等领域的应用。

    Others

    The use of reinforcement learning algorithms in object tracking: a systematic literature review 2024,引用9 强化学习算法在物体追踪中的应用:系统文献综述 Deep reinforcement learning in computer vision: a comprehensive survey 2022,引用262 计算机视觉中的深度强化学习:全面概述

    Deep learning in multi-object detection and tracking: state of the art 2021,引用321 多目标检测与跟踪中的深度学习:最新进展

    Analysis Based on Recent Deep Learning Approaches Applied in Real-Time Multi-Object Tracking: A Review 2021,引用45 基于近期深度学习方法的实时多目标跟踪分析综述

    参考文章:基于强化学习的目标跟踪论文合集 深度强化学习的视觉追踪

    赞(0)
    未经允许不得转载:网硕互联帮助中心 » 基于强化学习的目标跟踪 研究初探
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!