传统基于规则的方法在复杂多变的环境中泛化能力不足,难以兼顾效率与经济性。基于此,提出一种基于深度强化学习的决策规划方法,通过合理设计状态与动作空间,并构建兼顾效率、经济性、安全性与舒适性的回报函数,在矿区非结构化道路场景中开展仿真验证。结果表明,该方法在多方面均表现优异,有效提升了车辆的决策规划能力,为自动驾驶在复杂道路环境中的应用提供了新思路。

前言
自动驾驶系统的决策规划模块负责解析环境信息并生成安全高效的行驶指令,其性能直接影响车辆在复杂交通环境中的可靠性。近年来,深度强化学习作为一种新兴的人工智能技术,在自动驾驶决策规划方面展现出了巨大的潜力。
传统基于规则的方法依赖专家设计的逻辑(如状态机、决策树等)进行决策,在结构化道路中表现良好,但在矿区、工地等非结构化场景中性能显著下降。例如,有研究采用博弈论方法优化变道决策,或设计规则解决复杂交叉口问题,但在非结构化道路中适应性有限。
近年来,深度强化学习展现出巨大潜力。例如,有研究结合蒙特卡洛树搜索和强化学习来优化高速公路决策,或利用博弈论方法处理无信号交叉口的交互问题。此外,分层控制框架和拟人化决策模型也被用于提升驾驶策略的适应性和安全性。然而,这些方法在矿区等极端非结构化道路中的决策规划仍有待深入探索。
本文提出的基于DDPG(Deep Deterministic Policy Gradient)的决策规划方法,通过合理定义状态和行动空间,并设计综合考虑运营效率、经济性、安全性和舒适性的回报函数,在矿区道路场景中进行模拟试验。实验结果表明,该方法在车辆行驶效率、经济性、安全性以及舒适性等多方面表现出色,为自动驾驶技术在实际复杂道路环境中的应用提供了新的思路和方法。
基于DDPG的决策规划
2.1 基于DDPG的决策架构
DDPG是一种结合深度学习和强化学习的先进算法,专门用于处理连续动作空间的强化学习问题。它通过Actor-Critic架构实现智能体与环境的交互学习,演员-评论员机制的核心思想是将带基准线的策略梯度方法与时序差分思想相结合。其中演员(actor)对应策略函数,负责生成动作并与环境进行交互;评论员(crit⁃ic)对应值函数,负责评估当前策略的优劣,并指导演员下一阶段的动作。
2.2 训练状态集与行为定义
2.2.1 状态集定义
在对矿区场景的实地调研与分析基础上,状态集的核心要素定义如下:a.本车状态:位置、速度、航向角等;b.全局参考信息:参考线、期望轨迹点等; c.环境信息:道路边界、障碍物等信息。
因此,定义状态集S为:本车当前位置y,本车当前速度v,本车当前航向角ϕ,全局信息Globa(l 全局参考轨迹点xref 、yref 、νref 、ϕref 等),环境障碍物信息Oblis(t附近最近的N个障碍物信息,如相对本车的位置dNx、dNy,相对本车的航向角dNϕ以及相对本车的速度dNν等),S的表达式如下:
S = (x,y,v,ϕ,Oblist,Global)
2.2.1 行为定义
a. 左转、右转:是指根据道路分支或避让慢速车辆调整方向而做出的左转或者右转的决策动作。例如,在矿区主干道行驶时,前方存在慢速车辆,车辆需要左转绕开慢速车辆,以提高通行效率,采用强化学习方式做出左转动作决策。在左转或右转状态下,车辆根据转向指令选择合理的绕行路径,实现超车绕行,提高通行效率。
b. 巡航:是指道路畅通时保持当前速度与方向。当道路状况良好,前方没有障碍物时,巡航是一种高效且安全的行驶方式,通过强化学习来做出巡航动作决策。 在巡航状态下,车辆沿着全局参考路径并按照全局规划速度高效行驶。
c. 跟车:前方存在其他低速车辆,当无法采用左转或右转绕行或者绕行路径上有风险时,采用跟车行驶策略。跟车行驶状态下车辆需要根据前车的速度和距离来调整自身的速度,保持安全车距,同时避免频繁超车或减速。
d.AEB(自动紧急制动):当车辆前方突然出现高风险障碍物时,采用自动紧急制动,降低碰撞风险,通过强化学习做出紧急制动动作决策。
2.3 回报函数设计
DDPG通过优化长期累积奖励来指导智能体学习最优策略,因此回报函数的设计需要准确反映驾驶决策的预期目标。为此,构建了包含四个关键维度的复合回报函数:行驶效率、能耗经济、行车安全和乘坐舒适性。
2.3.1 运营效率回报
在矿区等物流运输场景中,高效行驶可以减少人工远程干预,提升车辆营业价值,因此提高运营效率对商业化应用至关重要。为了使智能体学习到高效的运行策略,采用两项指标作为奖励回报:第一是鼓励车辆保持较高的速度行驶可以减少行驶时间;第二是尽可能向终点方向行驶。通过这两方面的回报奖励,能较准确地表征运营效率,从而让智能体学习到高效运行策略。
2.3.2 安全性回报
安全性回报函数设计考虑障碍物距离和道路边界距离回报Rsafe,尽可能让车辆行驶在距离道路边界和障碍物较远的区域,从而让智能体学习到安全行驶策略。碰撞在行车过程中是严重的问题,是不允许发生的事件,若发生碰撞,则给予严重惩罚,否则为0。
2.3.3 舒适性回报
舒适性回报衡量车辆行驶的平稳性,主要包括速度变化约束,能减少智能体频繁转向绕行和跟车决策,避免急加减速,通过方向变化约束,能减少智能体频繁转向决策,减少连续急转,提高舒适性。
2.3.4 综合回报
将这三部分回报相加得到总的回报,以此来指导车辆在行驶过程中综合考虑运营效率、经济性、安全性和舒适性,实现最优的决策规划。
2.4 DDPG神经网络设计
本研究基于DDPG框架构建决策规划模型,采用Actor–Critic双网络结构,其中Actor负责生成连续动作,Critic评估状态–动作对的价值,并结合随机环境生成与终止条件设计提升训练效率与泛化能力。
a. 评价器网络(Critic)
评价器由状态子网络与动作子网络组成。状态输入经全连接层映射至400维特征空间并经ReLU激活,动作输入经全连接层映射至300维特征空间。两者特征在加法层融合后,经过ReLU激活及全连接层输出Q值。
b. 策略网络(Actor)
策略网络以状态为输入,依次经过全连接层与Re⁃LU激活,最终通过tanh层将输出限制在[−1,1][-1,1][−1,1]范围内,并结合softmax层生成动作概率分布。
c. 单幕训练终止条件
为提高训练效率,设置如下终止条件:①抵达终点;②与障碍物碰撞;③超出道路边界;④长时间低速或静止。
d. 随机环境生成
为防止在特定环境中陷入局部最优,构建随机化的矿区动态障碍物环境。依据某矿区长期运营条件下统计的实际交通行为,设定障碍物行为概率(如沿边界行驶0.7、横穿0.05、掉头0.01、卸载区等待0.8等),并据此生成轨迹输入训练网络,以提升模型的泛化能力。

算法训练
本文采用的仿真平台为Prescan Matlab软件。Pr⁃escan提供驾驶环境、感知设备、车辆动力学等必要的自动驾驶要素;Matlab建立强化学习等智能算法,并与Pr⁃ escan集成,实现模型在线训练。最后会将本文DDPG方法与基于规则的方法在相同环境下进行对比仿真试验。
3.1 模型训练环境构建
本研究基于某矿区60台矿卡长期运营数据,提取关键道路特征,构建了矿区自动驾驶作业环境。模拟环境涵盖坡度变化、不同附着系数路面及道路曲率变化等影响车辆动力学的路段,设置了单行道、交叉路口、装卸区等典型无明确车道边界场景,并在道路上随机布置静态障碍物以模拟碎石等实际情况。
3.2 训练环境集成
将设计的DDPG智能体与训练环境集成。外围训练环境主要包含全局路径规划、局部路径规划、速度规划、控制单元以及Prescan仿真场景等。将Prescan仿真场景反馈的障碍物状态及自车状态信息作为智能体的连续状态空间输入,并基于多目标优化回报函数计算环境回报,反馈到智能体。DDPG智能体通过Actor网络输出连续动作(如巡航、转向等),用于后端局部路径规划及控制单元的决策运算。
3.3 模型训练
训练Agent每一幕最大步数设置为1500步,当超过最大步数或者提前达到终点时,该幕结束,进入下一幕。实验总幕数Episodes设置为20000幕。
在固定场景下,经过2000幕训练后模型收敛,回报值稳定,车辆逐渐学会预期策略。平均行驶速度从1m/s提升至3.5m/s,接近设定目标速度;平均行驶距离从90m增长至330m,显示车辆能有效避障并完成驾驶任务,达到了较好的训练效果。

测试对比
根据实际作业流程,在相同试验环境下开展模型在环(MIL)测试和硬件在环(HIL)测试,对比分析基于规则与基于DDPG的决策方法。车辆运营路线包括从装载区出发,经平直路、上坡、弯道、T型路口、大弯道等路段,到达装载区平台后重载沿原路返回卸载区。在矿区复杂交通环境中,基于规则的决策方法表现较为保守,尤其是面对低速前车时车辆多处于跟随状态,导致行驶速度低、任务时间长,影响效率。相比之下,基于DDPG的决策策略能灵活变道避障,更好地跟踪全局规划车速,实际速度与目标速度误差更小,显著提升了运行效率。
为了进一步验证所提出的基于DDPG的决策规划方法在实际硬件环境中的可行性和有效性,进行了硬件在环测试。测试环境由中央域控制器、实时仿真器、传感器套件以及矿区场景仿真平台组成。HIL测试结果与MATLAB/Simulink仿真趋势一致,在多障碍物场景下,由于左侧也有障碍物,基于规则方法只能做出不换道慢速跟车的决策,而基于DDPG的方法能做出快速换道并避开障碍物的决策。

结语
本文提出了一种基于深度强化学习的决策规划方法,用于解决非结构化矿区道路场景下的自动驾驶问题。通过合理设计状态空间、动作空间及多目标优化回报函数(综合考虑运营效率、经济性、安全性和舒适性),在仿真矿区环境中进行了对比试验。MIL与HIL测试结果表明,相较于传统规则型方法,DDPG算法在提升车辆运行效率、降低能耗、增强避障安全性及优化行驶平顺性等方面具有显著优势。
然而,当前研究仍存在进一步优化的空间。例如,矿区环境的动态复杂性(如天气变化、路面湿滑、突发障碍物等)尚未完全建模,未来可结合更精细的环境感知数据来提升算法鲁棒性。此外,DDPG算法的训练稳定性、样本效率及对高维状态空间的适应性仍需改进,以更好地适应矿区实时决策需求。
未来,随着矿区无人驾驶技术的深入应用,本研究方法可进一步结合多智能体协同、在线自适应学习等技术,以应对更复杂的实际作业场景。同时,也需要进一步探索深度强化学习在非结构化道路自动驾驶中的泛化能力,推动其在矿山、港口等特殊场景的落地应用