电子学报 ›› 2020, Vol. 48 ›› Issue (9): 1711-1719.DOI: 10.3969/j.issn.0372-2112.2020.09.007

• 学术论文 • 上一篇    下一篇

基于深度强化学习的端到端无人驾驶决策

黄志清1,3, 曲志伟1,3, 张吉1,3, 张严心2, 田锐1,3   

  1. 1. 北京工业大学信息学部, 北京 100124;
    2. 北京交通大学电子信息工程学院, 北京 100044;
    3. 北京市物联网软件与系统工程技术研究中心, 北京, 100124
  • 收稿日期:2018-08-18 修回日期:2020-05-20 出版日期:2020-09-25 发布日期:2020-09-25
  • 作者简介:黄志清 男,1970年11月出生于四川荣县,博士.现为北京工业大学信息学部副教授,主要研究方向为无人驾驶智能决策控制、车联网及区块链等.E-mail:zqhuang@bjut.edu.cn
    曲志伟 男,1995年2月出生于山东省烟台市.现为北京工业大学信息学部硕士研究生,主要研究方向为无人驾驶智能决策控制与深度强化学习.E-mail:quzhiwei@emails.bjut.edu.cn
    张吉 男,1994年12月出生于北京市.分别于2016年和2019年在北京工业大学获得学士和硕士学位.研究方向为强化学习和自动驾驶.E-mail:s201625019@emails.bjut.edu.cn
    张严心 女,1976年2月出生于辽宁省盘锦市,博士.现为北京交通大学电子信息与工程学院副教授,主要研究方向是复杂大系统的智能控制、无人驾驶中的智能控制、复杂交通网络控制等.E-mail:yxzhang@bjtu.edu.cn
    田锐 男,1983年1月出生于湖北省天门市,博士.现为北京工业大学信息学部讲师,主要研究方向是车联网、区块链、多方安全计算等.E-mail:rui.tian@bjut.edu.cn
  • 基金资助:
    国家自然科学基金(No.61502018)

End-to-End Autonomous Driving Decision Based on Deep Reinforcement Learning

HUANG Zhi-qing1,3, QU Zhi-wei1,3, ZHANG Ji1,3, ZHANG Yan-xin2, TIAN Rui1,3   

  1. 1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China;
    2. School of Electronic and Information Engineering, Beijing Jiaotong University, Beijing 100044, China;
    3. Beijing Engineering Research Center for IoT Software and Systems, Beijing 100124, China
  • Received:2018-08-18 Revised:2020-05-20 Online:2020-09-25 Published:2020-09-25

摘要: 端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG(Deep Deterministic Policy Gradient)的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息(如车辆转角,车辆速度,道路距离等)作为输入状态,输出车辆驾驶动作(加速,刹车,转向)的连续型控制量.然后在TORCS(The Open Racing Car Simulator)平台下不同的行驶环境中进行训练并验证,结果表明该模型可以实现端到端的无人驾驶决策.最后与离散型动作输出的DQN(Deep Q-learning Network)模型进行对比分析,实验结果表明DDPG决策模型具有更优越的决策控制效果.

关键词: 无人驾驶, 端到端决策, 深度强化学习, 深度确定性策略梯度算法

Abstract: The end-to-end driving decision making is a research hotspot in the field of autonomous driving.This paper studies the end-to-end driving decision of continuous action output based on DDPG (Deep Deterministic Policy Gradient) deep reinforcement learning algorithm.First,an end-to-end decision-making control model based on DDPG algorithm is established.The model outputs the continuous control quantity of vehicle driving action (acceleration,braking,steering) according to the continuously acquired perception information (such as vehicle angle,vehicle speed,road distance,etc.) as the input state.Then,the model is trained and verified in different driving environments on the platform of TORCS (The Open Racing Car Simulator).The results show that the model can realize the end-to-end decision-making of autonomous driving.At last,it is compared with DQN(Deep Q-Learning Network) model of discrete action output.The experimental results show that DDPG model has better decision control effect.

Key words: autonomous driving, end-to-end decision-making, deep reinforcement learning, DDPG

中图分类号: