卓越期刊建设
当前位置: 首页 > 卓越期刊建设 > 正文

文章推荐 | 学习游泳:基于深度强化学习的欠驱动机器鳗鱼的在线运动控制

发布日期:2023-03-14     点击量:

视频赏析

内容摘要

机器鱼作为一种典型的水下机器人,其游泳控制和降低能耗的方法一直是研究热点。灵活的身体结构和被动设计已被证明是提高机器鱼游泳性能的有效方法,但是被动结构或运动的加入会使得机器鱼的运动控制更加困难。本文提出了一种基于深度强化学习的运动控制方法,用于在线学习控制具有多段被动结构的机器鳗鱼。文章设计的机器鳗鱼包含2个线驱动模块和2个弹性材料制成的被动顺从体;建立机器鳗鱼的仿真模型,并验证了模型的有效性;将仿真模型部署在机器鳗鱼上,在没有底层控制模型或策略的情况下,由神经网络直接在线控制机器鳗鱼的运动。大量实验验证了本文提出的运动控制方法的有效性,这为难以建模和控制的机器人提供了极具价值的解决方案。

图文导读

(一)本文搭建的欠驱动机器鳗鱼全长0.607 m,总重量约为1.675 kg,结构如图1所示。机器鳗鱼由2段主动身体和2段被动身体组成,由于只考虑水平面的运动,并未设计胸鳍。2段主动身体都由拉线机构驱动,每段分别配有1个伺服电机,通过转盘旋转来驱动离散的关节,并采用1 mm的硅胶套筒(Ecoflex 00-50, Smooth-On)填充主动身体的关节间隙;以硅胶(Ecoflex 00-10, Smooth-On)作为材料,并分别使用定制的模具浇注形成顺从身体和顺从尾巴。微控制器(Arduino UNO)根据设定的程序计算并输出相应的脉宽调制信号到两个伺服电机(SAVOX SW-1210SG),实现机器鳗鱼的在线运动控制。

图1 机器鳗鱼的结构

(二)机器鳗鱼的在线运动控制策略如图3所示。根据给定的控制目标训练神经网络,训练完成后将其直接部署在机器鳗鱼上,在机器鳗鱼的顶部安装标记物,获得实时位置和姿态信息,并基于视觉反馈进行实时在线控制。

图3 机器鳗鱼的控制策略

为验证机器鳗鱼仿真模型的准确性和可靠性,使用相同的控制信号开展控制测试实验。如图4所示,仿真模型与物理机器鳗鱼在原点附近的游动趋势一致,误差保持在较小范围内,表明仿真模型具有较高的可靠性。

图4 机器鳗鱼的仿真测试

本文以降低机器鳗鱼能量消耗并实现直线运动为学习目标,重点研究了机器鳗鱼的直线游泳姿态和游泳效率。为了充分探索机器鳗鱼的运动控制,使用SAC(soft actor-critic)算法训练神经网络,SAC是深度强化学习中适用于连续动作控制的经典算法,它允许对动作进行更随机的探索,并且可以避免过早地陷入局部最优。根据控制目标设置奖励函数:

(三)研究人员开展了大量实验验证本文提出的在线控制方法的有效性。通过训练得到有效的神经网络,分别采用在线和离线的方法控制机器鳗鱼并评估其游动性能。实验在180 cm×140 cm×60 cm的水池中进行,全局摄像机安装在水池上方(距离地面170 cm),以30 Hz的频率捕捉图像数据。

为了选择合适的参数组成观测空间,图像数据被实时发送到计算机,计算机通过识别机器鳗鱼顶部的标记物来捕获机器鳗鱼的运动数据,标记物的对应位置和机器鳗鱼的运动数据如图5所示。本文选择了13个运动参数构成观测空间:

图5 标记物的对应位置和机器鳗鱼的运动数据

本文采用3种离线控制方法和在线控制方法进行对比分析,4种控制方法的输出信号如图7所示,图7(a)-(d)分别对应在线控制、中心离线控制、离线控制方法1和离线控制方法2。将训练好的神经网络应用在仿真中,得到仿真机器鳗鱼的控制输出数据,通过曲线拟合逼近和调整相位差得到3种离线控制方法。训练得到的机器鳗鱼的运动周期约为0.5 Hz,与真实鳗鱼的低频游动相似。对每种控制方法,都进行5次实验,并分别从直游速度、能量消耗和游动偏移3个方面分析不同控制方法的性能。

图7 4种控制方法的输出信号

本文通过测量机器鳗鱼8 s内在x轴方向的前进距离,比较4种控制方法的直游速度(图8)。在线控制实现了约0.4 m的最长前进距离,表明在线控制可以实现最大游泳速度,拟合在线控制得到的中心离线控制具有第二高的速度。这两种控制方法下机器鳗鱼的直游速度明显高于其他控制方法,证明了本文所提方法的有效性。

图8 4种控制方式下机器鳗鱼的前进距离

文章采用运输成本(COT)评估4种控制方法下机器鳗鱼的能源消耗水平(表2),COT 越低,机器鳗鱼的能量利用效率就越高。与速度优势相似,在线控制和中心离线控制的能量利用率都显著高于其他两种控制方法,表明本文的学习方法实现了游泳效率的优化。由于在线控制的信号不是固定的周期值,存在突变的情况,增加了能量消耗,因此在线控制的 COT 略高于中心离线控制。

表2 4种控制方法下机器鳗鱼的能量消耗

游动偏移实验的结果如图9所示,在线控制具有约0.014 m的最小游动偏移。闭环视觉反馈使得在线控制能保持高效的直线游泳,而所有离线方法都不能有效解决游动偏移的变化问题。

图9 4种控制方法下机器鳗鱼的游动偏移

实验结果表明,在线和离线控制方法都能实现机器鳗鱼的直线游动,并且这些控制信号本质上都是由神经网络产生的,证明了该方法对欠驱动机器鳗鱼运动控制的有效性。在控制性能上,在线控制可以将直线游泳的偏差限制在最小范围内,通过本文提出的深度强化学习优化方法,在线控制可以获得最快的游泳速度和次低的游泳成本,整体游泳性能明显优于离线控制。

【作者信息】

Qixin Wang, Zicun Hong,Yong Zhong*

Shien-ming Wu School of Intelligent Engineering, South China University of Technology, Guangzhou 510640, China* Author to whom correspondence should be addressed: zhongyong@scut.edu.cn

【DOI】

https://doi.org/10.1016/j.birob.2022.100066

【全文链接】

期刊信息

Biomimetic Intelligence and Robotics (BIRob, e-ISSN 2667-3797, p-ISSN 2097-0242, CN 37-1527/TP)聚焦仿生智能与机器人领域,主要发表高质量原创理论和应用研究成果,入选2019年“中国科技期刊卓越行动计划”高起点新刊类项目(第一批)。

涉及领域包括但不限于:仿生设计、仿生材料、仿生驱动与感知、工业机器人、服务机器人、特种机器人、医疗机器人、微型和纳米机器人、软体机器人、外骨骼系统、机器学习、人机交互、运动学和动力学、运动规划与控制、自主系统、多机器人系统等。期刊接收包括原创研究论文、综述、短篇通讯等多种类型的文章,目前对作者和读者均免费,平均审稿周期30天,诚邀广大学者将高质量的创新成果投稿至本刊。期刊将为仿生智能和机器人领域最具创新性的新发现和最具影响力的应用提供国际交流平台,以促进机器人学、仿生学和人工智能领域的进步和原创性贡献。

期刊官网:

https://www.journals.elsevier.com/biomimetic-intelligence-and-robotics

期刊联系方式:

bir@sdu.edu.cn

投稿网址:

https://www.editorialmanager.com/birob/default1.aspx

联系我们

地址:中国山东省济南市山大南路27号

邮编:250100

传真:(86)-531-88565657