
中国粉体网讯 近日,浙江大学大公布了名为“基于人类动作预测模型的多指灵巧手操作强化学习方法”的新专利,属于人形机器人灵巧手具身操作领域。
来源:章国锋.基于人类动作预测模型的多指灵巧手操作强化学习方法
随着具身智能技术的快速发展,如何以数据驱动方式赋予人形机器人通用操作技能,已成为当前机器人领域的研究热点。其中,多指灵巧手凭借仿人化结构设计,可在多种复杂场景下完成精细操作,实现拟人化的多指灵巧操控,是迈向通用人形机器人的关键环节。
在数据驱动的多指灵巧手操作学习领域,现有方法主要分为三类。
第一类为传统强化学习方法,该方法依赖奖励函数引导进行大量探索,通常需要针对不同任务重新设计奖励函数。
第二类方法直接使用数据集中的人手轨迹,经重映射生成灵巧手专家轨迹,再通过模仿学习复现操作行为。
第三类方法通过神经网络,根据预先硬编码的物体轨迹预测灵巧手未来运动轨迹,并结合残差强化学习优化底层控制。
然而,现有技术存在显著缺点。首先,多指灵巧手由于关节数量众多,在空间自由度和复杂度上远超常见的机器人操作末端(例如平行夹爪),这使得第一类方法容易出现由于探索空间过大而导致训练收敛速度慢、成功率不稳定的问题;此外,由于灵巧手和物体之间的交互行为存在复杂的非线性动力学特征,需要人工地针对不同场景、不同任务来设计奖励函数,这使得第一类方法难以实现通用的奖励函数设计。第二类方法过度依赖记忆人类数据,因此泛化性能差,无法应对全新的物体和位姿,且完全忽略了对被操作物体的感知和理解;第三类方法要求预先知道被操作物体的完整轨迹,使其在开放世界的真实机器人部署成本增加,且对物体初始位姿的要求极高,难以处理物体初始位姿明显偏离训练数据的情况。
综上所述,现有方法大多仅单纯模仿人手行为,忽视了对被操作物体的感知理解,以及人手与物体间交互过程的整体建模,导致在不同物体、不同位姿、不同任务下的泛化性能较差。因此,如何引入物体感知与理解、如何将人手—物体交互过程作为整体进行预测,成为亟需解决的核心技术问题。
浙大团队采用标注了人手与物体三维位姿的数据,训练人类动作预测模型,以实现人手与物体交互三维轨迹的泛化生成。基于该预测轨迹构建通用奖励函数,用于在仿真环境中训练灵巧手的强化学习策略。随后,通过仿真参数域随机化与课程学习,提升策略从仿真到现实的迁移性能,最终将训练完成的强化学习策略部署至真实机器人系统中。
来源:章国锋.基于人类动作预测模型的多指灵巧手操作强化学习方法
此专利通过引入对被操作物体的未来姿态的理解,将人手和物体的交互过程作为一个整体来预测,并基于此构建统一、简洁、高效的奖励函数,适用于不同的操作任务、不同类型的灵巧手,具有泛化性强、成功率高、奖励函数通用性强等优点。
参考来源:
章国锋.基于人类动作预测模型的多指灵巧手操作强化学习方法
(中国粉体网编辑整理/月明)
注:图片非商业用途,存在侵权告知删除!