“火出圈”的聊天机器人程序ChatGPT
和《流浪地球2》中的“幕后大佬”MOSS
近日引起人们的好奇
敲代码、写情书、做题......
ChatGPT为什么啥都会
人工智能是如何变得“智能”的
事实上,这一切都离不开
研发者“耳提面命”式的启蒙、指导和训练
让我们通过一项训练人工智能转骰子的比赛
看看北京大学图灵班两名大三学生
如何指导出一名聪明的“人工智能学生”
趣味性比赛与硬核挑战
在人工智能顶级会议NeurIPS 2022(第36届神经信息处理系统大会)上,由北京大学人工智能研究院杨耀东助理教授、计算机学院前沿计算研究中心董豪助理教授共同指导,北京大学信息科学技术学院2020级图灵班本科生耿逸然和安博施作为共同第一作者获得MyoChallenge挑战赛Die Reorientation赛道冠军。
挑战赛提供了一套高逼真度的肌肉-骨骼灵巧手模型以及交互环境,参赛者需要设计一套科学有效的训练方法,培养出一个通用的人工智能算法,来控制仿生灵巧手完成随机的抓取、转动骰子等既定任务,最终成功率最高、需要肌肉施加力最小的团队将获胜。该挑战吸引了来自全球十多个国家的40个顶尖队伍参加,共产生了340余份有效方案。
怎样教会人工智能认识骰子?怎样指导它用手靠近并抓取骰子?怎样训练它转动骰子到指定角度?看似有趣的比赛背后是一系列的挑战。
不同于只能控制每个独立关节的灵巧手,此次比赛采用的基于肌肉的仿生灵巧手具有“牵一发而动全身”的特点,如果控制指尖的肌肉收缩,整根手指的所有关节都会受到影响;控制一个关节向不同方向转动也将涉及到不同的肌肉。此外,MyoChallenge的手部模型还引入了肌减少症、肌肉疲劳和肌腱转移等异常情况,再加上挑战环境包含了物体初始位置随机化、任务目标随机化以及物体的物理属性(如物体大小和摩擦力)的随机化等许多随机参数,意味着一个更接近人类手部条件的复杂仿生手和一个随机变化的未知环境,这既考验人工智能从一无所知到熟能生巧的学习能力,也考验作为“老师”的参赛者们的训练策略。
左侧:不同灵巧手控制方式;右侧:MyoChallenge中的特殊灵巧手模型
怎么“教”人工智能?
比赛的核心竞争集中在寻找一个能够适应特殊手部控制模型以及参数随机化的策略,也就是说,因材施教地指导人工智能自主学习。对耿逸然和安博施来说,在特定的问题背景中选取合适的方法成为最大的挑战。在经历了几次尝试的失败后,他们决定采用强化学习框架来在模拟器里训练他们的策略,通过奖励塑造(Reward Shaping)、课程学习(Curriculum Learning)和多目标训练(Multi-target Training)等技巧来提高训练后的策略的性能。
奖励塑造
这一方法就好比训练动物完成一些特殊动作的过程。水族馆中饲养员在海豚完成高难度动作后用作奖励的小鱼类似于强化学习框架下的奖励函数,在算法有希望完成目标动作的时候加大奖励函数,从而激励算法逐渐掌握目标动作。
课程学习
这与人类从易到难学习一门知识的过程相似。如果一次性完成骰子重定向任务很难,那就拆分成三个课程分别学习:拿稳骰子、90°以内的重定向、180°以内的重定向。算法将先从最简单的拿稳骰子学起,最后完成最困难的180°重定向任务,在逐步增加课程难度的过程中使算法的性能稳定上升。
多目标学习
相比于课程学习通过改变环境难度逐步完成任务,多目标学习则是在不变的环境难度下将一个课程分解成多个子任务,这与体操比赛中的组合动作练习类似。在体操中,运动员需要连续地完成一系列不同的动作。多目标学习过程要求算法控制仿生灵巧手连续地完成多个重定向任务,从而提高对物体的掌控能力。
方法概览
与之相伴的问题是,训练策略的过程中需要大量算力支持,耿逸然打了一个形象的比方:“我们面临的算力需求大概是日常使用的‘游戏本’电脑的10倍甚至30倍,在此基础上训练一个有竞争力的智能体需要的训练时间大致为3到5天。”学院及时为他们提供了硬件上的支持,在指导老师杨耀东和董豪的帮助之下,算力问题得到有效解决,这也为团队的研发打下良好的基础。最终,这些方法共同产生的成功率比MyoChallenge中给出的基线算法有了明显的改善(在挑战的第一阶段提升为70%,第二阶段为11%)。
经过MyoChallenge提供的仿生灵巧手控制算法测试平台的验证,在本次的挑战中,耿逸然和安博施团队采用的强化学习框架下基础而有效的方法,证明了强化学习算法进行复杂的骨骼-肌肉模型的运动控制以及与物体交互的可行性。
成长的“沃土”
耿逸然和安博施能够在人工智能国际顶级会议的比赛中拿到冠军并在会议中做报告实属不易。成就的背后是北京大学图灵班和北京通用人工智能研究院的有力支撑:图灵班的科研轮转为学生了解不同方向、学习多元内容、立体认识科研提供了良好的环境;而北京通用人工智能研究院汇集了一群顶级的人工智能专家,帮助本科生也能走到国际科研最前沿。耿逸然坦言这样的科研环境之于他的重要作用:
“我的科研导师是董豪老师和杨耀东老师,他们总能给我及时的指导和帮助,从理论学习到实验设计,再到论文写作与投稿,都能“手把手”帮我解决问题。
除此之外,图灵班科研轮转还提供了和其他不同领域的老师学习知识,拓展视野的机会:我分别在王鹤老师、穆亚东老师、卢宗青老师那里学习了三维视觉、机器人和视觉相关的结合内容以及强化学习的理论知识。
而在北京通用人工智能研究院,朱松纯院长为我指明了研究方向,我也有机会和许多非常优秀的研究员一起合作。”
在这些知识背景的滋养下,他在ICRA 2023(国际机器人与自动化顶级会议)中,再次与安博施作为共同第一作者发表了题为RLAfford:End-to-End Affordance Learning for Robotic Manipulation(基于端到端可操作性学习的机器人操纵框架)的研究论文,并参与了另外两篇ICRA中稿论文的算法设计与实验。
在RLAfford中,作者利用强化学习过程中的接触信息,结合三维视觉表达可操作性信息,可以统一描述各类操作任务(如开关门,抓取物体等任务),并具有即插即用的特点。
在这次比赛的基础上,他与合作者继续探索着人工智能与环境交互的问题,从机械臂到灵巧手,从简单环境到复杂场景,从虚拟引擎到真实世界,不断探索人工智能的无限可能性。
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。