首页 > 机器人 > 加州大学AI实验室让机器人拥有“童年”,“学会”学习
加州大学AI实验室让机器人拥有“童年”,“学会”学习

加州大学AI实验室让机器人拥有“童年”,“学会”学习

2019-01-20 09:00

#深度学习机器人


 

机器人紧紧地抓住门把手,或者把塑料香蕉投进碗中,亦或是用力在金属箱附近推动乐高积木......

 

如果您参观过加州大学伯克利分校 Sergey Levine 教授的实验室,您可能会看到这样一些场景。

 

Sergey Levine 的机器人实验室也许有一天会成为机器人的“游乐场”。

 

机器人为什么会玩耍?因为智慧就体现在生物通过戳东西、推动物体和观察发生的事情来了解自己的物理环境。

 

Levine 解释说:“证明智慧存在的唯一证据是在人类身上,而人类存在于物质世界中,是具体化的。事实上,我们所知道的所有智慧生物都是具体化的。也许他们不必如此,但我们并不知道例外情况。”

 

因此,更广泛地讲,“我认为机器人实际上是人工智能的一个透视镜”,他说道。

 

 
 

机器训练也应遵循“达尔文进化论”

 
 

 

Levine 认为,多年来,人们从机器人技术上得到的重大收获之一便是,它证实了“莫拉维克悖论”(Moravec\'s paradox)。

 

卡内基梅隆大学机器人学教授 Hans Moravec 在其 1988 年出版的《智力后裔:机器人和人类智能的未来》(Mind Children: The Future of Robot and Human Intelligence) 一书中谈到了 AI 的二分法。

 

机器可以被教会做“人类觉得困难的事情”,比如对战一局国际象棋。但机器在“对我们来说轻而易举的事情”上做得却不尽人意,比如基本的运动技能。

 

Levine 表示:“如果您想让一台机器下国际象棋,这实际上会相对容易些。但如果您想要一台机器来拾起棋子,却难于上青天。”

 

Moravec 把这种二分法看成是一条可制造智能机器的“重大线索”。他主张遵循达尔文进化论的路线来构建智能。也就是说,先从基本的感觉运动系统逐步发展,自下而上,然后才是更高的推理能力。

 

 
 

缺乏机器学习的现成数据

 
 

 

有人要喝咖啡吗?教机器学习可以创造能够与人类一起生活和工作的机器人。

 

与网上无数的猫图片不同,目前还没有可供机器人学习的现成数据。因此,他的实验室专注于让机器“连续几周探索环境,自主地推动物体、操控物体,然后了解所处的世界”。

 

Levine 使用各种机器学习技术来训练机器人,包括 CNN,尤其使用了增强学习,即通过从当前状态推断到目标状态来规划抵达目的地的路径。然后,机器人在测试时使用该策略来执行这些任务的新实例。

 

在训练阶段,玩物体游戏是“无人监督的”。目前人类尚未设计出机器人在执行任务时应该做出的精确动作,甚至也未指定目标。

 

神经网络确定了机器人应该实现的目标,然后确定了用于实现该目标的策略,包括机器人肢体的运动角度。

 

 
 

 “学会学习”

 
 

 

场外训练利用了 NVIDIA GPU 集群。在测试期间,每个机器人都连接一个 GPU,用于运行已学习到的策略。在一些更具挑战性的测试中(例如通过观看一段人类的视频演示来学习一项新策略),每台机器都连接了功能更强大的 NVIDIA DGX-1

 

Levine 表示,GPU 计算能力为 AI 带来两大好处。通过加速训练,它“允许我们更快地进行科研工作。”其次,在推理过程中,GPU 的强大功能可以实时做出反应,这对“机器人来说至关重要”。

 

“当机器人真正处于物质世界中时,如果它正在运动,例如闭门飞行,”类似无人机的情况,“它需要在撞到门之前弄清楚门是关着的。”

 

Levine 团队在增强学习方面的工作变得越发复杂。其中之一便是,教会机器人在测试时执行任务,就像它在训练中学到的那样。更具挑战性的是,让机器人学习能够解决新奇任务的策略。Levine 称,机器正在“学会学习”。

 

后者称为元学习(meta-learning),是他实验室日益关注的焦点。在近期发表的一篇名为《复合视觉运动任务的一次性分层模仿学习》(One-shot Hierarchical Imitation Learning of Compound Visuomotor Tasks) 的论文中,机器人首先观察人类演示一个简单的“原始”任务,比如将物体扔进碗中。它制定了一项策略来模仿该动作。

 

在测试时,机器人将从事一项“复合”任务,比如将物体扔进碗中,然后沿着桌子移动碗。机器人利用其先前处理简单任务掌握的经验,形成一“系列”策略,并借此来连续执行动作。

 

伯克利人工智能研究实验室也参与了我们的 NVIDIA AI 实验室计划。

 

Levine 的机器人仅在看到人类演示一次复合任务后,就能够模仿人类所演示的任务,这就是所谓的“一次性”学习。

 

 
 

机器人的成长

 
 

 

Levine 非常留意对 AI 持怀疑态度的人,比如纽约大学教授 Gary Marcus。Levine同意 Marcus 的观点,即今天的深度学习并不会带来更高的推理能力。

 

形成更高的推理能力可能是机器人生命周期中的一个过程,而不是单个神经网络。

 

他说:“我认为,如果未来机器人也能像我们一样拥有童年,那将是一件了不起的事情。”这样,机器人会通过各种发育阶段来取得进步。

 

Levine 若有所思地说,在最终的成年期,机器人的心智将会继续发展。

 

“如果你有个机器人须执行某种任务,比如进行施工。在停歇时,这个机器人不会只是坐在小房间里收拾尘土,实际上,它做事情的方式会和人类一样。”

 

 
 

回归现实

 
 

 

要使机器人能自行发育,我们还需从事大量的系统工程工作,并将其与深度学习相结合。但 Levine 相信,“在未来五年左右的时间里,我们将看到这些事情成为现实。”

 

“它可能从工业机器人开始,比如仓库、杂货店的机器人。但我认为我们会在日常生活中看到越来越多的机器人。”

 

点击收看视频了解更多信息: