当机器人有了好奇心
时间:2017-12-07

  当机器人有好奇心 - 新闻 - 科学网络

  在人工智能方面,计算机科学家对机器进行编程,好奇地探索周围环境,学习学习。这种新方法可以使机器人比现在学得更快。有一天他们甚至可能超越人类科学家来形成假说,推进已知的科学。

  发展好奇心是智力的核心问题。负责美国布朗大学智能机器人实验室的计算机科学家George Konidaris说,当你不确定如何处理机器人时,要好奇是非常有用的。

  多年来,科学家们一直在研究好奇心算法,但是复制人类的好奇心是一个两难的问题。例如,大多数方法并没有评估智能机器人在看到某些事物之前是否有兴趣的智力差距。 (人有时可以通过封面判断一本书是否有趣。)

  目前在英国伦敦为Google Deep Thinking工作的计算机科学家Todd Hester希望能够做得更好。我正在寻找让计算机更聪明地学习和探索人类的方法。海丝特说,不要去探索一切,不要去探索,而是去尝试做一些更聪明的事情。

  为此,得克萨斯大学的计算机科学家Hester和Peter Stone开发了一种名为TEXPLORE-VENIR的新算法,该算法依赖于强化学习。在密集学习中,程序会尝试一些东西。如果一个举动离最终目标(比如迷宫的终点)还有一步之遥,它会收到一笔小额奖金,并且更有可能在未来再次尝试。深思熟虑的公司使用增强的学习使程序成为Adelphi游戏和围棋游戏的随机试验。但是,像其他好奇的算法一样,TEXPLORE-VENIR也设定了一个固有的目标。如果它理解了一些新的东西,它就会自我奖励,即使它没有进一步离开它的最终目标。

  由于TEXPLORE-VENIR不断学习和构建世界模型,因此发现了与以前不同的信息。例如,发现地图上的偏远地方,或发现烹饪节目的异国情调。他们是完全不同类型的学习和探索。 Konidaris说,平衡它们是非常重要的。我喜欢这篇文章的地方是,它同时做到了。

  海丝特和斯通在两种情况下测试了他们的方法。首先是一个虚拟的迷宫,四个房间在一个圆圈内,房间通过锁着的门相连。机器人(只是一个电脑程序)必须找到钥匙,拿起钥匙,并用它来解锁门。每走过一个门,机器人将获得10分,并有3000步获得更高的分数。如果研究人员允许机器人只在TEXPLORE-VENIR的指导下首先探测1000步,则在3000步测试阶段平均约为55点。如果机器人使用其他好奇利用算法进行这样的攻击,则在测试阶段,除了使用称为R-Max的算法之外,其在0到35之间得分。后者也允许机器人获得约55分。在不同的环境中,机器人必须同时探索和穿越门。 TEXPLORE-VENIR得到约70分,R-Max得到约35分,其他算法得分不到5分。研究人员在6月份的“人工智能”杂志上报道了这个结果。

  随后,研究人员用固体机器人测试了他们的算法。这是一个叫做Nao的人形玩具。在三个不同的任务中,一个半米机器人需要打一个铙,,用手拿起粉红色的胶带或者按下他脚上的一个按钮来得分。每个任务都有200个步骤,但在此之前有400个步骤。这要么随机完成,要么使用TEXPLORE-VENIR。每种方法平均进行13次测试。与随机摸索相比,经过TEXPLORE-VENIR的探索后,Nao找到了粉红色的胶带更好,在13次实验中,他按了按钮七次。但经过一次随机的探索,并没有按一次。 TEXPLORE-VENIR可以很好地执行使用半结构化测试的任务,就像宝宝在学习爬行之前跳舞一样。

  好奇的机器人在做家务,设计高效的生产流程或寻求治疗疾病时表现出灵活的行为。海丝特说,下一步将是使用深层神经网络,算法,使用大脑结构作为模型,以更好地确定新的领域进行探索。顺便说一句,海丝特的探索更进一步:能让机器人像孩子一样学习吗?(宗华编译)

  阅读更多

  科学网站报道(英文)