快捷搜索:

给予机器人类似人类的感知他们的物理环境

亚历克莎,到厨房给我拿点零食来。

难道我们不都希望在家里得到一点小小的帮助吗?尤其是如果这种帮助是一个聪明、适应性强、不会抱怨的机器人的话。当然,在家电领域也有只有一招的roomba。但麻省理工学院的工程师们正在设想机器人更像家庭助手,能够执行高级的、alexa类型的指令,比如到厨房给我拿咖啡杯。

为了完成这样高水平的任务,研究人员认为机器人必须能够像人类一样感知他们的物理环境。

为了做出任何决定,你需要对你周围的环境有一个心智模型,麻省理工学院航空航天学助理教授卢卡·卡龙说。这对人类来说是轻而易举的事情。但对机器人来说,这是一个痛苦而困难的问题,要把它们通过相机看到的像素值转换成对世界的理解。

现在,卡龙和他的学生们已经开发出一种机器人的空间感知模型,该模型模仿人类感知和导航世界的方式。

新模型,他们称3 d动态场景图,使机器人能够快速生成的3 d地图环境还包括对象和它们的语义标签(例如,一把椅子和一个桌子),以及人、房间,墙壁和其他结构,机器人有可能看到在其环境。

该模型还允许机器人从3D地图中提取相关信息,查询物体和房间的位置,或者在其路径上的人的移动。

这种环境的压缩表示是有用的,因为它允许我们的机器人快速做出决策和规划路径,Carlone说。这与我们人类的所作所为相差无几。如果你需要计划从家里到麻省理工学院的路线,你就不能计划好你需要的每一个职位。你只考虑街道和地标,这有助于你更快地规划路线。

卡龙说,除了家务助理之外,采用这种新型环境心理模型的机器人还可能适用于其他高级职位,比如在工厂车间与人并肩工作,或者为幸存者探索灾难现场。

他和他的学生,包括第一作者和麻省理工学院研究生Antoni Rosinol,将在本周的机器人:科学和系统虚拟会议上展示他们的发现。

一个映射混合

目前,机器人的视觉和导航技术主要在两方面取得了进展:3D制图技术使机器人能够在实时探索的过程中以三维的方式重建环境;以及语义分割,它帮助机器人将其环境中的特征分类为语义对象,比如一辆汽车和一辆自行车,到目前为止大部分都是在2D图像上完成的。

carron&rosinol&o的新空间感知模型是第一个实时生成环境的三维地图,同时也在该三维地图中标记物体、人(与物体相反,是动态的)和结构。

该团队的新模型的关键组件是Kimera,这是一个开源的库,该团队先前开发它来同时构建一个环境的三维几何模型,同时编码一个物体是椅子还是桌子的可能性。

就像神话中的生物是不同动物的混合体一样,我们希望Kimera在3D中是映射和语义理解的混合体。Carlone说。

Kimera的工作是通过从机器人的摄像机中获取一连串的图像,以及机载传感器的惯性测量,来估计机器人或摄像机的轨迹,并将场景重建成一个3D网格,所有这些都是实时的。

为了生成一个语义3D网格,Kimera使用一个训练了数百万真实图像的现有神经网络,来预测每个像素的标签,然后使用一种被称为射线投射的技术将这些标签投射到3D中,这种技术在计算机图形学中用于实时绘制。

其结果是一个机器人环境的地图,类似于一个密集的三维网格,其中每个面都被颜色编码为环境中的物体、结构和人的一部分。

一个分层的场景

如果一个机器人仅仅依靠这个网格在它的环境中导航,这将是一个计算昂贵和耗时的任务。因此,研究人员在Kimera的基础上开发了构建3D动态场景图的算法。来自kimera&o的初始的,高密度的,3D语义网格。

在三维动态场景图中,相关算法将详细的三维语义网格抽象或分解为不同的语义层,使机器人可以看到不同的语义层。通过一个特定的层或镜头的一个场景。从物体和人,到开放空间和结构,如墙壁和天花板,到房间、走廊、大厅,最后是整个建筑。

Carlone说,这种分层表示避免了机器人在原始3D网格中对数十亿个点和面进行理解。

在物体和人这一层中,研究人员还能够开发出实时跟踪环境中人类运动和形状的算法。

研究小组在与麻省理工学院林肯实验室合作开发的逼真模拟器上测试了他们的新模型,该模拟器模拟了一个机器人在充满人走动的动态办公环境中导航。

我们本质上是让机器人拥有与人类相似的心智模型,Carlone说。这将影响到许多应用,包括自动驾驶汽车、搜索和救援、协同制造和家用机器人。

另一个领域是虚拟增强现实(AR)。想象一下,戴着运行我们算法的增强现实眼镜:这款眼镜将能够帮助你处理诸如“我把我的红色马克杯放在哪里了?”最近的出口是什么?你可以把它想象成一个Alexa,它能感知你周围的环境,理解物体、人以及它们之间的关系。

我们的方法之所以成为可能,多亏了最近在深度学习方面的进步,以及几十年来同步定位和绘图方面的研究,松香油说。通过这项工作,我们正向机器人感知的新时代——空间人工智能(spatial-AI)迈进,这个时代还处于起步阶段,但在机器人技术和大规模虚拟及增强现实领域有着巨大的潜力。

参考文献:三维动态场景图:对地点、物体和人的可操作的空间感知Antoni Rosinol, Arjun Gupta, Marcus Abate, Jingnan Shi和Luca Carlone著,《机器人:科学与系统》。

链接

这项研究的部分资金来自陆军研究实验室、海军研究办公室和麻省理工学院林肯实验室

您可能还会对下面的文章感兴趣: