网站导航

ReKep——李飞飞团队提出的让机械人具备空间智能

　　因为工场、车厂的使命需求场景很是明白，加之自本年岁首年月以来，我司正在机械人这个标的目的的持续鼎力度投入(包罗南京、长沙两地机械人开辟团队的先后组建)，使得近期我司七月接到了不少来自车厂/工场的订单，好比此中的三个例子：柔性上料、物料分拣、RL仿实平台搭建中级，面向科研场景，帮一系列公司或高校复界最的开源机械人，使其最终落地于小工场或家务，硬件成本十来万到几十万而既然正在机械人这个行业，故我们对该范畴的各类前沿进展一直连结极高关心(终究正在这种高科技范畴，那关心世界级前沿是必不成少的)，从而当然，你正在阅读ReKep这篇论文时，欢送利用我司七月开辟的基于大模子的翻译系统(目前已上线七月官网，左边英文左边中文，如斯中英文对照下的阅读效率奇快非常)如我司机械人手艺合股人姚博士所说，“ReKep的方式基于大模子，添加活动，而我们之前做的更多基于端到端的公用数据模子”好比对于现有的大模子，你让它倒杯茶，它能很快给你推理出来第一步干什么、第二步干什么、第三步干什么但这终究是理论，比及实正在世界中现实沏茶时，会碰到各类问题，好比要握好茶壶、挪动茶壶的时候不要洒出、倒茶的时候要把茶嘴取杯子对齐这些都需要对整个物理空间有，且每一步的活动都有必然的束缚，这就叫空间智能那没有空间智能，机械人能不克不及完成倒茶这类使命呢？能，好比通过额外的锻炼好比基于人类示教，然后让机械人仿照人类行为——即所谓的仿照进修，便能够那若是不进行额外的锻炼只纯真靠大模子推理 + 机械人本身的活动节制能力呢？理论上也能够，但可能不敷不变、不敷丝滑、不敷精准我司会正在大模子和机械人这两个标的目的不竭深挖，就像深海挖井，为达预期虽两万里亦往矣，等候取更多大模子开辟者、机械人开辟者一前行考虑下图中的倒茶使命：起首，机械人必需抓住把手；其次，正在运输过程中连结杯子曲立；最初对齐壶嘴取方针容器，并以准确的角度倾斜杯子进行倒茶正在这里，这些束缚不只编码了两头的子方针(例如，对齐壶嘴)，还编码了过渡行为(例如，正在运输过程中连结杯子曲立)，这些束缚配合决定了机械人正在中步履的空间、时间和其他组合要求然而，无效地为各类现实使命制定这些束缚前提面对着严沉挑和，之前有不少相关的工做，而李飞飞团队则提出了关系环节点束缚——ReKep，具体来说每个函数由环节点上的(可能线性的)算术运算构成，并编码了它们之间的期望“关系”，这些环节点可能属于中的分歧实体，例如机械人手臂、物体部件和其他代办署理虽然每个环节点仅包含其界坐标系中的三维笛卡尔坐标，但若是环节点之间的刚性rigidity获得，多个环节点能够配合指定线、面和/或三维扭转他们正在挨次操做问题的布景下研究 ReKep，此中每个使命涉及具有时空依赖关系的多个阶段——例如，上述示例中的“抓取”(当然，精确来讲，还包含“挪动)、“对齐”、“倒入”操纵LVM来提出场景中细粒度且语义上成心义的环节点，并利用VLM好比GPT-4o将这些束缚写成「基于视觉输入并叠加了环节点的」Python函数Specifically， we leverage LVM to propose fine-grained and semantically meaningful keypoints in the scene and VLM to write the constraints as Python functions from visual input overlaid with proposed keypoints。起首处理一组径点做为子方针(暗示为SE(3)结尾施行器姿势)「即，to first solve a set of waypoints as sub-goals (represented as SE(3) end-effector poses) 」然后处理退化视界节制问题，以获得实现每个子方针的稠密动做序列「即，and then solve the receding-horizon control problem to obtain a dense sequence octions to achieve each sub-goal」ReKep专注于需要6度（单臂）或12度（双臂）活动的挑和性使命然而，这对于现有的VLMs来说并不简单，由于它们正在2D图像上操做——正如MOKA [97]所援用的，“当前的VLMs无法靠得住地预测6度的活动”，以及PIVOT [98]所说的，“推广到更高维度的空间，如扭转姿势，以至带来了额外的挑和”很多研究也通过言语相关的使命规划器来处置多阶段使命(这些使命规划器取具体的方式无关)，ReKep的公式从TAMP中罗致灵感，并正在同一的持续数学法式中无机地将高级使命规划取初级动做集成正在一路因而，该方式能够天然地考虑跨阶段的几何依赖关系，并以及时频次进行处置。当发生毛病时，它会回溯到其前提仍然能够满脚的前一阶段例如，正在“倒茶”使命中，只要当茶壶嘴取杯口对齐时，机械人才能起头倾斜茶壶。然而，若是正在此过程中杯子被挪动，它该当将茶壶连结程度并从头取杯子对齐。或者，若是茶壶被从夹持器中取出，它该当从头抓住茶壶利用VLMs的一个常见问题是运转计较成本高，这障碍了很多操做使命中经常需要的高频次-步履反馈轮回。因而，大大都现有工做要么考虑正在视觉仅正在起头时利用的开环设置，要么只考虑能够接管慢速施行的使命相反，ReKep的公式通过将VLMs取点逃踪器连系，原生支撑高频次-步履轮回，这无效地通过闭环施行实现了反映行为——虽然操纵了很是大的根本模子ReKep奇特意考虑利用视觉提醒进行代码生成，此中代码可能包含通过视觉援用表达式对一组环节点进行肆意算术运算虽然单个点正在捕获复杂几何布局方面有，但多个点及其关系以至能够指定向量、概况、体积及当时间依赖性实现为一个无形态的 Python 函数，包含对环节点进行的 NumPy [123] 操做，这些操做可能线性和非凸的素质上，这些环节点可能属于机械人手臂、物体部件和其他代办署理然而，一个操做使命凡是涉及多个空间关系，而且可能具有多个时间上彼此依赖的阶段，每个阶段都包含分歧的空间关系然后阶段2的子方针束缚指定茶壶嘴需要正在杯口上方此外，阶段2的径束缚(path constraint)，确保茶壶连结曲立，以避免正在运输过程中洒出利用ReKep做为暗示束缚的一般东西，采用[7，Sequence-of-constraints mpc！ Reactive timing-optimal control of sequential manipulation]中的公式，并展现若何将操做使命表述为涉及的转换时间where et denotes end-effector pose at time t， gi ∈ {1，。。。， T } are the timings of the transition from stage i to i + 1，优化过程应找到一个结尾施行器的姿势做为下一个子方针，以及其对应的时间，同时生成一个姿势序列，以实现该子方针，并满脚给定的ReKep束缚和辅帮价格Namely， for each stage i， the optimization shall find an end-effector pose as next sub-goal， along with its timing， and a sequence of poses egi−1！gi that achieves the sub-goal， subject to the given set of ReKep constraints and auxiliary costs。为领会及时处理方程1，能够对整个问题进行分化，只优化紧接着的下一个子方针及其达到下一个子方针的响应径——算法1中的伪代码，如下图所示(此中的Eq。2 是求解子方针，Eq。3是求解对应的径，下文顿时会详述)它们最后利用双沉退火 [126] 和 SLSQP [127] 做为局部优化器(大约1秒)处理，然后基于先前的处理方案仅利用局部优化器以大约10 Hz1的频次处理包含辅帮节制成本，好比场景碰撞避免、可达性reachability、姿势正则化、处理方案分歧性，以及双手设置的自碰撞的同时，最小化辅帮成本」的子方针另，若是一个阶段涉及抓取，还包罗一个抓取怀抱——则能够利用AnyGrasp「其对应论文为《Anygrasp！Robust and efficient grasp perception in spatial and temporal domains》，即此文《视觉言语机械人的大迸发：从RT2、VoxPoser、OK-Robot到Figure 01、CoPa 》中“4。2。2 机械人对现实世界物体的抓握”提到的AnyGrasp」决策变量是单臂机械人正在 R6中的单个结尾施行器姿势(和欧拉角），以及双手机械人正在 R12中的两个结尾施行器姿势正在第一次求解迭代中，初始猜测选择为当前的结尾施行器姿势。正在第一次迭代中利用基于采样的全局优化双沉退火 [126] 快速搜刮整个空间整个过程正在这一迭代中大约需要1秒钟正在随后的迭代中，利用前一阶段的处理方案，而且只利用局部优化器，由于它能够快速调整小的变化优化正在固定的时间预算内截止，暗示为方针函数挪用的次数，以连结系统高频运转ESDF计较聚合了来自所有可用摄像头的深度图，并利用cuRobo解除机械人手臂和任何被抓取的刚性物体「通过一个被遮罩的模子Cutie [136]进行)」然后利用ESDF计较一个碰撞体素网格，并由系统中的其他模块利用正在子方针求解模块中，我们起首利用最远点采样将夹持器点和被抓取物体点下采样到最多30个点然后我们利用带性插值的ESDF体素网格计较碰撞成本，而机械人手臂可能无法老是达到这些姿势，出格是正在狭小空间内，需要添加一个成本项，以激励找到具有无效关节设置装备摆设的处理方案因而，我们正在子方针求解器的每次迭代中利用PyBullet [133，「《Pybullet， a python module for physics simulation for games， robotics and machine learning》中的IK求解器」]处理一个逆活动学问题，并利用其残差做为可达性的代办署理顺带说一下，关于逆活动学，这篇论文《A survey of inverse kinematics techniques for 6-DOF manipulators》值得读一下这篇综述论文系统回首了用于6度机械臂的多种逆活动学求解手艺，包罗解析法、数值法和优化方式。论文对比了这些方式的优错误谬误，并按照使用场景供给了选择指点。它还会商了逆活动学正在机械人操做中的现实挑和，例如奇同性和冗余度处置发觉这大约占用了完整方针函数时间的40%。或者，能够正在关节空间中处理问题，这将通过强制施行鸿沟来确保处理方案正在关节范畴内且发觉，因为束缚正在使命空间中进行评估，而基于Python的实现效率较低——由于需要正在径求解器入彀算大量的正向活动学为领会决这个问题并确保效率，将来的工做能够考虑利用硬件加快的实现来处理关节空间中的问题 [58]分歧性因为求解器以高频次迭代处理问题，而且管道中的噪声可能到求解器，且发觉包含分歧性成本是有用的，他们计较了两组点之间的成对距离，每组包罗夹持器点和抓取物体点「After obtaining sub-goal egi ， we solve for a trajectory et！gi starting from current end-effector pose et to the sub-goal egi」，定义为方程3包含以下辅帮节制成本：场景碰撞避免、可达性、径长度、处理方案分歧性，以及正在双手设置环境下的自碰撞总之，径问题利用 SciPy [125] 实现和处理。决策变量的数量是按照当前结尾施行器姿势和方针定义了一个固定的步长(20厘米和 45度），并线性近似所需的“两头姿势”数量，这些数量被用做决策变量。如正在子方针问题中一样，它们同样利用和欧拉角暗示，并具有不异的鸿沟对于第一次求解迭代，初始猜测选择为起点和方针之间的线性插值同样正在第一次迭代中利用基于采样的全局优化，然后是基于梯度的局部优化器，而且正在后续迭代中仅利用局部优化器正在获得处理方案后，该处理方案暗示为若干两头姿势，利用当前姿势、两头姿势和方针姿势拟合样条，然后对其进行稠密采样以由机械人施行正在方针函数中，起首对决策变量进行反归一化并利用分段线性插值来获得暗示径的稠密离散姿势序列(下文称为“稠密样本”)In the objective function， we first unnormalize the decision variables and use piecewise linear in-terpolation to obtain a dense sequence of discrete poses to represent the path (referred to as “dense samples” below) 样条插值将取他们后处置和施行处理方案的体例连结分歧，但他们发觉线性插值正在计较上更为高效计较方式雷同于子方针问题，只是针对每个稠密样本进行计较且忽略了起始和方针姿势附近 5厘米半径内的碰撞计较，由于正在高频次求解时，因为各类现实世界的噪声，这有帮于不变处理方案别的添加了一个桌面断根成本，以赏罚径穿透桌面（或轮式单臂机械人工做空间的底部)取子方针问题一样，激励处理方案接近前一个。具体来说，存储了前一次迭代的稠密样本。为了计较处理方案的分歧性，利用两个序列(视为两个调集)之间的成对距离做为无效的代办署理或者，能够利用Hausdorff距离同样为双臂平台计较自碰撞避免，就像正在子方针问题中一样，还利用两个序列之间的成对距离来无效地计较此成本接着，再看回溯！虽然子问题能够正在及时频次下处理，以正在一个阶段内对外部干扰做出反映，但若是最初一个阶段的任何子方针束缚不再成立(例如，正在倒茶使命中，系统必需可以或许跨阶段从头规划？。

发布于 : 2026-01-13 09:29

ReKep——李飞飞团队提出的让机械人具备空间智能

联系我们

关于我们

产品中心