百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一

csdh11 2025-05-05 15:00 2 浏览

本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为新加坡国立大学实习生许立昕和博士生刘子轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别为硕士生桂哲玮、实习生郭京翔、江泽宇以及博士生徐志轩、高崇凯。本文的通讯作者为新加坡国立大学助理教授邵林。

在物流仓库、生产线或家庭场景中,机器人常常需要在大量杂乱摆放的物体中高效地抓取目标。

在这些场景中,如果使用机械夹爪,由于其自由度有限、灵活性不足,需要多次对场景进行操作;而高自由度的灵巧手虽然具有潜在优势,但因控制复杂和训练难度大,在密集遮挡与复杂排列场景下往往表现不佳。

现有方法常采用先分离、后抓取的策略,存在策略切换不够灵活,执行效率低下的问题。

为解决这一挑战,来自新加坡国立大学的邵林团队提出了 DexSinGrasp——一种基于强化学习的统一策略,通过整合物体分离与抓取任务,令灵巧手在杂乱环境中能够自适应调整分离与抓取策略,显著提高抓取成功率和操作效率。该项研究已投稿至 IROS 2025。

论文标题:DexSinGrasp: Learning a Unified Policy for Dexterous Object Singulation and Grasping in Cluttered Environments

论文链接:
https://arxiv.org/abs/2504.04516

项目主页:
https://nus-lins-lab.github.io/dexsingweb/

代码链接:
https://github.com/davidlxu/DexSinGrasp

为了让机器人在多变的杂乱环境中高效分离物体并抓取目标,DexSinGrasp 提出了「统一策略」的设计。该方法通过强化学习构建了一体化的策略框架,实现了「分离—抓取」动作的无缝衔接。该项研究的主要贡献有:

统一强化学习策略:提出一种统一的强化学习策略,实现灵巧手在杂乱环境中对物体的有效分离和抓取。

课程学习与策略蒸馏:融入杂乱环境课程学习以提升不同场景下的策略性能,并通过策略蒸馏获得适用于实际部署的视觉抓取策略。

多难度抓取任务设计:设计一系列不同难度与排列的杂乱抓取任务,通过大量实验验证所提方法的高效性与有效性。

方法

统一强化学习策略

DexSinGrasp 的核心在于构建一个统一的策略框架,引入分离奖励项,将「分离障碍」、「抓取目标」整合为一个连续的动作决策过程,充分利用了分离与抓取融合的优势,避免传统多阶段方法中各模块间效率低下和动作衔接不畅的问题。为此,我们设计了一个分段式奖励函数,其关键组成包括:

杂乱环境课程学习

在高度杂乱的场景中直接训练机器人往往容易陷入局部最优,导致成功率低下。为此,我们引入了「杂乱环境课程学习」的机制,具体包括:

任务分级设计:从最简单的单目标抓取任务开始,逐步引入障碍物。我们设计了不同难度的任务,例如:

密集排列任务:用 D-4、D-6、D-8 表示,不同数字代表环境中障碍物数量的递增;

随机排列任务:用 R-4、R-6、R-8 表示,以验证策略在非规则分布场景下的泛化能力。

循序渐进训练:先在障碍物较少且排列较规则的环境中训练出初步策略,然后逐步过渡到障碍物数量更多、排列更随机的复杂场景。这样的训练策略能显著提高策略的稳定性和泛化性能,确保机器人在极端密集的环境下也能有效分离并抓取目标。

教师—学生策略蒸馏

在仿真环境中,我们能够利用精确的物体位置、力反馈等特权信息训练出高性能的教师策略。但在真实场景中,这些信息难以获取,为此我们设计了教师—学生策略蒸馏方案:

教师策略:利用仿真中丰富的特权信息训练出性能优异的策略,能够精细地控制物体的分离和抓取动作。

数据采集与行为克隆:通过教师策略生成大量示范数据(包括视觉观测、点云数据以及动作指令),并采用行为克隆的方法训练出只依赖摄像头采集的点云和机器人自感知数据的学生策略。这样,在真实环境中,机器人无需额外传感器信息也能保持高成功率,完成从仿真到实机的平滑迁移。

实验结果

为了测试 DexSinGrasp 策略在分离抓取时的有效性和泛化性,以及杂乱环境课程学习的有效性,设计了三组实验进行测试,并与两种基线比较。

基线 1 仅训练了一个抓取策略,没有鼓励对周围物体进行分离。基线 2 将分离和抓取策略分开且分阶段进行。

评价指标为抓取成功率(SR)和平均步数(AS)。抓取成功率越高,说明策略的有效性越高,平均步数越少,说明策略的效率越高。

实验 1

对教师策略和学生策略在不同数量障碍的紧密排列进行测试,证明了 DexSinGrasp 的有效性和高效率。图示是教师策略在密集摆放模式下障碍物数量为 4、6、8 时的仿真演示。

实验 2

对教师策略和学生策略在不同数量障碍的随机排列进行测试,结果证明了 DexSinGrasp 在随机物体摆放下也可以实现成功分离抓取,对不同的场景有一定泛化性。图示是教师策略在随机摆放模式下障碍物数量为 4、6、8 时的仿真演示。

实验 3

对杂乱环境课程学习的方式进行测试。我们尝试了无课程学习、先随机排列再紧密排列的课程学习,以及先紧密排列再随机排列的课程学习的训练模式。

我们发现,无课程学习训练的各个策略中,随机排列的任务表现不佳;先随机排列再紧密排列的课程学习获得的各个策略中,紧密排列的任务表现不佳;而先紧密排列再随机排列的课程学习在不同的任务上均取得了不错的成功率,证实了所提出的课程学习机制在不同场景下的有效性。

此外,研究团队还在实机平台上进行了验证。使用 uFactory xArm6 搭载 LEAP 手,并配备两台 Realsense RGB-D 摄像头以进行实时点云数据融合与滤波处理。图示为实机实验中对密集与随机摆放的 4、6、8 个物体场景下成功分离与抓取的演示。实验表明,经过教师—学生策略蒸馏后的视觉策略在实际操作中也能有效完成杂乱环境的有效分离与抓取。

总结

研究团队所提出的 DexSinGrasp 是一种基于强化学习的统一框架,通过整合物体分离与抓取任务,实现了灵巧手在杂乱环境中的高效操作。

该方法突破以往直接抓取或多阶段分割的策略,利用推移、滑动等动作在抓取过程中直接调整障碍物布局,结合环境复杂度递进式的杂乱环境课程学习与教师—学生策略蒸馏技术,有效提升视觉策略的泛化能力与仿真到现实的迁移效果。

实验表明,该方法在多种测试场景中展现出优于传统方法的抓取成功率和操作效率。未来研究将拓展至动态复杂场景下的多形态物体操作,增强抗干扰能力,进一步提高系统在非结构化环境中的泛化性与适应性。

相关推荐

NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一

本文的作者均来自新加坡国立大学LinSLab。本文的共同第一作者为新加坡国立大学实习生许立昕和博士生刘子轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别为硕士生桂哲玮、实习生郭京翔、江泽宇以及...

「PLC进阶」如何通过编写SCL语言程序实现物料分拣?

01、前言SCL作为IEC61131-3编程语言的一种,由于其高级语言的特性,特别适合复杂运算、复杂数学函数应用的场合。本文以FactoryIO软件中的物料分拣案例作为硬件基础,介绍如何通过SCL来实...

zk源码—5.请求的处理过程一(http1.1请求方法)

大纲1.服务器的请求处理链...

自己动手从0开始实现一个分布式 RPC 框架

前言为什么要自己写一个RPC框架,我觉得从个人成长上说,如果一个程序员能清楚的了解RPC框架所具备的要素,掌握RPC框架中涉及的服务注册发现、负载均衡、序列化协议、RPC通信协议、Socket通信、异...

MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,...

线程池误用导致系统假死(线程池会自动销毁吗)

背景介绍在项目中,为了提高系统性能使用了RxJava实现异步方案,其中异步线程池是自建的。但是当QPS稍微增大之后却发现系统假死、无响应和返回,调用方出现大量超时现象。但是通过监控发现,系统线程数正常...

大型乘用车工厂布局规划(六大乘用车基地)

乘用车工厂的布局规划直接影响生产效率、物流成本、安全性和未来扩展能力。合理的布局应确保生产流程顺畅、物流高效、资源优化,并符合现代化智能制造和绿色工厂的要求。以下是详细的工厂布局规划要点:1.工厂布...

西门子 S7-200 SMART PLC 连接Factory IO的方法

有很多同学不清楚如何西门子200smart如何连接FactoryIO,本教程为您提供了如何使用西门子S7-200SMARTPLC连接FactoryIO的说明。设置PC和PLC之间的...

西门子博图高级仿真软件的应用(西门子博途软件仿真)

1.博图高级仿真软件(S7-PLCSIMAdvancedV2.0)S7-PLCSIMAdvancedV2.0包含大量仿真功能,通过创建虚拟控制器对S7-1500和ET200SP控制器进行仿真...

PLC编程必踩的6大坑——请对号入座,评论区见

一、缺乏整体规划:面条式代码问题实例:某快递分拣线项目初期未做流程图设计,工程师直接开始编写传送带控制程序。后期增加质检模块时发现I/O地址冲突,电机启停逻辑与传感器信号出现3处死循环,导致项目延期2...

统信UOS无需开发者模式安装软件包
统信UOS无需开发者模式安装软件包

原文链接:统信UOS无需开发者模式安装软件包...

2025-05-05 14:55 csdh11

100个Java工具类之76:数据指纹DigestUtils

为了提高数据安全性,保证数据的完整性和真实性,DigestUtils应运而生。正确恰当地使用DigestUtils的加密算法,可以实现数据的脱敏,防止数据泄露或篡改。...

麒麟KYLINIOS软件仓库搭建02-软件仓库添加新的软件包

#秋日生活打卡季#原文链接:...

Java常用工具类技术文档(java中工具类的作用)

一、概述Java工具类(UtilityClasses)是封装了通用功能的静态方法集合,能够简化代码、提高开发效率。本文整理Java原生及常用第三方库(如ApacheCommons、GoogleG...

软路由的用法(自动追剧配置)(软路由教学)

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:值友98958248861环境和需求...