(来源:MIT Technology Review)
在机器人的“眼中”,现实世界充满了海量需要处理的信息。想要理解场景中的每一个数据点,往往需要耗费大量的计算资源和时间。而在此基础上 ,利用这些信息来判断如何更好地帮助人类,更是一项颇具挑战的任务 。
如今,麻省理工学院的机器人专家找到了一种方法 ,能够帮助机器人过滤数据噪音,使其专注于场景中与协助人类最为相关的特征
他们将这种方法命名为“相关性(Relevance) ”。借助这一方法,机器人可以利用场景中的各种线索 ,比如音频和视频信息,来判断人类的目标,进而快速识别出最有可能助力实现该目标的物体。随后 ,机器人会执行一系列操作,安全地将相关物体递交给人类,或者完成相应动作 。
研究人员通过模拟会议自助早餐场景的实验,展示了这一方法的实际效果。他们摆了一张桌子 ,上面摆满了各式各样的水果、饮料、小吃和餐具,还配备了一个装有麦克风和摄像头的机械臂。运用新的“相关性”方法后,实验表明 ,机器人能够在不同场景中准确识别人类的目标,并提供恰当的帮助
在其中一个场景里,机器人捕捉到人类伸手去拿一罐冲调好的咖啡这一视觉线索 ,便迅速将牛奶和搅拌棒递给了这个人;在另一场景中,机器人听到两个人谈论咖啡的对话后,为他们送上了一罐咖啡和奶精 。
总体而言 ,该机器人预测人类目标的准确率可达 90%,识别相关物体的准确率更是高达 96%。而且,这一方法还显著提升了机器人的安全性 ,与未使用该方法执行相同任务相比,碰撞次数减少了 60% 以上。
麻省理工学院机械工程教授 Kamal Youcef-Toumi 表示:“这种实现相关性的方法,能让机器人与人类的交互变得更加容易 。机器人无需频繁询问人类的需求,而是主动从现场获取信息 ,自行判断如何提供帮助。”
Kamal 的团队正在探索,运用“相关性 ”编程的机器人在智能制造仓库场景中能发挥怎样的作用。他们设想,未来机器人可以与人类并肩工作 ,默契地提供协助 。
Kamal与研究生 Xiaotong Zhang 、Dingcheng Huang 将在今年 5 月举行的 IEEE 国际机器人与自动化会议上展示这一新方法。
寻找焦点
该团队的方法受到人类自身筛选日常生活中相关事物能力的启发。人类之所以能够过滤掉干扰信息 ,专注于重要内容,得益于大脑中的网状激活系统(RAS)。RAS 是脑干中的一束神经元,它在潜意识层面发挥作用 ,过滤掉不必要的刺激,让人能够有意识地感知到关键信息 。比如,RAS 能避免我们的感官因过多信息而超载 ,让我们不会在倒咖啡时,把注意力分散在厨房柜台上的每一件物品上,而是专注于当前的任务。
Kamal 解释道:“这些神经元能过滤掉所有不重要的信息,让大脑专注于当下相关的内容 ,这真的很神奇。这基本上就是我们的研究思路 。”
他和团队开发了一种机器人系统,该系统在很大程度上模仿了 RAS 筛选和处理信息的能力。这一方法主要包含四个阶段。第一阶段是“感知”阶段,在此期间 ,机器人通过观察和学习,获取音频和视频线索,例如麦克风和摄像头传来的信息 ,这些信息会持续输入到 AI“工具包 ”中 。这个工具包可能包含一个大型语言模型(LLM),用于处理音频对话,识别关键字和短语 ,同时还配备了各种算法,用于检测和分类物体、人类、身体动作以及任务目标。AI 工具包就像大脑的 RAS 一样,在后台持续运行 ,进行潜意识层面的信息过滤。
第二阶段是 “触发检查” 阶段,系统会定期进行检查,判断是否有重要事件发生,比如是否有人进入该环境 。一旦检测到有人进入 ,系统便会进入第三阶段。这一阶段是整个系统的核心,其作用是确定环境中哪些特征最有可能与帮助人类相关。
为了建立这种相关性,研究人员开发了一种算法 ,它可以接收 AI 工具包做出的实时预测 。例如,工具包中的 LLM 可能识别出关键字“coffee”,而动作分类算法可能将伸手拿杯子的人标记为有“make coffee ”的目标。团队的“相关性”方法会综合这些信息 ,首先确定与“making coffee”目标最相关的物体“类别 ”。这样一来,“fruits”和“snacks”等类别可能会被自动排除,而“cups”和“creamers ”等类别则会被保留。接着 ,算法会在相关类别中进一步筛选,确定最相关的“元素” 。比如,根据环境中的视觉线索 ,系统可能会将离人最近的杯子标记为比远处的杯子更相关 、更能提供帮助。
在第四阶段,也是最后一个阶段,机器人会获取识别出的相关物体,并规划一条路径 ,将这些物体送到人类手中。
助手模式
研究人员在模拟会议自助早餐的实验中对新系统进行了测试 。他们选择这个场景 ,是基于一个公开的早餐动作数据集,该数据集包含人们在早餐时间进行的各类典型活动的视频和图像,比如冲咖啡、做煎饼、泡麦片和煎鸡蛋等 ,每个视频和图片中的动作以及总体目标(如煎蛋还是煮咖啡)都做了标记。
借助这个数据集,团队对 AI 工具包中的各种算法进行了测试,这样一来 ,当接收到新场景中的人类动作时,算法就能准确标记和分类人类的任务 、目标以及相关物体。
在实验中,他们设置了机械臂和抓手 ,并设定系统在人类靠近摆满饮料、小吃和餐具的桌子时提供协助 。结果发现,当没有人在场时,机器人的 AI 工具包会在后台持续运行,对桌子上的物体进行标记和分类。
在触发检查过程中 ,一旦机器人检测到人类,它会立刻做出反应,开启相关性分析阶段 ,并根据 AI 工具包确定的人类目标,快速识别场景中最有可能相关的物体。
合著者 Zhang 表示:“相关性方法能够引导机器人在高度动态的环境中,提供无缝、智能 、安全且高效的帮助 。”
展望未来 ,该团队希望将这一系统应用到类似工作场所、仓库环境的场景中,以及家庭日常任务中。
Zhang 说:“我想在家里测试这个系统,比如我看报纸的时候 ,它能不能给我递杯咖啡;我洗衣服的时候,它能不能帮我拿洗衣袋;我做维修的时候,它能不能给我递螺丝刀。我们的愿景是实现更加自然、流畅的人机交互 。 ”
https://news.mit.edu/2025/robotic-system-zeroes-objects-most-relevant-helping-humans-0424
内容来自网络收集 ,如有侵权请联系删除