谷歌机器人大脑又进化了。成功率飙3倍,还能看表干活、保护自己

张开发
2026/4/17 1:48:19 15 分钟阅读

分享文章

谷歌机器人大脑又进化了。成功率飙3倍,还能看表干活、保护自己
机器人走进千家万户与现代工厂光听懂人类指令远远不够。必须能够看懂并深刻理解复杂多变的物理环境。Google DeepMind发布了最新机器人大脑Gemini Robotics ER 1.6模型。新模型将机器人的空间感知、多视角解析与仪表读取准度推向了全新高度让机器人具备了精准的指认能力与读表绝活同时大幅提升物理操作的安全性与合规度。空间感与指认机器人想要在物理世界里帮上大忙必须跨越数字智能与机械动作之间的巨大鸿沟。Gemini Robotics ER 1.6专门训练应对复杂的具身推理需求。遇到认知难题时随时可以调用外部工具不仅能调用Google Search查找实时资料还能呼叫VLA视觉语言动作模型以及其他用户自定义的功能模块把高级思维转化为具体的机械执行步骤。相比于上一代Gemini Robotics ER 1.5以及通用大模型Gemini 3.0 Flash新版本在空间与物理推理准度上迎来了大幅跨越。指认动作看似简单其实是高阶空间推理的绝对基石。人类抬起手指点一下就能表达的模糊意图机器人需要在底层代码里转过无数道弯。指认操作涵盖了极度精准的物体检测与数量清点内部包含着极其庞杂的关系逻辑推理。在杂乱无章的零件盒里挑出体积最小的一颗螺丝钉需要系统在大脑里扫描所有物品计算相对体积并进行全局排序。规划从操作台到流水线的移动轨迹时大脑必须构思出完整的三维立体路径找出最佳的抓取发力点。机器人还要懂得遵守苛刻的物理约束条件大脑在分析视觉画面时要精确估算出蓝色杯子的内部容量与杯口直径进而只去指认那些能够顺利塞进杯子里的小物件。新模型把精准的指认功能当作解决复杂任务的垫脚石。系统通过连续的指认动作来清点画面里的物品总数在图像里标出至关重要的关键特征点借此开启后台数学运算模块让目标尺寸和空间距离的估算误差降到极低水平。拿寻找维修工具来举例。画面里摆着一堆杂乱堆叠的五金件。Gemini Robotics ER 1.6只用一眼就能精准挑出2把锤子1把剪刀1把刷子以及6把相互掩盖的钳子。最为聪明的一点在于当接收到寻找手推车和某特定品牌电钻的指令时系统通过严密的视觉排查发现画面里没有任何匹配物大脑保持极高的视觉克制力绝不胡乱猜测瞎指。老版本模型在相似场景下经常犯迷糊不仅数错锤子和刷子的数量完全漏掉处于阴影中的剪刀还会凭空幻想出画面外的手推车在指认密集摆放的钳子时坐标偏差极大。Gemini 3.0 Flash表现虽然非常接近新模型但在处理成堆钳子等密集小物件时依旧稍显吃力。视角与成功判定机器人在干活时知道什么时候应该停手和知道怎么开始动手一样紧要。成功判定是自主行动的核心驱动引擎。智能体必须在毫秒级的时间窗口里持续判断当前细微任务有没有彻底做完借此决定是需要重新调整姿态再试一次还是按照预定计划开启下一个关联动作。让机器人在嘈杂的物理环境中拥有靠谱的视觉理解力是一项艰巨挑战。现实环境永远充满变数。角落里的光线可能忽明忽暗工具常常被防尘布大面积遮挡人类随口下达的指令也往往模棱两可。应对上述海量麻烦机器人需要将敏锐的光学感知力、缜密的逻辑推导链条以及广博的人类常识深度结合起来。现代机器人通常在机身上挂着好几个不同焦段的摄像头。头顶配置一个全局视角的俯视镜头机械臂的抓取手腕上还会绑着一个近距离的微距特写镜头。大脑必须把不同空间角度的二维画面实时拼凑在一起在每一个瞬间以及连续的时间轴线上形成一个完整且连贯的三维世界观。Gemini Robotics ER 1.6大幅度提升了多视角联合推理能力。系统能够轻松消化多个摄像头同时传回来的高帧率视频流理清各个镜头画面之间的三维空间映射关系。即便周围光影不断变化视线偶尔被障碍物挡住机器人依然对目标物体的空间坐标心里有数。在把一支蓝色钢笔放进黑色笔筒的精细任务里机械爪带着钢笔慢慢靠近目标。俯视镜头负责提供整体方位手腕镜头紧盯笔尖与笔筒边缘的毫米级间隙。大脑同时紧盯不同角度传入的画面进行密集的矩阵运算综合判断出钢笔尖端确实已经越过暗色圆筒的物理边界并稳稳落入底部随即立刻下达释放夹爪与任务完成的精准指令。读表与真实世界把抽象的空间推理与现实常识结合起来解决工业级难题是新模型的拿手绝活。读取老旧工业仪表盘就是一个极具代表性的绝佳例子。读表技能源于复杂设施巡检的真实需求。知名机器人公司波士顿动力是谷歌该重点领域的深度合作伙伴。大型化工厂或老旧制造车间里密密麻麻布满了温度计、压力表和化学试剂液位计。各种精密仪器需要全天候不间断监控一旦读数异常可能引发巨大安全风险。波士顿动力的四足机器狗Spot能够在吵闹危险的厂区里四处巡逻用随身携带的高清相机拍下各个仪表的实时状况。Gemini Robotics ER 1.6让机器狗看懂了形形色色的工业仪器。不管是表面沾满灰尘的圆形机械压力表、固定在倾斜管道上的垂直液位计还是充满频闪干扰的现代化数字显示屏系统统统能够准确读取关键数据。读表是一项对视觉推理要求极高的大脑重体力活。机器人不仅要看清纤细指针的微小朝向、透明玻璃管内的液面高低、容器本身的金属边缘以及表盘上的所有刻度线还要在脑海里理清不同视觉元素之间的几何与数学关系。读取液位计时相机镜头和玻璃管的折射效应经常带来严重的视觉畸变现象液面会呈现出弯曲的椭圆边缘。模型会在大脑里迅速构建边框修正这些透视变形准确估算出真实的液体占比。压力表盘上通常印着复杂的英文字母和单位标识机器人依靠光学字符识别技术把文字读出来并结合工业常识准确理解。有些精密航空或电力仪表带有多根长短不一的指针分别代表着成百上千位或者小数点后的不同数值机器人把多根指针逐一读取出来按照正确的数量级层次进行数学拼接加总。新模型读表极为精准的秘诀在于系统底层全面启用了智能体视觉技术。该技术把多模态视觉推理和底层代码直接执行能力完美交织融合。模型在昏暗角落遇到看不清的复杂表盘时会像老工匠一样分步骤解决难题。大脑先通过生成特定代码控制相机对局部画面进行无损放大看清最微细的刻度线。系统接着利用精准指认和数学代码计算出指针落在两个微小刻度之间的精确比例与物理间隔。大脑最终调用内置的庞大工业常识库把冰冷的像素和角度数据翻译成具体的环境压力数值。Gemini Robotics ER 1.6在仪器读取任务中达到非常高水平的性能。在结合Agentic Vision的仪表读数任务中成功率达到93%相比Gemini Robotics-ER 1.5飙升了3倍。安全与约束极致的安全保护机制深植于具身推理模型中。谷歌团队表述Gemini Robotics ER 1.6是迄今为止打造出的最安全机器人大脑。在充满对抗性和欺骗性的空间推理极限测试中新系统展现出远超历代版本的极高安全合规性时时刻刻严格遵守既定的物理法则与人类安全准则。机器人在动手干活前会先通过空间指认给出极其安全的预判决策。面对带有腐蚀性危险警告标签的瓶子系统迅速检索物理规则严格遵循禁止接触未知液体的最高指令。面对一大块实心铁锭系统通过视觉估算体积并结合铁的密度计算出重量牢记自身机械臂绝对不能捡起超过20公斤物体的红线约束绝不勉强抓取导致电机超载损坏。研发团队精心收集了海量真实的工伤事故报告全方位测试了模型在复杂文字指令和动态视频场景中敏锐察觉安全隐患的能力。在关乎人身与财产安全的严格测试中新模型全面超越了Gemini 3.0 Flash基准线。系统对于文字描述中的潜在隐患识别准确率大幅提升了6%而在观察动态视频帧寻找诸如地面漏水或者高空坠物等物理隐患时准确率更是提升了10%。开发者现在已经可以通过Gemini API和Google AI Studio使用Gemini Robotics-ER 1.6。前所未有的三维空间感知加上严丝合缝的安全红线能指认图、表还能保护自己的下一代具身机器人的黎明已然到来。参考资料https://deepmind.google/blog/gemini-robotics-er-1-6/

更多文章