EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年6月24日

从单目视频中重建动态的非刚性物体,始终是计算机视觉领域的一道难题。想象一下,我们只能从一个视角拍摄不断变形、时常被遮挡的物体——比如跳跃的运动员、奔跑的动物,甚至风中摇曳的旗帜。要还原它们的三维动态,不仅需要从直接观测中提取视觉线索,还必须依赖几何与外观上的数据驱动先验。

过去的研究主要分两条路:一是直接从视觉输入预测完整的4D表示,但这类方法受限于训练数据匮乏——要收集海量的动态三维数据本身极其困难;二是先初始化一个3D表示,再通过视频证据不断变形和优化,但这种方式仅在初始阶段使用了先验知识,后续完全依赖视频监督,无法应对复杂的大变形和严重遮挡。

这两种方法在“野生场景”中都不尽如人意。而Lift4D应运而生,它是一款测试时优化框架,旨在同时突破上述两大局限。它的第一步,是改造现有的单视图3D重建模型,通过因果潜在条件机制,生成时间一致的逐帧预测,为后续的可变形3D高斯泼溅表示提供连贯的初始化。这相当于给每一帧画面都打上了一个稳定、合理的三维骨架。

第二步,Lift4D对这些初始化的高斯点进行“雕刻”——通过遮挡感知的优化过程,忠实恢复可见表面的细节,同时利用视图条件扩散先验补全那些被遮挡、未被观察到的区域。想象一下,当物体的一部分被完全挡住,模型不是凭空猜测,而是借助扩散模型对几何与外观的深层理解,智能地“脑补”出缺失的部分。

实验表明,Lift4D在多个基准上显著优于先前的4D重建方法,尤其在挑战性极高的野外场景中——那些包含严重遮挡、剧烈非刚性运动的序列,它交出了更清晰、更连贯的重建结果。

当单目视频的局限被巧妙绕过,当先验知识与优化框架不再各自为战,动态世界的三维形态得以被更忠实地捕获。这不仅是一种技术突破,更启示我们:面对复杂现实,融合多种策略的协同创新,往往比单一路径的极致优化更有力量。

2026年6月24日

斯坦福大学教授布赖恩·希(Brian Hie)——开发了Evo基因组语言模型的同一人——刚刚发布了Proto,一个开放框架,让研究人员能够将AI生物学模型和工具组合成统一的流水线,而不是孤立地运行它们。

目前,已有超过120个AI生物学模型存在,但由于软件不兼容、依赖冲突和输入格式不同,将它们组合在一起几乎不可能。Proto提供了一种共享语言,可以接受一个研究目标,组合相关模型,进行评分,并指导在DNA、RNA、蛋白质和配体上的工作。在测试中,它设计了细胞系特异性剪接模式,成功率高达32%,仅测试了65个候选方案,而此前的方法测试了大约1000个,成功率仅为7%。AI智能体也可以编写Proto程序,研究团队使用Claude实现了249个人类蛋白质复合物的多样化,并指定了一种肺癌治疗方法。

这意味着什么:AI生物学模型和工具从未如此强大,但大多数研究人员仍然无法将它们组合起来以获得最大收益。Proto正是改变这一现状的集成层。如果它成为生物学AI的标准接口,那么每一个新模型都可以直接接入。它不会独自治愈疾病,但将为这一目标铺平道路。在AI与生命科学交汇的今天,结构化的协作比孤立的创新更能加速突破。

2026年6月24日

想象一下,一副能帮你指路、实时翻译、看懂眼前一切的智能眼镜,价格却不到五百美元——Meta刚刚用全新的Meta Glasses实现了这个设想。这个系列定价仅299美元起,由Meta与眼镜巨头EssilorLuxottica联手打造,内置自家最新的Muse Spark AI,一开箱就能用。

Meta Glasses共有三款设计:Meta Adventurer、Meta Fury,以及由网红Kylie Jenner联合设计的Meta Glasses by Kylie。后者的售价是399美元,但多了一颗嵌入的宝石、专属铃声,甚至可以用Kylie本人的声音来唤醒Meta AI,成为粉丝心头好。整个系列涵盖26种配色、镜片和镜框组合,从休闲到运动一应俱全。

在智能功能上,Muse Spark AI带来了更聪明的问答、更精确的视觉识别,并且支持逐向导航和实时翻译——虽然硬件本身和上一代相差不大,但最大的亮点是价格。Meta这次彻底拿掉了Ray-Ban和Oakley的联名标识,目的就是为了把成本降下来,让更多人买得起。

别看Meta的AI眼镜之路并非一帆风顺,但它目前仍占据大约80%的市场份额。这次发布意味着Meta开始执行双轨战略:一边用Ray-Ban系列维系时尚调性,一边用Meta Glasses主打价格亲民,试图堵住所有市场空白,进一步拉开与Google等对手的差距。一边是潮牌光环,一边是钱包友好——Meta正用两副牌同时出招,要把AI眼镜变成人人戴得起的生活工具。当技术终于不再昂贵,我们离那个科幻式的穿戴未来,也许只差一副眼镜的距离。

2026年6月24日

清晨,你打开Slack,发现@Claude已经安静地处理好了昨晚遗留的代码审查请求,并在相关频道中更新了进度。这是Anthropic刚刚推出的Claude Tag带来的改变——不再需要切换到单独的聊天窗口或桌面应用,AI被直接嵌入到团队日常协作的中心——Slack频道里。你只需像@同事一样输入“@Claude,帮我分析上周的销售数据并生成报告”,这个AI队友就会自动将任务拆解成多个阶段,调用授权的工具和数据源逐步执行,完成后在频道内响应结果。更令人惊讶的是,它会随着时间推移不断学习,理解团队正在进行的项目上下文,甚至能跨频道采取行动——当然,仅限于它被授予权限的频道。它还具备一种“环境模式”:当某个任务沉寂太久可能被遗忘时,Claude会主动从相关频道获取信息并跟进提醒。

这种设计让前特斯拉AI总监Andrej Karpathy感叹这是“大语言模型用户界面与体验的第三次重大变革”。从最初的对话式聊天,到桌面端的代理工具,再到如今嵌入Slack这个承载绝大多数企业业务上下文和工具的平台,AI的形态正从“独立应用”向“协作伙伴”加速进化。值得注意的是,Anthropic已经在今天正式推出该功能,这势必会对那些宣称要做“AI同事”的初创公司造成冲击——当原生集成在团队协作工具中的AI拥有更强的上下文续航能力,独立AI同事服务的差异优势将面临严峻考验。在AI与人类协作的演进中,真正的边界或许不是技术能力,而是AI能否像真正靠谱的同事那样,默默融入工作流、理解团队沉淀的沉默知识,并在你不曾开口时就察觉到你的未尽之言。

2026年6月24日

语言模型在推理时,往往只能依赖单线程的逻辑推演,就像一个人独自思考,容易陷入思维定式。研究人员发现,如果在“考试”时允许模型同时参考多个独立草稿、再综合出最佳答案,效果会好得多。但这种“并行思考-综合结论”的能力,在模型训练阶段几乎被完全忽视了——训练只教会了它按顺序一步步推理。为了解决这一矛盾,研究者提出了SPIRAL框架:一种通过强化学习同时驯化三种推理行为的训练方法。

SPIRAL将推理过程拆解成三个基本动作:顺序推理(产生单个思维链)、并行采样(同时生成多个独立思维链)和聚合(将多个思维链融合成最终答案)。在训练时,模型先并行生成一组思维链,每个都是自洽的推理路径;然后,模型读取这些并行结果,再产生一条聚合的思维链,最终输出答案。整个流程通过端到端的强化学习进行优化——奖励信号只与最终聚合答案的对错挂钩。

为了让模型学会“并行产出高质量草稿”和“有效整合多方信息”,SPIRAL使用了两种强化学习技术:集强化学习(Set RL)迫使模型生成一组彼此独立且对聚合器有用的推理轨迹;标准强化学习则专门训练聚合器,让它能从混乱甚至相悖的草稿中提取出正确结论。这种分工后协同的训练方式,使得模型在推理时能自然利用更多的计算资源来提升准确率。

实验在多个推理任务上进行。当三种推理原语都被充分扩展时,SPIRAL相比现有方法GRPO,达到了高达11倍的扩展效率提升,同时最终性能提高了15%。这意味着,同样增加计算量,SPIRAL能带来更显著的推理质量飞跃。数学推理、逻辑演绎等场景下,模型不再只是“想得更长”,而是学会了“想得更广”和“想得更准”。

思维的深度、广度和综合能力,本就不是鱼与熊掌。在人工智能学会同时拥抱这三者之后,我们或许真的开启了推理能力通向更高阶的大门。

2026年6月24日

想象一台机器人,它能从人类演示中学习操作技能,但只能复制演示中出现过的动作——一旦遇到新任务,它就束手无策。这种困境背后,是视觉-语言-动作(VLA)模型的核心局限:它们的能力被训练数据中的技能种类牢牢框定。现在,一项名为InSight的新框架试图打破这道墙,让机器人能像人类一样,在基础动作层面“举一反三”。

InSight的核心思路是将VLA模型的操控粒度下沉到基础动作级别。所谓基础动作,指的是像“将夹爪移到碗边”、“向上提起”、“倾倒瓶子”这类最底层的操作单元。框架包含两个关键阶段。首先,它设计了一条自动化分割流水线:利用视觉语言模型(VLM)对演示视频进行计划分解,再结合机械臂末端位姿数据,将完整演示自动切分成一个个带标签的基础动作片段,从而让VLA模型获得对基础动作的可操控性——就像给机器人配了一把“精调扳手”,能精准调用每个基础动作。

但真正的突破在于第二阶段:一个由VLM驱动的数据飞轮。当机器人遇到一个需要新技能的任务时,系统会先让VLM分析当前任务,识别出缺失哪些基础动作。接着,机器人自主尝试执行这些缺失的基础动作——每次尝试都由VLM提出具体的底层控制指令。如果某次尝试成功了,该演示就会被自动标记、存储,并整合到VLA训练集中,从而让模型逐步掌握未曾学过的技能。整个过程无需任何人类干预。

研究者在多种任务上验证了InSight的能力:翻转方块、关闭抽屉、扫地、扭转瓶盖、倒水。值得注意的是,这些目标技能在初始训练中完全没有人类演示。一旦通过自主尝试学会某个基础动作,机器人就能将它与其他已学基础动作组合,执行从未见过的新长程任务——比如先学会“扭转”,再学会“倾倒”,然后组合出“拧开瓶盖倒水”的完整操作。

这项工作的意义在于,它揭示了基础动作层面的可操控性如何为VLA策略的持续技能获取铺平道路。当机器人不再需要每次从头学习完整演示,而是像搭积木一样积累基础动作时,自主进化的可能性便悄然开启。也许不久的将来,机器人能够真正摆脱人类保姆的角色,在未知环境中自行摸索、成长。

2026年6月24日

世界模型,这一认知科学中的核心概念,如今在人工智能领域迎来了划时代的突破。想象一个能够像人类一样预演环境变化的智能体:它只需观察当下、做出决策,就能在脑海中模拟出后续场景的演变。来自Qwen团队的研究者,正是基于这一原理,构建了全新的语言世界模型——Qwen-AgentWorld,让机器首次具备了跨越7个复杂领域的智能体环境模拟能力。

整个研究的起点,始于一个看似简单却极其困难的问题:如何让语言模型学会预测“接下来会发生什么”?传统的世界模型往往局限于游戏或模拟器,而Qwen团队的目标是构建一个通用的、能理解真实世界动态的“心智模拟器”。为此,他们收集了超过1000万条来自7个不同领域的真实环境交互轨迹——从网页浏览到代码执行,从数学推理到游戏操作,每一条轨迹都记录着智能体在真实环境中的行动与状态变迁。

训练过程被精心设计为三个阶段。第一阶段,他们通过对比预训练(CPT),让模型从海量的状态转移动态数据以及专业语料中学习通用世界建模能力,如同让一个初学者先广泛阅读各类场景的“剧本”。第二阶段,监督微调(SFT)被用来激活模型的下一状态预测推理,使其能够有逻辑地思考“如果我这么做,环境会如何变化”。第三阶段,强化学习(RL)通过一个创新的混合奖励框架——结合了质性评估和量化规则——进一步磨砺模型的模拟保真度,确保其预测不仅准确,而且足够细腻。

为了公正评估这样的语言世界模型,研究者还构建了AgentWorldBench——一个基于5个前沿模型在9个已有基准测试上真实交互数据搭建的综合评估基准。实验结果表明,Qwen-AgentWorld在模拟真实环境动态方面,显著超越了所有现有前沿模型,无论是35B参数的紧凑版本还是397B参数的旗舰版本。

但这项工作的意义远不止于一个强大的模拟器本身。研究者进一步探索了两种将世界模型融入通用智能体建设的范式。第一种,将Qwen-AgentWorld作为一个解耦的环境模拟器,它可以为智能体强化学习提供成千上万种可扩展、可控制的环境模拟。实验显示,这种生成式模拟训练带来的性能提升,甚至超越了单纯使用真实环境的训练效果。第二种,将世界模型训练作为通用智能体基础模型的“预热”——通过让模型先学会预测世界变化,再投入下游任务,它在7个智能体基准测试中都表现出了显著的性能提升。

代码已经开源,这项研究正在打开一扇新的大门。当我们思考智能的本质时,也许正是对世界因果链条的预演能力,让机器真正迈出了从反应到理解的最后一步。未来,每个智能体都可能拥有自己的“内在世界”,在其中无限试错,却不必承担真实世界的代价。

2026年6月24日

在3D视觉的世界里,网格是最常用的场景表示之一,但直接生成网格却是一块难啃的骨头——因为网格数据藏着一种“对称性陷阱”:面的顺序打乱不影响形状,每个面内顶点的顺序也可以任意排列。传统方法往往需要把网格拆解成一长串序列,像念咒一样逐个生成,过程既繁琐又低效。

研究者们想出了一个新招:MeshFlow。它选择直接生成“三角形汤”——也就是把一堆无序的三角形扔在一起,而不是强行给它们排队。为了让模型能理解这种无序中的秩序,他们设计了一套等变最优传输流匹配模型。这个模型天生就尊重三角形汤的两大对称性:所有面的排列可以任意调换,每个面内三个顶点的顺序也能随意打乱——模型对该形状的判断不会因此改变。

为了实现这一目标,他们对流行的Diffusion Transformer架构做了一项简单却关键的改动:让网络在构建速度场的同时,始终保持对排列操作的等变性。这样一来,无论三角形怎么洗牌,模型都能稳定地预测生成方向。他们还引入了一种基于最优传输的训练目标,它能够自动剔除那些违反对称性的监督信号,从而让模型收敛得更快、更稳。

实验结果显示,MeshFlow生成的网格质量足以媲美当前最顶尖的自回归网格生成器,而推理速度却提升了约18倍——这意味着以前需要等待十几秒才能看到的网格,如今不到一秒就能生成。项目页面也已上线供研究者参考。

对称性的力量常被忽视,但MeshFlow证明:与其费力去适应结构的无序,不如让模型天生就理解这种无序。这或许为3D生成打开了一扇新的大门。

2026年6月24日

在人工智能浪潮中,用户往往手握多家公司的大语言模型(LLM),它们各有千秋,却无一全能。如何为每个任务精准匹配最合适的模型,成为提升性能和控制成本的关键。然而,现有路由方法如同盲人摸象——它们把路由看作一次性静态分类,忽略了动态环境中的信息缺失。

研究团队发现,传统路由器的“性能瓶颈”源于信息不足。简单地将任务维度的性能统计注入一个普通LLM路由器,就能带来15.3%的相对提升,甚至超越基于同样维度先验的启发式路由。这一发现揭示了关键症结:路由器缺乏执行过程中的真实反馈。

受此启发,团队提出“Agent-as-a-Router”框架,将路由重塑为一个C-A-F循环——上下文、行动、反馈,再回到上下文。该框架在部署中通过积累执行经验,主动弥合信息鸿沟。具体实现为ACRouter,它由三个核心模块组成:Orchestrator(协调器)负责决策,Verifier(验证器)确认结果,Memory(记忆模块)记录历史经验。同时,团队发布了CodeRouterBench评估环境,包含约1万个任务实例,以及来自8个前沿LLM的验证得分,支持基于遗憾值的流式任务路由比较。

实验显示,ACRouter在分布内任务中实现了最低的累积遗憾,并能泛化到分布外的智能编程任务。这表明,主动关闭信息鸿沟的路由框架,正为多模型协作带来全新可能。

每一次任务的分发,都是一次学习的机会;而真正的智能,从不满足于一次性的选择。

2026年6月24日

训练图像生成基础模型通常需要海量算力,但一项新研究颠覆了传统认知。以往的方法尝试用语义引导加速训练,却只敢在ImageNet这类简单数据集上小打小闹。如今,研究者提出了SeFi-Image——一个基于“语义优先扩散”全新范式的文生图模型。他们一口气造出三款:参数量1B、2B和5B,系统研究缩放行为,让不同预算都能灵活部署。最让人惊讶的是,最大的5B模型仅用125K A800 GPU小时就训练完成,这大约是Z-Image模型训练算力的10%到20%。然而,尽管算力如此“寒酸”,SeFi-Image在GenEval、DPG、LongTextBench、OneIG和CVTG-2K等一系列基准测试中,表现竟能与Qwen-Image和Z-Image打平甚至更优。研究者还为每个规模提供了经DMD2蒸馏的少步涡轮变体,适配不同硬件和延迟需求。目前,代码和权重已全部开源。这项实验向我们揭示:语义指导的扩散建模或许是一条通往高效文生图的捷径,而大模型未必需要堆砌算力才能触及顶尖水平。有时候,聪明的方向比盲目的蛮力更能点亮创新之路。

2026年6月24日

语言模型终端代理已成为当下最热门的应用,但学术界对强化学习训练的探索却一片贫瘠——缺基准、缺数据、缺现成方案。如今,Tmax横空出世,用仅90亿参数刷新了Terminal-Bench 2.0上的纪录,拿下27%的得分,将先前规模远大于它的模型甩在身后。这背后是一套全新数据生成机制:通过控制难度、引入用户档案和验证器多样化,研究人员以低成本构建了海量终端环境。他们开源的终端数据集规模是此前最好方案的2.5倍,并基于这些数据用简单的结果导向强化学习训练出开源权重模型。当人们还在追逐更大规模时,Tmax证明了精良的数据配方与强化学习策略的价值。这套开源的代码、模型和数据,正在为终端代理研究啃下第一块硬骨头——有时候,聪明的干活方式比蛮力更重要。

2026年6月23日

大型语言模型生成文本时,传统的做法是从最后一层解码,人们一直默认越深层的表征能带来更可靠的预测。然而,最新研究揭示了一个反复出现的“猜测-精炼-扰动”动态:早期的网络层会形成粗略的猜测,中间的层次则精炼与推理相关的语义,而最后的若干层却可能将已经完善好的预测“扭曲”成更通用或迎合对齐偏好的词汇。这一发现颠覆了长期以来的假设——原来最深的层次并不总是最佳的。

研究者们由此提出了一种名为Confident Decoding的无训练解码策略。它通过熵引导的保守反向搜索,动态挑选出最可靠的临近末层(而非严格的最后一层)作为解码依据。通俗来说,与其盲目相信最后一步的“装饰”,不如回头看看刚刚完成推理核心的那一层。这种方法不仅直觉上合理,还有严格的理论支撑:他们将层选择建模为一个最优停止问题,证明在有界投影噪声和后期对齐扰动占主导的情况下,这种搜索规则能够有效过滤扰动,同时将损失控制在相对于完美精炼层的可接受范围内。

在实验环节,该策略在GPQA-Diamond、Omni-MATH和HLE等极具挑战性的推理基准上表现亮眼,无论是密集模型还是混合专家模型都获得了稳定提升。更令人惊讶的是,这一切几乎没有增加额外的计算代价——零内存开销,延迟仅上升不到2%。这意味着,大规模部署时几乎可以无痛替换现有解码方法。

这项研究的核心启示在于:对齐训练(如RLHF)在让模型更安全、更符合人类偏好的同时,也在无意中向最后一层引入了“扰动”,削弱了模型的原始推理能力。动态绕过这些扰动,就能解锁更可靠的逻辑链条。或许,聪明的解码并不在于一味地“深入”,而在于知道自己应该在何处止步。当模型学会分辨哪些层次在真正思考、哪些层次在被迫讨好人时,真正的智能才能浮现出来。

2026年6月23日

在人工智能的版图上,一群名为“世界动作模型”的新兴力量正在重塑机器与现实的互动方式。它们不是普通的视频生成器,而是能够为行动预判未来的预测模型。

想象一下,一个机器人不仅能看到眼前的世界,还能在脑海中预演接下来的几秒会发生什么,然后据此决定如何行动。这正是世界动作模型的核心能力——它们将未来预测直接嵌入行动规划中。

然而,这个领域正经历着快速扩张带来的身份模糊。有的模型直接改造大型视频生成模型,有的则依赖语言或视觉-语言主干而无需视频生成核心。一时间,世界模型、视频生成模型、行动锚定的视频世界模型、视觉-语言-行动策略以及世界动作模型之间的界限变得扑朔迷离。

这篇综述试图为这片混沌的领域建立共同的语言。研究者们首先厘清了这些边界,然后通过两个互补的视角来组织现有工作。第一个视角关注每个方法被要求生成什么——是渲染出的未来画面,是潜在的未来表征,还是无需视频生成的纯行动推理。第二个视角则拆解每个方法的预测基底、骨干网络、行动耦合方式和部署模式。

在这套解剖框架下,可交互性、因果性、持续性、物理合理性、泛化能力等关键维度得以统一讨论。随之而来的是数据、评估和开放挑战的审视。

贯穿这些维度,一个一致的设计模式逐渐浮现:世界动作模型并非简单的“视频生成器加行动头”,而是预测行动方法,其设计选择在表征丰富性与计算、内存、延迟和行动标签成本之间权衡。这个领域正朝着一个方向前进:减少对未来的生成量,但保留控制所需的关键预测。

正如研究者所揭示的,真正的挑战不在于生成完整的未来视频,而在于精确提取控制所需的本质。这一洞察将引导未来世界动作模型走向更高效、更智能的行动预测之路。

2026年6月23日

想象一个AI团队:多个基于大语言模型的智能体各司其职,每个都被分配了专属的系统提示,规定着它们的角色和行为。这些智能体通过预设的工作流彼此协作,最终整合输出结果——这就是多智能体系统(MAS)的典型模样。系统提示因此成为优化这类系统的关键手柄:无需重新训练模型,仅调整提示就能改变整个团队的协作效率。单智能体领域的提示优化已成果显著,但当把这个方法扩展到多智能体系统时,麻烦来了:搜索空间呈指数级膨胀。研究者开始追问:提示优化到底能不能改善MAS性能?如果能,在什么时候、多大程度上有效?这些增益对系统配置有多敏感?

一项系统性研究给出了部分答案。研究团队设计了多种MAS配置,涵盖了不同任务类型、工作流模式、通信协议和团队规模。他们测试了两种提示优化器,这两种方法自然延伸了当前最先进的单智能体优化技术。结果耐人寻味:提示优化确实能解锁显著的性能提升,但同时也暴露出许多未解的难题。在某些场景下,小幅调整系统提示就能让多智能体协作效率翻倍;而在另一些场景中,优化却收效甚微,甚至可能因过度调整让智能体陷入角色混淆。团队大小也是关键变量——小团队容易受益,大团队则因复杂的交互关系让优化效果迅速衰减。

数据揭示了一个核心矛盾:优化带来的增益程度高度依赖于工作流的拓扑结构。例如,在链式工作流中,提示优化能精准修正下游智能体的行为偏差;但在网状并行结构中,提示的微小变化可能引发链式反应,导致整个系统的输出偏离轨道。通信协议的影响同样显著:开放讨论式的协议对提示更敏感,而严格的层级汇报模式则更稳定。

这项研究为多智能体系统的实际应用泼了一盆冷水,但也点燃了新的希望。提示优化不是万能钥匙,而是一把需要精准匹配锁孔的钥匙。在追求更智能、更灵活的AI团队时,我们或许该先问问:这个系统真的需要优化提示,还是需要重新设计协作的结构?每一次提示的改写,都可能是一场团队化学反应的引爆剂,要么催化出惊人的协同效应,要么点燃失控的连锁反应。

2026年6月23日

从2017年Transformer诞生以来,所有主流语言模型都默认使用一个相同的基础架构:堆叠完全相同的层,每层参数均匀分配。这个设计看似合理,却埋下了一个反直觉的真相。越来越多的研究揭示,不同层对最终输出的贡献并不平等,后期层更像是在精修已有的表征,而非彻底改造它。如果参数预算固定,我们是否该把更多资源倾斜给更重要的前几层?

答案比预想中更直接。研究者设计了一个对照实验:在固定总参数预算下,把更多容量分配给早期层、减少后期层的宽度,结果模型困惑度显著低于均匀分配。相反,把容量反向分配给后期层则让性能下降。这种容量分配的非对称性,撬动了一个隐藏的杠杆。

基于这一发现,研究者提出了“锥形语言模型”(TLM)——一种架构设计原则,在固定总预算下,让参数承载组件沿着深度方向单调递减。执行这个想法最自然的部位是多层感知机(MLP)。因为现代语言模型中,MLP占据了参数总量的绝对多数,而且它的宽度是一个干净、可控的变量。通过平滑的余弦调度,研究者让MLP宽度从输入到输出逐渐变窄,形成锥形。

在三种不同规模的模型(从几亿参数到数十亿参数)和四种架构(Transformer、门控注意力、Hope-attention和Titans)上,锥形MLP都带来了性能提升:不仅语言建模困惑度更低,在多个下游基准测试中也表现更好,而且没有增加任何额外的参数或计算开销。换句话说,这是一个零成本的免费午餐。

这项研究揭示了一个被长期忽视的设计空间:深度感知的容量分配。在统一的厚度表皮下,不同层其实需要不同的“养分”。锥形架构不是在堆叠相同的高度,而是让每一层都拥有与它实际所需相匹配的呼吸空间。有时,最深刻的改进恰恰藏在我们习以为常的细节里,等待一双重新审视的眼睛。

2026年6月23日

在教AI使用命令行的征途上,数据质量正成为最棘手的拦路虎。现有方法虽然能批量合成训练样本,却常常产出“虚有其表”的任务——指令模糊得像谜语,执行路径浅尝辄止,测试用例脆弱到经不起推敲。为了破解这一困局,研究人员打造了一台名为CLI-Universe的智能合成引擎。

这台引擎的运作方式堪称严谨:它首先从多个维度(领域、技能类型、能力层次、工程支柱)构建一张精细的能力图谱,然后通过随机组合生成候选任务。但生成只是开始,每个候选任务都要经历一场“深度调研”——引擎会翻阅真实世界的技术文档、API手册和工程实践,用证据来验证任务是否具备扎实的基础。只有通过验证的任务蓝图,才会被实例化为Docker化的可执行环境,并接受多阶段可执行验证流水线的严苛考验。

这个验证过程设计得层层递进:首先由评分规则引导的测试构建自动生成测试用例,接着通过提示条件过滤剔除那些过于简单或模糊的任务,最后执行严格的“失败——通过”检查——只有那些能真正区分错误操作与正确操作的用例才算合格。整个流程下来,大约三分之二的候选任务被无情淘汰,仅保留那些真实、可验证且具有非平凡挑战性的样本。

基于这套流水线,团队生成了一个高度精炼的数据集CLI-Universe-6K,包含6000条完整轨迹。令人惊讶的是,仅仅在这个数据集上微调Qwen3-32B模型,就在Terminal-Bench 2.0基准上取得了33.4%的准确率。这不仅在参数量32B以下的开源模型阵容中刷新了纪录,甚至力压数个规模大一个数量级的模型——有的参数量高达万亿级别,却在这个任务上黯然失色。

一场关于数据效率的实验,用硬核数字给出了答案。这让我们看到,当合成流程变得系统化、可信赖并充满对质量的执念时,每一份训练样本都可能释放出远超其体量的价值,也许这正是通往更强终端代理的一条隐秘捷径。

2026年6月23日

最近大热的端到端OCR技术,比如DeepSeek OCR,让机器认字能力突飞猛进。主流看法是用大语言模型做解码器,借助语言先验知识提高识别准确率。但仔细对比人类,就会发现一个诡异现象:当需要抄写一长串文字时,人类保持稳定速度,而机器却越跑越慢。问题出在KV缓存——随着输出序列变长,这个缓存不断膨胀,消耗大量内存,拖慢生成速度。这就好比人类在持续阅读时,短期记忆不会无限累积,而是灵活分配、及时遗忘。

为了解决这个矛盾,研究人员提出了Unlimited OCR模型,核心思路是模仿人类的“解析工作记忆”。模型以DeepSeek OCR为起点,但对解码器中的全部注意力层动了手术——换上一种全新的“参考滑动窗口注意力”(R-SWA)。这种机制降低注意力计算成本的同时,让KV缓存在整个解码过程中保持恒定大小,不再随文本长度增加而膨胀。结合DeepSeek OCR编码器的高压缩率,新模型在32K标准最大长度下,一次前向传播就能转录几十页的文档,效率惊人。

更值得关注的是,R-SWA并非OCR专属。它是一种通用解析注意力机制,理论上同样适用于语音识别(ASR)、机器翻译等任务。目前,Unlimited OCR的代码和模型权重已经开源,任何人都可以复现或改进。

这项探索揭示了一个有趣的思路:当我们抱怨算法效率下降时,或许答案不在更复杂的计算,而在向生物学习那种精准的聚焦与遗忘。机器越跑越慢,不是因为不够努力,而是没有学会放下。

2026年6月23日

当好莱坞还在为AI是敌是友争论不休时,谷歌已经悄然落子。它向独立电影界的金字招牌——A24工作室注资7500万美元,并送上DeepMind的AI技术团队作为嫁妆。这不是要拍一部全AI生成的电影,而是试图打造一套“电影人亲手打磨”的工作流,让AI成为导演手里的精巧工具,而非取代他们的魔法盒子。

这次合作是谷歌首次持有电影工作室的股权,而A24看似付出不小——它背后的算力和顶级研究团队来自DeepMind——却守住了底线:不交出任何电影片库或内部数据。A24旗下新成立的技术部门,由前Adobe高管Scott Belsky掌舵,正在研发一款AI故事板工具。Belsky强调,它“绝不会像那些输入提示词就生成画面的AI”,更像是为导演提供灵感的速写本,而非包办创作的剧本生成器。

讽刺的是,这次合作的宣布,恰好发生在A24大热影片《Backrooms》之后。该片导演Kane Parsons在采访中直言不讳:“AI是更广泛文化和经济腐朽的症状。”他的态度代表了好莱坞内部的一种撕裂感:一边是电影人公开抵制AI对创意领域的侵蚀,另一边却是制作方和资本争先拥抱这项技术。

过去几年,好莱坞的巨头们一直在两种策略间反复横跳:要么起诉AI公司侵犯版权,要么签下大额合作协议将AI收入麾下。谷歌与A24的合作,试图避开最激烈的批评——它将AI定位为辅助工具而非替代品,并用独立电影人的品牌光环为技术背书。但现实远比理想复杂。正如马丁·斯科塞斯最近的遭遇所揭示的,哪怕只是用AI做最轻微的后期处理(比如微调背景),也能让本就对AI充满敌意的观众群瞬间炸锅。影迷们无法容忍任何形式的“非人工干预”,在他们看来,AI的每一帧都是对电影灵魂的背叛。

这笔交易背后,是一场技术、艺术与信任的拉锯战。谷歌赌的是,只要工具足够细腻、足够“电影人友好”,就能慢慢消解观众的反感;而A24则在赌,自己招牌般的艺术品味能驾驭这头技术巨兽,甚至用它来讲述更独特的故事。但无论如何,当DeepMind的研究员们开始和A24的导演们坐在一起讨论分镜,电影行业已经站上了一个再也回不去的路口。试图在冰冷的算法与滚烫的创作之间找到平衡,或许本身就是我们这个时代最值得书写的寓言——只是不知道,最后的镜头里,究竟是谁在执掌摄影机。

2026年6月23日

当人们还在争论Grok能否跻身一线AI模型时,埃隆·马斯克早已将目光投向了更稳赚的生意——把自己的超级计算机变成“算力房东”。最近,SpaceX与AI初创公司Reflection AI签下协议,租用价值63亿美元的英伟达算力,这标志着科尔苏斯(Colossus)数据中心正式向外部客户开放。

这个数据中心原是马斯克为训练Grok模型而建,但过去一年里,它逐渐转型为其他AI实验室的算力租赁中心。Reflection AI是其中最年轻的客户——这家公司去年10月才成立,致力于为政府和企业构建开源前沿系统,虽然至今尚未发布公开模型。与Reflection相比,其他租户的规模更为惊人:Anthropic每月租金高达12.5亿美元,谷歌每月支付9.2亿美元,而Cursor则被直接以600亿美元整体收购。

马斯克这步棋的妙处在于:不管Grok本身表现如何,算力短缺的市场已让科尔苏斯成为一台印钞机。SpaceX一边通过基础设施租赁赚取现金流,一边还在规划太空数据中心项目——无论模型竞赛结果如何,这家公司都已占据价值链上游。对于投资者和行业观察者而言,这或许比任何AI排行榜都更值得关注:真正的财富,往往不在算法里,而在那些支撑算法的轰鸣机房中。

2026年6月23日

当美国出口管制掐断Anthropic顶级模型Mythos和Fable的供应,日本AI初创公司Sakana AI却推出了一款名为Fugu的模型,它不依赖单一巨无霸,而是像一位幕后调度师,通过一个API,将每个请求分发给一群大小各异的模型。核心模型负责选助手、派任务、查结果、拼答案,整个多Agent编排过程对用户完全透明。Fugu提供两个版本:轻快的Fugu日常处理编程和聊天,沉重的Ultra则瞄准专利研究、安全测试这类硬仗。Sakana声称,在多个编程、推理和科学测试中,两个Fugu模型表现都接近甚至超过被禁的Fable 5和Mythos预览版。这背后的潜台词很直接:我们绕开了封锁,达到了前沿水平。然而,用户的反应与基准测试形成反差。有人反馈模型实际表现并未真正触及前沿,质疑其模型混合方式和成本效益,观望气氛浓厚。类似OpenRouter的Fusion,模型编排正引导实验室以创意方式冲击前沿。但Fugu底层模型的不透明性、高昂成本,以及早期评测与官方成绩的落差,让它在现阶段更像一枚等待验证的种子。多模型协作能否成为突破出口管制的钥匙?答案或许取决于其真实能力能否经得起更多用户的拷问。

2026年6月23日

在美国,每五个成年人中就有一个饱受骨关节炎折磨,这种疾病每年给医疗系统造成约650亿美元的沉重负担。然而至今,还没有一种获批药物能够真正延缓或逆转病情。关节置换手术往往是最后的无奈之选。但现在,斯坦福大学的研究人员发现了一个令人振奋的突破口:通过阻断一种名为15-PGDH的衰老相关蛋白,小鼠失去的膝关节软骨竟然奇迹般地重新生长出来。

这一切的起点,是对一个关键分子的探索。15-PGDH蛋白在衰老的关节中含量会翻倍,而斯坦福团队发现,无论是直接注射到关节腔,还是通过全身给药,只要把这个蛋白“关掉”,小鼠的软骨就能显著再生。更惊人的是,治疗后,原本负责构建健康透明软骨的细胞比例从令人沮丧的22%一跃升至42%,相当于让老化的软骨细胞重新“焕发青春”。

这些发现并非仅停留在动物实验。研究人员将人类因膝关节置换手术而取出的软骨组织放入培养皿,同样施加阻断15-PGDH的处理。仅仅一周后,那些原本正在退化的软骨表现出了更少的降解迹象,甚至出现了新生的软骨细胞。这意味着,人体可能也拥有类似的再生潜力,只是被年龄和疾病压制了。

更加令人期待的是,一种15-PGDH抑制剂早在之前就已经进入一期临床试验,用于对抗年龄相关的肌肉无力——在那里,它展现出良好的安全性,健康志愿者没有出现严重副作用。这为将其用于骨关节炎治疗铺平了道路。

这项研究与科罗拉多大学科学家开发的缓释注射技术相呼应,后者通过缓慢释放信号分子促使细胞重新生成软骨。整个再生医学领域正从“减缓损伤”转向“主动修复”。或许在不远的将来,那些因关节疼痛而步履蹒跚的人,不必再忍受冰冷的金属假体,而是迎来一次简单的注射,便能让自己的软骨重新长出灵动的光泽。

2026年6月23日

在德克萨斯州西部二叠纪盆地的荒漠中,一项为期20年的能源合作正在酝酿一场脱胎换骨的变革。雪佛龙旗下子公司Energy Forge One与微软签署了20年购电协议,共建名为“Kilby项目”的2.67吉瓦天然气发电数据中心综合体。这片占地2000英亩的场地位于里夫斯县,将采用通用电气Vernova和卡特彼勒的涡轮机,完全由雪佛龙在二叠纪盆地开采的天然气供能。

这个计划于2026年底前做出最终投资决定、2028年实现首次发电的项目,预计将带来超过100亿美元的税收收入。它将微软的数据中心与发电设施直接共址,电力绕过公共电网直接输送到服务器,既缓解了电网压力,又为雪佛龙创造了与油气价格波动脱钩的稳定现金流——无论天然气市场如何震荡,微软的算力需求都会持续付账。

此举背后,是科技巨头疯狂押注AI的必然结果。随着ChatGPT等生成式AI爆发,每个查询耗电量是传统搜索的10倍以上,大型科技公司被迫锁定十年以上的能源供给。雪佛龙与微软的合作,成为石油巨头最明确的信号:AI无休止的电力饥饿——而非能源转型——才是下一个增长前沿。当清洁能源的间歇性瓶颈尚未突破时,天然气正以其可靠性重新成为算力基座的燃料。这个项目也揭示了一个更深的逻辑:化石燃料公司正从开采商转型为“能源即服务”商,直接对接科技巨头的需求,而这个过程几乎不产生排放争议——毕竟,那些排放本应由微软的碳排放目标去对冲。

在荒原上,天然气燃烧的火苗将直接转化为硅基世界的智能涌动。这场联姻不仅是商业的,更是时代的注脚:当人类用越来越庞大的算力模仿大脑,驱动它的依然是从地壳中抽取的古老能量。

2026年6月23日

Instagram正在将触角伸向客厅电视屏幕。继去年12月登陆亚马逊Fire TV和谷歌电视设备后,如今其TV应用扩展至三星智能电视,迈出了争夺家庭娱乐时间的关键一步。它开始测试一系列全新格式:剧集式内容、长视频,以及直播创作者节目——这些都是Instagram此前从未支持过的。

这款TV应用新增了个性化频道功能,用户可以在电视上浏览Stories(快拍),还能直接将手机上的Reels(短视频)投屏到电视观看。更引人注目的是,Instagram开始招募创作者制作剧集式内容:将故事拆分成1到3分钟一集的系列短片。本月早些时候,Meta已经在Instagram和Facebook上测试了名为“Series”的剧集式Reels功能。

这一动作背后是流媒体格局的深刻变化。2025年,YouTube已经超越Netflix和其他流媒体服务,成为美国电视上最受欢迎的视频提供商。Instagram希望复制这一成功路径——让创作者成为吸引观众从手机转向客厅电视机的那股力量。如果剧集和直播格式能获得普及,Meta将正式加入争夺电视注意力的战局,而流媒体平台们为此已经花费了数十亿美元。

从手机竖屏到客厅大屏,从15秒短视频到系列剧集,Instagram的扩张既是顺应观众内容的习惯迁移,也是一场对注意力经济的豪赌。当每个人都在手机上刷着无穷无尽的短视频,他们是否真的会愿意坐下来,在电视前追完一部“手机剧”?这或许是一场关于习惯与耐心的实验。

2026年6月23日

Meta(脸书母公司)在一次全公司强制性的AI培训项目中,意外将员工的键盘敲击记录、鼠标移动轨迹以及私人对话内容暴露给比预期更多的同事。《连线》杂志报道了这一事件。

今年4月,Meta启动了“模型能力倡议”(MCI)项目,旨在收集大部分美国员工的键盘输入和鼠标移动数据,用于训练其人工智能模型。该项目被设定为强制性,但许多员工并不知情——他们不知道自己的每一次敲击、每一个鼠标点击,甚至是与同事的私人聊天记录,都在被悄悄记录并用于AI训练。

事情的转折点发生在员工偶然发现这些被收集的数据——包括他们自认为私密的对话——竟然可以被比预期更广泛的同事访问。一份内部报告随后被提交,指出数据可见范围严重超标。Meta将此事列为第二严重级别的安全事故(SEV 2),并立即暂停了该项目。公司对外宣称,没有迹象表明这些数据被不正当访问或滥用。

然而,这场风波并非毫无预兆。早在数据泄露事件发生之前,Meta内部就已经暗流涌动:一份由1500名员工联合签署的请愿书,明确反对这项数据收集计划。他们质疑的不仅是公司是否有权收集这类工作场所数据,更是对强制参与下数据安全性的根本怀疑。

现在,事情的性质已经超越了“企业应不应该收集员工数据”的争论。当员工被迫参与,而公司连基本的数据可见范围都无法把控时,信任的根基便已动摇。这起事件给所有科技公司敲响了警钟:在追逐AI训练数据的路上,如果不能妥善守护员工的隐私,最终失去的将远比数据本身昂贵。

2026年6月23日

想象一下,当人工智能智能体从屏幕走进现实世界,会面临怎样的挑战?在数字环境中,LLM智能体遵循一个高效的执行循环:分析结构化状态、调用工具、检查反馈、修正动作。这套流程让它们在网页、数据库等虚拟空间里如鱼得水。然而,一旦将同样的逻辑移植到物理机器人身上,问题就变得棘手起来——物理执行是连续的、依赖具体硬件、充满不确定性,还时刻受到安全约束。现有的具身AI系统在操作、空间理解、导航、人形控制等领域取得了进展,但这些能力往往只是专用模块,彼此之间缺乏紧密耦合,决策循环松散。

为了打破这一瓶颈,研究者推出了HoloAgent-0——一个统一的具身智能体框架,专为真实世界机器人部署设计。该框架的核心是其三层耦合架构:第一层是Embodied AgentOS,负责将语言指令转化为可执行的技能图,调度机器人资源,实时监控执行状态,并在遇到异常时触发澄清或重新规划;第二层是3D空间记忆,为物理世界提供锚定,让机器人知道物体在哪里、环境如何变化;第三层是具身技能库,包含各种机器人动作能力。这三层协同工作,形成闭环执行。

研究团队在实际硬件上部署了HoloAgent-0,并对其空间记忆、长时导航能力、以及在运动生成、物体搜索、跨机器人协调、移动操作等场景中的闭环执行效果进行了全面评估。结果表明,该框架能有效弥合数字智能体与物理世界之间的鸿沟。

在这个AI能力急速膨胀的时代,问题不再只是“智能体能做什么”,而是“智能体如何安全、稳定地走进我们的世界”。HoloAgent-0迈出了一步,但它提醒我们:真实世界的混乱与约束,才是最值得敬畏的试金石。

2026年6月23日

神经世界模型结合模型预测控制(MPC)通常在每个环境步骤都进行重新规划,以限制累积的预测误差,但这带来了巨大的计算开销。复用已缓存的规划方案能降低这一负担,其效果取决于预测偏差在局部动力学中的传播方式。研究人员引入基于摄动的动态遗憾框架分析这一权衡,发现过时规划方案的惩罚随复用容忍度、自上次重规划以来的累积偏差以及局部动力学敏感性而变化。基于此结构,他们提出AdaReP——一种无需训练的包装器,利用当前与缓存轨迹的偏差以及局部敏感性估计值,在线调整重规划容忍度,无需修改学习到的世界模型或规划器。在图像空间规划、潜在空间控制以及真实世界机器人操作中,AdaReP显著降低了规划器侧的计算量,同时保持相当的任务性能——在50次试次的真实机器人研究中减少了超过80%的查询。

世界模型通过观察环境状态并预测未来,帮助机器人实现规划。但模型预测控制(MPC)常常因为预测误差积累而需要每个步骤都重新规划,计算成本高昂。有没有一种方法既能保持规划质量,又能大幅节省计算资源?最新研究给出了一种优雅的解决方案。

研究人员发现,复用之前的规划方案就像缓存一张地图——只要环境变化不大,就能快速导航。但过时的规划方案会产生惩罚,这种惩罚的大小取决于三个因素:复用容忍度(即愿意接受多大偏差)、自上次重规划以来累积的预测偏差,以及环境动力学对偏差的敏感程度。

基于这一洞察,他们开发了AdaReP——一种即插即用的自适应重规划策略。它像一个智能调度员,实时监测当前规划与实际情况的差异,并动态调整重规划容忍度。当地形崎岖、环境变化剧烈时,容忍度收窄;当地势平坦、预测稳定时,容忍度放宽,从而在减少重规划次数的同时确保控制质量。

在实验中,AdaReP在图像空间规划、潜在空间控制以及真实机器人操作中均表现优异。最引人注目的是,在50次试次的真实机器人抓取实验中,使用AdaReP后规划器的查询次数减少了超过80%,而任务成功率几乎不受影响。这意味着机器人可以在保持高水平操作能力的同时,大幅降低计算开销,更快地做出响应。

这项研究并非要否定重规划的价值,而是将最宝贵的计算资源用在最需要的地方。就像经验丰富的司机不会在空旷公路上频繁导航,而是在复杂路口才仔细确认路线。智能系统应当具备这种“选择性精确”的能力,在确保可靠性的前提下追求效率。当世界模型的预测与执行逐渐产生偏离,适时的一次重规划胜过无休止的提前计算。

2026年6月22日

AI模型通常被要求使用人类能懂的自然语言对话,哪怕对话的另一方也是模型。但一项新研究提出了一种名为BabelTele的“模型中心”文本表示法——它故意牺牲人类可读性,只求模型能读懂。这就像给模型一套专属的“密语”:句子可能变得支离破碎、充满符号,甚至不符合语法,但交给经过指令微调的大模型,核心语义几乎不丢失。

研究人员设计了一套综合实验:他们先让GPT-4将普通文本“翻译”成BabelTele,再通过可读性测试、模型似然度计算、人类问卷调查和下游任务(如问答、摘要)来检验效果。结果惊人:在文本长度被压缩至原来的27.9%时,BabelTele依然保持了99.5%的语义保真度。这意味着,模型之间的交流可以省去三分之二以上的“废话”,而信息完整率几乎不变。

更关键的是,BabelTele并非专为某一模型定制。实验测试了它在不同模型间的迁移效果:用GPT-4生成的密语,交给其他指令微调模型(如Llama 2)仍能正确解析。在智能体长期记忆任务中,BabelTele让上下文占用大幅缩减,却未明显损害回忆的准确性。在多智能体通信的场景里,多个模型用这种密语互相传递信息,任务成功率与用自然语言时基本持平。

当然,这种“密语”并非万能。研究指出,其效果取决于生成模型(压缩器)与读取模型(阅读器)是否匹配,以及具体的任务类型。例如,在需要严格数值推理的任务中,压缩后的文本可能丢失部分精确信息。但总体而言,BabelTele揭示了一个趋势:人类可读性、自然语言的“典型性”和模型对语义的恢复能力,这三者可以部分脱钩。模型不必再为了迁就人类而说长串的废话。

想象一下,未来的LLM集群可能用大量类似BabelTele的紧凑信号快速交换知识,而人类看到的只是界面上的几行加密文本——但那些密语背后,是模型之间高效、精准的思维同步。这或许意味着,AI系统将逐渐发展出属于它们自己的“原生语言”,而我们,只需坐在副驾,静静观看它们如何彼此理解。

2026年6月22日

波士顿儿童医院和哈佛大学的研究团队,把376个让儿科遗传学专家们束手无策的病例,交给了AI模型o3 Deep Research。这些病例此前被认定为“死胡同”——所有专科医生已彻底放弃。研究团队把每个病例的去标识化症状和可疑基因列表输入o3,让模型综合遗传模式、公共数据库和最新研究进行权重分析。结果令人惊讶:AI的推导帮助医生确认了18个新诊断,相当于在专家集体失手后,又为4.8%的案例找到了答案。

更有意思的是,其中7个诊断其实早已存在于其它医院或公共数据库中,但不知为何从未进入患者所在地的医疗记录。罕见病的诊断困境由此可见一斑:即使做了全基因组测序,仍有大约一半的罕见病案例悬而未决。病案文件积累速度远超医生的复查能力,再加上各医院数据库之间互不联通,许多病例在被专家放弃后便再无机会重见天日。

而o3这个仅“出生”一年多的通用深度研究模型,却有能力回头审视这些积压的旧案。它不像人类医生那样被时间、精力和信息壁垒束缚,只要给足线索,就能重新检索不计其数的文献和数据库。研究团队认为,这为解决罕见病诊断积压问题提供了一个极具潜力的工具——给那些被认为无解的案例第二次获得答案的机会。

当人类智慧在信息孤岛中举步维艰,机器却能在数据汪洋里循着微光找到新的路径。或许未来,每个被遗忘的病例都能在AI的帮助下重新被审视,那些被贴上“死胡同”标签的患者终将等到迟来的答案。

2026年6月22日

诺贝尔化学奖得主、谷歌DeepMind的AlphaFold项目负责人约翰·江珀(John Jumper)刚刚宣布,他将离开工作了九年的老东家,加入AI初创公司Anthropic。这位蛋白质结构预测AI的缔造者,是不到一周内第二位从谷歌跳槽到竞争对手的顶尖AI人才。

江珀在谷歌DeepMind的九年里,与德米斯·哈萨比斯共同创建了AlphaFold,这一突破性AI系统能够精准预测蛋白质三维结构,直接为二人赢得了诺贝尔化学奖。然而,这位科学界的超级明星选择在巅峰时刻转身。就在几天前,谷歌Gemini模型的联合负责人诺姆·沙泽尔(Noam Shazeer)刚刚宣布加入OpenAI。连续两记重拳,让谷歌在AI人才战场上的失血状况暴露无遗。

江珀在谷歌期间,还曾参与企业级编码工具的研发,而这一领域谷歌始终落后于其他前沿竞争对手。他将在加入Anthropic前“花时间充电”,但值得注意的是,他的入职时间恰好赶在Anthropic定于6月30日举办的科学主题活动之前。

这一系列离职背后的深层信号令人深思:2024年和2025年,谷歌的AI模型尚能与同行争锋;但到了2026年,面对OpenAI和Anthropic这两个主要对手,谷歌似乎已经显得有些力不从心。如今,它正在将这些最顶尖的人才拱手送给对方。DeepMind的强项一直是科学领域,但有了江珀的加盟,Anthropic在这方面的优势可能很快形成对谷歌的实质威胁。

当科学界的天才用脚投票,当赢得诺贝尔奖的成果成为人才流动的筹码,这场AI竞赛的格局或许正在发生根本性的转折。

2026年6月22日

在机器人研究的漫长道路上,让机械手像人类一样灵巧地完成任务——整理一盒别针、绑紧一根扎带、使用工具——始终是一个让人望而生畏的挑战。为什么如此困难?因为每一次尝试都依赖人类工程师的手动调试:重新摆放场景、执行策略、观察是否成功,然后修改代码再试一次。这种依赖成了通向通用物理智能的“瓶颈”。

然而,一个有趣的对比出现了:在数字世界里,编码代理已经能自动生成代码来搜索算法,但它们几乎从未真正触碰过物理世界。问题的核心,或许就是缺少一个可重复的“物理反馈循环”——让机器人自己学会失败后再站起来。这正是ENPIRE要填补的空白。

ENPIRE是一套专门为编码代理设计的“马具”框架,它把物理世界的学习变成了一个可控的优化程序。框架由四个核心模块构成:环境模块负责自动重置和验证——当机器人失败时,场景被自动恢复原状;策略改进模块根据失败原因启动改进流程;部署模块让一台甚至多台机器人同时并行执行策略;演进模块则是编码代理的“大脑”,它会分析日志、查阅文献、改进训练基础设施和算法代码,逐一攻克失败模式。整个系统像一个自我进化的闭环,几乎不需要人类介入。

效果令人惊叹:在最前沿的编码代理驱动下,ENPIRE在多个高难度灵巧操作任务上实现了99%的成功率——无论是整理针盒、拉紧扎带,还是使用工具。更惊人的是,当把一组编码代理派到机器人集群上时,训练速度进一步加快。这不再是一个实验室里的示范,而是一条通往自主机器人研究的可扩展之路。

当机器人能够自主分析自己的失败,从文献中寻找答案,然后修改算法再来一次——人类的角色从“手把手教”变成了“设定目标”。这种转变比我们想象的要快得多。或许,真正的通用机器人智能,正是从这样一个能够自我迭代的闭环中萌芽的。

2026年6月21日

多步大语言模型流水线(pipeline)故障频发,问题往往藏在检索、推理、格式化等步骤的交互之中——仅靠提示词优化就像盲人摸象,永远找不到真正的瓶颈。FAPO(Fully Autonomous Prompt Optimization)框架的出现,让这一困境迎来了转机。

构思这套系统的研究者们发现,传统方案GEPA只能反复调整提示词,却无法触及结构缺陷。而FAPO选择了一条更彻底的路:它让Claude Code在标准化代码库内自动探索整条流水线。FAPO会先评估当前性能,随后逐一检查每个中间步骤的输出,像经验丰富的侦探一样诊断失败原因,再提出精准的修改方案。它不会盲目尝试,而是不断迭代,直到评分函数指向最优解。

更关键的是,FAPO有着自己的“优化哲学”——它优先尝试修改提示词,只有当提示词优化明显失灵,并且归因分析明确指认出结构瓶颈时,它才会在允许范围内调整链式结构。这种“先开药方,后动手术”的策略,让效率与安全性实现了平衡。

实验数据证明了这套思路的威力。在六个基准测试中,FAPO与三个任务模型组合成18组对比,其中15组击败了基线GEPA。更令人信服的是,11组对比中,FAPO的平均性能与单次试验标准差范围完全不重叠,意味着胜出是统计显著的。在所有对比中,FAPO相比GEPA的平均提升达到14.1个百分点。而在需要从提示词优化升级到结构性改变的六个HoVer和IFBench任务里,FAPO大获全胜,平均提升幅度高达33.8个百分点。

安全领域同样展现了FAPO的价值。针对CTIBench-RCM这个漏洞到弱点分类任务,FAPO仅靠提示词优化(未动用结构修改)就让GPT-5的测试准确率提升了4.0个百分点,Foundation-Sec-8B-Instruct提升7.1个百分点,Foundation-Sec-8B-Reasoning提升2.0个百分点。

这些结果将FAPO推向了流水线优化技术的最前沿——它既能解决通用任务,也能应对安全领域的特殊需求。当提示词优化撞上天花板,结构性改变或许正是那把钥匙,而FAPO教会我们如何优雅地找到并转动它。未来的研究中,如何在保持自主性的同时控制计算成本,将是值得探索的方向。但此刻,这个能自我诊断、自我修复的框架,已经让复杂的LLM流水线不再是黑盒中的赌局。

2026年6月21日

在具身智能领域,基础模型的成功高度依赖海量数据,但真实机器人通过遥操作采集的轨迹数据不仅成本高昂、采集困难,还面临着行为与环境多样性不足的瓶颈。长期以来,这类数据因其精确的动作标注和与具身任务的天然对齐,被视为模型预训练的主导来源。然而,其规模受限于人力与设备,难以像大语言模型那样实现数据驱动的扩展。

为了打破这一瓶颈,研究者将目光投向自我中心人类视频——一种成本极低、规模庞大、且行为与场景丰富度远高于机器人的替代数据源。但一个根本问题悬而未决:它真的能比机器人数据更有效吗?

一项系统性研究给出了惊人答案。研究团队在严格固定的后训练和验证协议下,对比了自我中心人类视频与遥操作真实机器人轨迹作为预训练数据的效果。他们设计了一套精细的过滤与标注流程,将无结构的视频转化为可供模型学习的结构化信息。结果显示,在相同预训练数据量下,基于自我中心视频预训练的模型,在真实机器人动作预测任务上的验证损失降低了24%;在分布内任务执行成功率提升52.5%,而在分布外任务中成功率更是飙升90%。

这意味着,低成本的视频数据不仅能够替代昂贵的机器人数据,甚至在核心性能指标上超越后者。研究团队据此提出了一种可扩展的具身基础模型训练范式:先在大规模自我中心人类视频上预训练,学习泛化的世界表征,再通过少量标注的机器人数据快速对齐动作空间。这一路径有效规避了机器人数据采集的昂贵门槛。

数据瓶颈正在被打破,低成本视频正在重塑具身智能的发展轨迹。当我们重新审视那些随手可得的人类日常影像——它们或许正是打开通用机器人智能之门的钥匙。未来的机器人或许不再需要成千上万次摔倒的试验,而是在观察人类一次泡茶、一次开门之后,便能举一反三。

2026年6月21日

在强化学习优化大语言模型推理能力的过程中,一个核心矛盾始终存在:是选择简单却粗糙的信用分配方法,还是追求精细信号却背负训练不稳定的代价?GRPO这样的群体相对方法无需训练评论家,却只能给整个轨迹分配同一优势值;而演员-评论家方法虽然能提供更密集的学习信号,却需要一套可能振荡的价值函数。有没有一种方法能兼得两者的优势?最新研究提出的VIMPO给出了答案——通过KL正则化强化学习的最优性条件,它推导出策略自身隐含的价值函数,完全绕开了训练评论家的环节。在自回归生成任务中,这个价值递归可以用策略-参考对数比来表达,并由一个简单的终端条件锚定:当轨迹结束时,未来奖励归零。这种设计让VIMPO能够用关键点级别的可验证奖励来训练价值损失,却不用任何独立的评论家网络。同样,它的演员优势也摆脱了评论家,通过PPO风格的演员更新实现策略改进,将奖励整合与策略优化清晰分离。实验数据很有说服力:在MATH-500、AIME 2024、AIME 2025和OlympiadBench等多个数学推理基准上,VIMPO一致超越GRPO,尤其在偏竞赛风格的评测中优势更明显。更值得关注的是,当奖励信号充满噪声时,VIMPO仍能保持稳定的优势——这表明策略隐含的价值优化能在保留无评论家训练简洁性的同时,实现更精细的信用分配。当一个方法既无需额外模型,又能在关键任务上胜出,我们对强化学习效率的认知或许该更新了。

2026年6月21日

想象一个能够记住你们每一次对话细节的AI助手——它不仅记得你上周提到的旅行计划,还能在你今天聊起咖啡时,关联起你十年前在巴黎品尝的那杯拿铁。这正是AtomMem试图实现的突破。当前的大语言模型尽管在推理和生成上表现出色,但固定上下文窗口如同一道无形的墙,限制了信息在多轮交互中的积累与复用。许多记忆增强系统试图打破这堵墙,却往往陷入粗放构建、低效存储或更新不稳定的困境。

AtomMem的解决方案别出心裁:它引入了一个“事实执行器”,像熟练的图书管理员一样,从漫长对话中筛选出高价值的原子事实——比如“用户喜欢黑咖啡但讨厌加糖”、“用户上个月去了东京”——将这些零散信息作为高效记忆单元。随后,系统将这些事实组织成层级化的事件结构和时间剖面:前者捕捉连贯的对话场景(如一次商务会议或一场旅行策划),后者则追踪用户偏好、习惯等随时间演变的属性。当需要检索时,一个联想记忆图被激活,将碎片化的记忆连接起来,就像神经突触在脑内建立关联。

在LoCoMo基准测试中,AtomMem在多项推理任务上取得了领先成绩,且其经济性使得部署智能个性化代理成为可能。记忆不该是陈旧的档案室,而应是一座活着的图书馆——每一次翻阅都在重新点亮过往的光芒。

2026年6月21日

世界模型被认为是通往通用人工智能的决定性一步,但建模物理世界远不止于按需生成逼真的画面——它需要一种独立于观测的、持续演化的内在世界状态。就像月亮在无人仰望时依然沿着轨道运行,物体应当持续存在,事件应当发展到结局,无论是否有摄像机在观看。然而,现有基准竟从未检验这一点:它们奖励画面保真度、运动平滑度和相机可控性等表面属性,却从不追问一个生成的世界在被观测之外是否仍在演化。

WRBench应运而生,这是首个系统性的诊断基准。它把相机运动视为对可观测性的干预,并将评估拆解为一条人类校准的链条:首先检查相机是否执行了要求的交互动作,其次确认场景在可见范围内是否保持连续且可识别,最后重点考察——当相机离开后又返回时,目标对象是否与之前被启动的事件状态一致。

在涵盖四种控制范式、23个模型的9600个视频中,一个顽固的现象浮现出来:当前所有系统都把观测到的世界当作一段跟踪镜头,当相机返回时,目标对象停留在被遗弃时的状态,仿佛时间在无人注视时凝固了。世界并未在视野之外向前推进事件。更令人警觉的是,这一失败跨越了控制范式、模型家族和模型规模——无论图像更清晰、控制更精确、几何先验更丰富,还是参数数量更大,都无法带来稳健的世界状态演化。

这意味着,今天的世界模型本质上只是一帧帧优美画面的生成器,而非真正理解物理因果的演化引擎。WRBench揭露的盲点正是一个根本性转向的信号:物理状态内核的稳定性和视角干预下世界线的连续性,应当成为世界模型设计的一流目标。真正有用的世界模型,应该学会捕捉世界如何展开,而非仅仅呈现下一帧看起来像什么。

当模型学会在无人注视时依然让事件推进,那才是人工智能从“观察者”走向“思考者”的时刻。毕竟,宇宙最深刻的规律从不依赖于有无观众。

2026年6月20日

当大型语言模型(LLM)的推理过程变得难以捉摸,我们如何信任它们的判断?研究人员将透明度拆解为两大支柱:变量透明度,即我们能否理解模型计算过程中的每一个中间快照;以及算法透明度,即我们能否通过这些快串还原模型得出输出的全过程。以DiffusionGemma为代表的扩散模型,因其大部分计算在连续的潜在空间中完成,初看之下似乎让推理透明性雪上加霜。

乍看之下,DiffusionGemma的变量透明度十分糟糕。它在可解释状态之间进行的序列计算深度,即“晦涩序列深度”,竟达到了自回归对比模型Gemma 4的28.6倍。然而研究者发现了一条破解之道:他们可以透过一个可解释的token瓶颈,将每个去噪步骤间流动的信息进行映射,且这一步操作丝毫不影响模型的下游性能。一旦将这些中间状态视为可解释的,晦涩序列深度骤然降至Gemma 4的仅1.1倍。这一发现意味着,扩散模型的变量透明度并非天生短板,而是缺乏合适的解读工具。

但算法透明度对扩散模型而言远比对自回归模型棘手。因为在每个去噪步骤中,画布上所有的token预测都可能同时发生变化,模型因而有能力在去噪过程中执行复杂的分布式算法。为了探究这一难题,研究者开展了一系列可解释性案例研究,并发现了令人惊讶的新现象:非时间顺序推理——模型似乎能跳过常规时序,在前后步骤间跳跃式构建答案;token与序列涂抹——信息像颜料一样在多个token上模糊扩散;中间上下文推理——模型在去噪中途就利用尚未成型的上下文进行判断。这些现象在自回归模型中极为罕见,暗示扩散模型拥有独特的推理方式。

最后,研究者测试了可监控性——即模型的输出是否对下游任务有用的透明度关键指标。结果发现,DiffusionGemma在可监控性上与Gemma 4不相上下。这证明即便其内部推理路径看似异类,但其最终产出依然可靠可用。

透明度的裂缝并非只有宽窄之分,更在于我们能否找到照亮它的正确光线。扩散模型的推理之路虽然蜿蜒曲折,却并非不可追踪。当我们在黑箱的角落发现非时序推理和涂抹规律时,也许就打开了通往更安全、更可理解智能体的一扇窗。

2026年6月20日

想象一下,一个机器人不再只是被动等待指令,而是像孩子一样主动玩耍,在探索中积累能力。这正是研究人员提出的“玩耍式代理机器人学习”理念——让具身编码代理在下游任务到来之前,通过自我驱动的玩耍持续学习可复用的技能。

传统机器人系统虽然能编写代码策略、观察反馈并修正行为,但它们始终是任务驱动的:只有收到明确指令后才会学习新技能,这使得它们缺乏灵活性和通用性。而这项研究带来的RATs(机器人代理团队)彻底改变了这一局面。在玩耍阶段,RATs会自主提出新颖且可学的探索任务,规划并执行机器人代码策略,实时验证中间进展,诊断失败原因,并通过密集的步骤级反馈进行重试。最终,成功的执行将被提炼成一个持久的代码技能库,供未来使用。

测试时,机器人代理只需从这个冻结的技能库中检索相关技能,就能帮助解决全新任务。实验在LIBERO-PRO和MolmoSpaces两个基准上进行,结果令人振奋:与基线CaP-Agent0相比,通过玩耍学习的技能使下游任务成功率分别提高了20.6和17.0个百分点。更妙的是,这些学习到的技能还能被插入到其他推理时的代码即策略代理中——只需将它们检索到上下文中,无需微调底层模型,就能在RoboSuite和真实世界迁移任务中分别提升8.9和8.8个百分点。

这项研究揭示了一个深刻的道理:学习的方式比学习本身更重要。当机器不再是被动的工具,而是主动的探索者,看似无目的的玩耍反而成为最有效的成长路径。或许,未来的智能不会来自更复杂的算法,而是来自更自由的童年。

2026年6月20日

在现实世界中,机器人要完成复杂的操作任务,仅仅看懂眼前的情景远远不够——它们还需要记住过去发生了什么,并预测接下来会发生什么。这种能力对于长时域任务尤其关键,比如在一间杂乱的厨房里按顺序取出多个工具,或者在生产线上组装多步骤产品。过去,科学家们尝试用“世界动作模型”来解决这个问题,这种模型同时处理视觉预测和动作决策,记忆是它的核心武器。然而,现有的世界动作模型总在效率与记忆之间陷入两难:要么只盯着最近几帧画面,推理快却容易在非马尔可夫环境中迷失方向;要么保留完整历史,但时间与显存开销随序列长度暴涨,让实际部署变得不切实际。

现在,来自上海交通大学、北京大学等机构的研究团队提出了一个叫MemoryWAM的新方法,试图打破这个僵局。它的秘密武器是一种“混合记忆设计”,把当前帧、事件边界处的锚点帧以及紧凑的“gist令牌”组合起来——这些gist令牌像压缩饼干一样,把长程历史的关键信息浓缩成简洁的表示。配合一个定制的注意力机制,MemoryWAM既能快速访问详细的短期上下文,又能高效检索压缩后的长期上下文,从而在依赖记忆的决策任务中,大幅降低推理延迟和GPU内存占用。

在模拟环境和真实世界的多个长时域、记忆依赖的操控任务中,MemoryWAM的表现超越了强力的视觉-语言-动作基线以及其它世界动作模型,同时还保持了可接受的计算效率。这意味着,机器人在面对需要回顾几分钟前操作细节的任务时,不再需要拖着沉重的历史包袱,也不必牺牲对当前瞬间的敏锐感知。

当机器人学会像人类一样,在短暂与永恒之间找到平衡,它们才能真正走进我们的生活。记忆不再是负担,而是通往智能的阶梯。

2026年6月20日

当一辆自动驾驶汽车穿过十字路口,它需要持续理解周围车辆的相对位置和运动轨迹;当一款AR眼镜识别客厅家具,它必须从不同角度整合零散的视觉信息。然而,现有的视觉语言模型和工具增强代理大多静态地处理单张图像,无法应对现实世界连续、动态的三维空间。最新研究提出的S-Agent,正试图填补这一空白——它赋予AI在连续多视角图像和视频中进行时空推理的能力,不是孤立地预测每一帧,而是像人类一样逐步积累证据,构建对场景的整体理解。

S-Agent的核心思路是将空间推理重塑为“时空证据积累”过程。它把大视觉语言模型作为语义规划器,由模型自主决定需要哪些证据——比如某个物体的高度、两个物体间的距离或相对朝向。然后,一套层次化的空间工具和专家接手:先在2D图像中识别并标注物体,再将它们提升为3D几何证据,最后从这些证据中提取高层空间知识,如计数、测量、方向与相对位置。这种“从2D到3D再到语义”的流水线,使得推理不再依赖单帧的猜测,而是基于多帧协同的立体信息。

更关键的是,S-Agent引入了时间记忆机制,包括“场景记忆”和“代理记忆”。场景记忆用于维护不断演变的场景状态——比如一个物体在视频前后帧中是否被遮挡或移动;代理记忆则积累整个推理过程中的上下文,帮助模型记住之前的决策和发现。这使得模型能在不同帧和推理步骤之间整合证据,实现真正的时序推演。

在多个多视角和视频空间推理基准测试上,S-Agent无需额外训练就能持续提升开源和闭源视觉语言模型的表现。例如,它将通用模型在3D空间关系理解上的准确率提高了多个百分点,甚至在某些任务上接近了更高级别的闭源系统。研究团队还利用S-Agent自动生成的30万条空间推理轨迹(命名为S-300K)对小型模型进行了监督微调,由此诞生的S-Agent-8B虽然仅有8B参数,却在性能上显著超越了同量级基线(如Qwen3-VL-8B),并与GPT-5.4和Gemini 3等前沿闭源模型表现相当。

空间智能的本质不是对孤立图像的分类,而是在时间和空间维度上持续构建、验证和修正对世界的理解。S-Agent用“规划证据、工具执行、记忆整合”的循环,为这一方向提供了无需昂贵标注的可行路径。当模型学会追问“还有什么我需要知道的?”,而非满足于“我已经看到了什么”,机器的认知边界便被悄然拓宽了一步。

2026年6月20日

机器人如何规划下一步动作?以往的世界动作模型依赖视频生成,通过预测未来连续帧来连接视觉世界与机器人控制。但这条路越走越窄:生成密集的多帧未来标记让推理成本高昂,全帧预测又浪费算力在无关的动作细节上,而长程想象积累的误差反而误导动作判断。这些困境指向一个直白的问题:世界动作模型真的需要视频生成吗?

答案是否定的。研究者提出了ImageWAM,一个化繁为简的框架——它直接复用预训练的图像编辑模型来预测机器人动作。与视频生成不同,图像编辑天然聚焦于“当前图”到“目标图”的变换:它只需建模单帧变化,关注动作驱动的视觉差异,并通过编辑预训练将任务指令映射到局部视觉修改。更精妙的是,ImageWAM在推理时并不真正解码出目标帧,而是让图像编辑去噪过程中产生的KV缓存作为“世界-动作上下文”,直接条件化一个流匹配动作专家。这相当于用一张图片的编辑痕迹,替代了整段视频的生成。

实验证明,这种轻量思路反而更强。在多个模拟器和真实机器人实验中,ImageWAM不仅超越了标准视觉-语言-动作基线,还匹配了当前最先进的视频式世界动作模型,且完全无需额外的策略预训练。计算效率更是飞跃:相较于视频类方法,其计算量(FLOPs)降至六分之一,推理延迟降至四分之一。注意力分析进一步揭示,图像编辑缓存会紧密聚焦于任务相关的变化区域——比如“拿起杯子”时,注意力集中在杯子和机械臂之间——这解释了为何哪怕不生成视频,模型也能精准理解世界如何改变。

从视频的宏大叙事转向图像的精确编辑,ImageWAM揭示了一个反直觉的事实:有时删繁就简比堆叠细节更有效。当机器人不再试图预测每一帧像素的变迁,而只捕捉任务关键的“那一刻变化”,动作规划反而变得更高效、更可靠。这或许意味着,世界模型的核心不是“模拟一切”,而是“捕捉变化”——用最小的计算成本,抓住最关键的差异。

2026年6月20日

想象一个语言模型,它不按从左到右的规则生成文本,而是像拼图一样任意顺序补全。这种扩散语言模型(dLLM)天生灵活,却让传统的后训练方法束手无策。在线自我蒸馏(OPSD)在自回归模型中表现优异,但它依赖“前缀”信息——也就是从左到右的上下文token级监督,这与dLLM的任意生成顺序根本冲突。于是,研究者提出了d-OPSD,第一个专为扩散LLM设计的在线自我蒸馏框架。

关键创新在于两点:第一,学生不再从老师提供的“过去前缀”中学习,而是从“自我未来经验”中汲取智慧。具体来说,老师使用自生成的完整答案作为“后缀条件”,让学生模型去思考“如果我知道结局,该如何调整生成过程”。第二,监督信号从细碎的token级别转向粗粒度的步骤级别,与dLLM逐步去噪的迭代过程完美对齐。老师在每个去噪步骤给出指导,而不是纠结于每个token的差异。

在四个推理基准(如数学、逻辑等)上的实验显示,d-OPSD效果惊人:它仅需约10%的优化步数,就能持续超越强化学习(RLVR)和有监督微调(SFT)基线。这意味着,不仅性能更强,训练效率还高出许多。代码已开源,等待更多探索。

这种从未来中学习的方法,或许正预示着后训练技术从“复刻过去”转向“预演结局”——当模型学会参考自己的最终答案来修正过程,推理的边界便被悄然拓宽。

2026年6月20日

想象一下,一位经验丰富的教师(大模型)试图将自己的全部知识灌输给一个年幼的学生(小模型),但学生太小,无法承受老师那过于精细的思维模式——强行模仿只会让他迷失在老师最尖锐的复调中,反而在解决新问题时频频出错。这正是知识蒸馏在“小学生”身上遭遇的困境:当教师网络远超学生容量时,强迫学生模仿logits(教师模型输出的原始分数向量)会让他过度聚焦于教师最锐利的判断边界,损害了在训练语料之外基准测试上的泛化能力。

另一种思路——强化学习(RL)通过让学生基于自己的探索(rollout)进行学习,避免了直接模仿logits。然而,当学生在某个问题上所有尝试都失败时——这些尝试因回报为零而被默默丢弃——强行将更强的教师回答注入策略梯度就会破坏“策略内”假设,引发模型漂移。这就像在赛跑中,当学生每次冲刺都跌倒时,老师不是帮他调整起跑姿势,而是直接把他扛到终点——学生永远学不会自己跑。

受维果茨基“最近发展区”理论的启发,研究者提出了一种名为“最近发展区策略优化”(Zone of Proximal Policy Optimization, ZPPO)的方法。核心思想很简单:让教师站在提示(prompt)里,而不是站在策略梯度里。对于难题,ZPPO构建两种重构提示:一种是“二元候选问题”(BCQ),将一条正确的教师回答与一条错误的学生回答配对,作为匿名候选项让学生辨别;另一种是“负面候选问题”(NCQ),将学生多次失败的回答汇总到同一个提示中,暴露出它们的共同失败模式。同时,一个“提示重放缓冲区”不断循环每个难题,直到“毕业”——学生在该问题上的平均rollout准确率达到50%——或者因容量有限而被先进先出(FIFO)淘汰。这种机制放大了BCQ和NCQ在学生当前最近发展区内的作用。

实验使用Qwen3.5系列,在四个学生规模(0.8B至9B参数)上,以27B参数模型为教师,经过视觉-语言后训练,在包含16个视觉语言、10个纯语言和5个视频任务的31个基准测试集上评估。结果一致胜出,比离线/在线蒸馏方法和GRPO(一种常用的策略优化方法)表现更好,且小模型上的收益最为显著。

真正的教育不是替学生走完路,而是在他即将跌倒时,悄然递上一根能自己抓住的藤条。ZPPO之所以有效,正因为它从未越俎代庖——老师只负责提供选项和暴露错误,而学会甄别与纠正的,永远是那个正在成长的小模型自己。这种基于最近发展区的智慧,或许正是大模型时代对“教学相长”最深刻的诠释。

2026年6月20日

想象一下,你有一堆历史数据,却想教会机器人完成全新的复杂任务。传统方法要么路径漫长、计算笨重,要么效果欠佳。现在,一种名为“反转Q学习”(RQL)的新算法,正通过“逆向思维”打破僵局。

这背后的故事,要从“迭代生成模型”说起。像流匹配这样的技术,原本是生成图像或文本的利器——它们一步步将随机噪声“雕琢”成清晰结果。研究人员突发奇想:如果把这个过程拆解,把每一小步都看作强化学习中的一个“动作”,会怎样?于是,一个“扩展马尔可夫决策过程”框架诞生了:机器人不是直接跳到最终状态,而是通过一连串微调步骤,逐步逼近最优行为。

但难题随之而来。离线强化学习依赖历史数据,而这些数据里的“动作”并非来自新策略,直接学习会导致严重的“地平线诅咒”——步骤越长,偏差和方差越失控。RQL的妙招是双重的:第一,它通过“反转流”生成虚拟的在线轨迹,让旧数据焕发新生;第二,它引入偏差-方差缩减技术,像给望远镜加装稳定器,在漫长的时间序列中保持视角清晰。

这一组合造就了RQL的独特优势:它无需通过时间反向传播(这会拖慢并扭曲学习过程),能更聪明地利用学到的价值函数,并且直接训练完整、表达力强大的流策略。在50个极具挑战的模拟机器人任务上(从抓取到攀爬),RQL的平均离线表现超越了所有最先进的流基离线强化学习算法,成为新的标杆。

算法团队坦言,这并非终点——他们希望在未来把RQL扩展到真实机器人上,让“逆向学习”真正改变机器人与世界互动的方式。正如每个创新都始于颠覆直觉:有时候,走一条反向的路,反而能最快抵达终点。

2026年6月19日

真实世界中评估机器人通用操作策略既昂贵又缓慢,难以规模化。动作条件视频世界模型为这一问题提供了可扩展的替代方案——通过模拟策略的虚拟运行来评估表现。然而,自回归滚动会累积复合错误,多摄像头视角的观测必须保持相互一致性,评估器还必须泛化到训练分布之外的行为。我们带来了SC3-Eval,一种自洽视频生成配方,它将预训练的视频基础模型改造为一个精准的策略评估器,强制引入三种互补的一致性形式。

第一种,前向-逆动力学一致性。模型同时学习从动作预测帧,以及从帧恢复动作。这就像给虚拟运行装上了双重锚定:生成过程被物理上合理的动作流约束,那些仅仅向前预测而无法自我修正的漂移,在这里被惩罚。第二种,跨视角一致性。模型训练从另一个摄像头视角修补当前视角,使得多摄像头观测在长序列滚动中始终连贯,无需任何显式的记忆机制。第三种,测试时一致性。在推理阶段,我们复用逆动力学模式,将它作为每个动作块的不确定性信号:一旦生成的帧偏离了请求的动作,该信号就会终止滚动。我们还证明,SC3-Eval生成的滚动能够复现策略在真实世界中表现出的失败模式,支持细粒度的诊断比较,而不只是给出一个统一排名。

在七个真实世界的视觉-语言-动作策略上,SC3-Eval实现了闭环皮尔逊相关系数0.929和MMRV 0.119,显著优于三个基于视频模型的强基线,并成功泛化到新任务。当一个虚拟世界不仅能重现成功,还能忠实复现失败,评估就不再只是排名的冰冷数字,而是成为理解策略内在逻辑的镜子。这种自洽性,或许正是通向通用机器人安全落地的一条隐秘路径。

2026年6月19日

OpenAI刚刚从Google挖来了Noam Shazeer——这位Gemini项目的联合负责人,曾在2017年参与撰写“Attention Is All You Need”论文,奠定了现代AI的Transformer基石。而就在两年前,Google为了将他从自己创办的初创公司Character.AI召回,不惜砸下27亿美元。如今,这位AI传奇人物再次跳槽,加入了OpenAI的阵营。

故事要从2000年说起。Shazeer加盟Google时,深度学习还远未成为主流。17年后,他与同事合写了那篇改变一切的论文,Transformer架构让GPT、BERT等模型得以诞生。然而,当Shazeer向Google高层推销一个类似ChatGPT的聊天机器人创意时,遭到了冷遇。于是,他离开Google创办了Character.AI,专注于角色扮演和个性化对话。2024年,Google意识到错失了先机,据传斥资27亿美元将Shazeer和他的团队买了回来,让他担任Gemini项目的副总裁兼联合负责人。他的专业能力帮助Gemini模型追上了前沿水平,弥补了与ChatGPT的差距。

但就在2026年的这场人才争夺战中,Shazeer再次选择了离开。他的去向并非偶然:在过去的半年里,顶尖AI研究员和工程师的流动方向一直指向Anthropic或OpenAI。相比于去年夏天Meta疯狂挖角的混乱场面,这次的跳槽显得更为安静,但分量丝毫不轻。一位Transformer的作者、Gemini的核心人物转投对手,无疑是对Google人才管理的一记重击。

这不仅是个人职业转折,更是整个AI行业风向的缩影。当最聪明的大脑不断流向同一批公司,创新的火种也将随之迁移。未来谁能留住这些关键人物,谁才可能定义下一代AI的模样。

2026年6月19日

在AI图像生成领域名声大噪的Midjourney,突然宣布了一项令人意想不到的跨界计划:他们不再满足于生成虚拟画面,而是造出了一台名为Midjourney Scanner的医疗硬件。这台设备利用水下超声波传感器,将用户缓缓浸入水中,穿过一圈超声探头,声称仅需60秒即可完成全身扫描。创始人David Holz表示,其成像细节堪比磁共振成像,但耗时大幅缩短。为了实现这一目标,Midjourney与超声波芯片制造商Butterfly Network联手研发。更令人惊讶的是,他们计划从2027年起,将这台扫描仪植入自己运营的水疗中心。首家Midjourney Spa定于2027年在旧金山联合广场开业,届时将配备约10台扫描仪,同时提供桑拿、冷水浴和热水浴池等设施。这意味着,未来的水疗日可能不仅是放松,还能顺便做一次全身健康扫描。虽然这项技术尚未完全验证,但这一大胆的硬件构想,正是人们期待已久却似乎遥不可及的未来设备。在如此疯狂的发布之后,Midjourney其他神秘的“待公布”产品也愈发引人遐想。也许,真正的创新从不局限于单一赛道,而是敢于打破想象的边界。

2026年6月19日

要让机器人学会像人一样灵巧地操作物体,尤其是拥有多指灵巧手这样的类人平台,一个关键瓶颈是:如何大规模、低成本地生成训练数据?答案似乎就藏在人类日常的视频里——毕竟,人类每天都在用双手完成各种复杂任务,而这些行为都被手机、摄像头记录了下来。

但事情没那么简单。从人类视频中提取机器人能用的数据,面临两大难题:一是精确估计手与物体的交互(比如手指怎么抓、用力多大、物体如何被移动),二是跨越“人类到机器人”的形态差异——人类的手和机器人的手在结构、自由度、触觉反馈上都大相径庭。过去,研究人员主要依赖昂贵的动捕设备或虚拟仿真环境来获取高质量数据,但可扩展性很差。

在这项工作中,团队提出了一个名为“DO AS I DO”的算法,它就像一个数字翻译官,能把单目RGB人类视频(例如从手机、头戴摄像头或固定摄像头拍摄的日常视频)中手与物体的交互重建出来,然后“重定向”到多指灵巧机器手上,生成一系列真实世界可执行的机器人操作动作。

具体来说,DO AS I DO 可以从多种视频源中工作:既有第一人称视角的(如头戴相机),也有第三人称视角的(如固定摄像头直播)。它首先重建手部和物体的3D轨迹和接触点,然后通过一个优化框架将这些轨迹映射到机器人的运动空间,考虑关节限制和物理可行性,最终输出一套完整的机器人控制指令。

在多个公开数据集(包含真实标注数据)以及从互联网收集的视频片段上,该算法在估计手-物体交互精度和提取可行灵巧操作轨迹两方面,均显著优于此前的最先进方法。实验还揭示了哪些类型的视频数据对机器人学习最有效——例如,第一人称视角的视频由于更接近机器人的“感知”,在重定向中表现更好;多视角视频虽然信息更丰富,但存在视角差异带来的对齐挑战。这些发现最终合成了一份“实操指南”,帮助研究人员在收集人类数据时做出更高效的选择。

当我们让机器人通过看人类视频来学习时,我们实际上是在搭建一座从人类日常行为到机器智能的桥梁。这座桥梁的每一处细节——从视频里的一个指尖角度,到机器人关节的一个微小转动——都在告诉我们:真正的智能或许不在于模仿,而在于理解动作背后的意图和约束。未来,每一位上传自己做饭、弹琴或系鞋带视频的普通人,都可能无意中成为机器人领域的“老师”。

2026年6月18日

Anthropic公司最近做了一件让人意外的事:他们调取了40万次Claude Code的会话记录,不是为了炫耀AI有多强,而是想搞清楚——人和AI究竟怎么分工才能最出活。结果令人深思:一个用户在自己领域内的专业程度,远比他的编程技术水平更能决定AI助手的产出质量。

在这场人与AI的协作中,分工其实很明确:用户负责做大约70%的规划决策,比如“我们接下来要解决什么问题”、“这个功能应该怎么设计”;而Claude则负责处理近80%的执行层面选择,比如具体的代码写法、函数调用的参数设置。这不像是老板和员工的关系,更像是建筑师和施工队的关系——你把蓝图画得越清楚,施工队就能干得越漂亮。

真正拉开差距的不是会不会写代码,而是懂不懂业务。同样是给Claude发一条指令,编程新手平均只能收获大约5个操作动作和600个字的反馈;而一个行业内的高手,哪怕他并不擅长写代码,却能换来12个操作动作和3200个字的输出。产出翻倍不止。

更有说服力的是成功率数据。经过实际测试验证——也就是代码能跑通测试或保存为可用成果——中高级用户的任务成功率达到了28%到33%,而新手只有15%,差距超过一倍。但如果只看用户的职业背景,有趣的事情发生了:律师、管理者、科学家这些并不以编程为专职的人,在完成编码任务时,竟然和专业的软件工程师相差无几,只落后了大约7个百分点。

这背后隐藏的逻辑其实很简单:AI写得再快的代码,如果解决错了问题,就毫无价值。你需要在开始之前就想清楚“我们到底要做什么”,而不是只会说“帮我写这段代码”。

这个发现与上周我们提到的Perplexity与哈佛大学的研究结果不谋而合——AI助手不是让人更快地做原来的工作,而是推动人们去从事更复杂、跨领域的工作。在这些研究中,AI助手的价值瓶颈从来不在模型本身有多强大,而在于使用它的人到底对工作理解有多深。你的行业知识、判断力和决策力,才是决定AI工具能否真正发挥作用的钥匙。

2026年6月18日

皮尤研究中心发布了2026年对超过5000名美国成年人的调查数据,揭示了一个令人深思的矛盾现象:AI的使用率与公众的乐观情绪正背道而驰。聊天机器人刚刚跨过关键里程碑——约半数美国成年人现在使用过聊天机器人,其中四分之一每天都用,这一数字从2024年仅三分之一的使用率大幅跃升。然而,悲观情绪占据主导:近40%的人预计AI在未来20年内会让社会变得更糟,只有16%的人相信它会带来改善。最令人玩味的是,30岁以下群体对AI依赖最深,却对其最不信任,仅14%认为AI对社会有积极回报。在具体平台方面,ChatGPT以44%的成人使用率遥遥领先,比2023年翻了一番;Gemini为24%,Claude仅为6%。这一数据与我们圈外对AI情绪的直觉高度吻合:使用率攀升的同时,对未来的恐惧也在加深。特别值得注意的是平台间的巨大反差——Anthropic在行业内被频频讨论,但在普通美国人中几乎毫无存在感。技术普及与信任缺失的拉锯战,或许正是未来十年最值得关注的数字鸿沟。当一半人开始依赖AI,而大多数人却相信它会带来更糟的未来,这种撕裂感预示着AI真正的转折点尚未到来。

2026年6月18日

一场关于AI模型出口的暗战,正在美国政府与人工智能实验室Anthropic之间悄然升级。事情的起因是,美国商务部下令让Anthropic将其最先进的模型下线,但双方至今未能达成一致。而随着更多细节的浮出水面,这场争端背后的复杂面貌也逐渐清晰。

首先是来自华盛顿的一封措辞严厉的信件。美国商务部长霍华德·卢特尼克直接致信Anthropic,警告其不得将代号为“Mythos/Fable”的模型分发给“外国人”。这封信的曝光,让外界第一次看到了政府对该实验室施加的具体压力。

但Anthropic内部的反应却出人意料。《纽约时报》获取的内部消息显示,员工们认为实验室正在遭受“不公平的针对”,甚至有人直言这是“基于不良直觉的霸凌”。这种情绪与外界对Anthropic一贯谨慎安全的形象形成了鲜明对比。

与此同时,《华盛顿邮报》披露了一个耐人寻味的细节:原本有限的Mythos访问名单竟然已经“膨胀”了,其中一家韩国公司甚至被怀疑与中国有关联。这个信息或许解释了为何美国政府会如此愤怒——毕竟,对一个理应严格管控的尖端AI模型而言,任何超出监管范围的扩散都可能被视为安全漏洞。

在此背景下,Anthropic的CEO达里奥·阿莫迪、OpenAI的萨姆·奥尔特曼、谷歌DeepMind的戴米斯·哈萨比斯等人齐聚法国,参加G7峰会。他们将在那里与各国领导人讨论AI监管与安全,而这本应是Anthropic展示其负责任形象的舞台。

整件事其实揭示了一个更本质的问题:这或许从来不是纯粹的安全之争,而更像是一场复杂的关系博弈。美国政府的禁令听起来像是无法满足的要求,而Anthropic员工的愤怒也并非毫无道理——当监管的标准变得模糊,当“安全”沦为政治博弈的借口,任何一家企业都可能成为靶子。这让人不禁思考,在人工智能飞速发展的时代,安全与自由、监管与信任之间的平衡,究竟应该由谁来定义?