EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年6月11日

大语言模型的推理能力提升中,在线蒸馏(On-policy distillation, OPD)正被越来越广泛地使用,但其训练过程的内部机理却如同一个黑箱。为了揭开这层迷雾,研究人员深入分析了OPD在参数空间中的更新轨迹,并与监督微调(SFT)和带可验证奖励的强化学习(RLVR)进行了系统对比。

通过一套精心设计的参数空间诊断工具,研究揭示了OPD独特的“松弛离主方向”状态:相比SFT,OPD的更新仅影响更少的权重,并更强地避开参数空间的主方向;而对比RLVR,它又不那么严格受限。这种静态定位只是表面现象——OPD真正令人着迷的是一种称为“子空间锁定”的动态特征:其累积更新在训练初期迅速进入一个狭窄的低维通道,仿佛被无形的轨道所束缚。

实验进一步显示,如果将训练限制在早期形成的这个更新子空间内,OPD的性能几乎不受影响,但SFT却会显著下降。这意味着这个被锁定的子空间对于OPD而言功能完备,但对SFT却远远不够。控制实验还发现,稀疏化更新令牌或将rollout生成改为离策略,都不会改变这种秩动态;而将OPD目标与RLVR混合则会彻底改变更新轨迹。

这些发现指向一个核心结论:在线蒸馏并非简单介于SFT和RLVR之间的过渡状态,而是在参数空间中独立塑造了一套属于自己的更新几何。这提醒我们,不同训练方法在参数空间的底层运作方式可能截然不同,理解这些差异才是优化大模型训练的关键。

2026年6月11日

大语言模型的后训练阶段,强化学习早已成为关键一环。但一个棘手的问题始终存在:训练与推理之间的不匹配,以及策略的陈旧,使得模型更新常常偏离正轨。为了稳住优化过程,主流方法如PPO和GRPO采用比值裁剪机制——将重要性比值限制在某个范围内。然而,在长尾词汇分布中,这个比值很容易变成分布偏移的蹩脚代理人,导致控制失效。

最近出现的DPPO试图解决这一矛盾:它用基于散度的掩码取代比值裁剪,以采样token的绝对概率偏移定义信任区域。但DPPO仍然依赖硬掩码——一旦某个token的更新越过了信任区域的边界,哪怕方向有害,其梯度也会被直接丢弃,而非得到修正。这就像把偏离航线的船直接凿沉,而不是调整舵向。

针对这一缺陷,我们提出了DRPO(Divergence Regularized Policy Optimization)。它的核心思想很简洁:用平滑的优势加权二次正则化项取代硬掩码。当策略更新偏离信任区域时,DRPO不会粗暴地截断梯度,而是施加一个连续的、有界的梯度权重——越界越远,惩罚越重,同时仍保留校正信号。这种设计既保留了DPPO的信任区域几何结构,又让模型在边界之外也能获得有意义的反馈,而不是一刀切的“沉默”。

实验覆盖了从百亿到千亿的不同模型规模、多种架构和精度设置。结果显示,DRPO显著提升了大语言模型强化学习训练的稳定性与效率。比如,在连续训练中,DRPO的奖励曲线更平滑,波动更小;而DPPO则偶尔会出现剧烈抖动,甚至训练崩溃。更重要的是,DRPO的收敛速度也更快,因为每次更新都在“温和纠正”而非“彻底抛弃”。

真正的优化,不是在错误发生后切断一切联系,而是在每一次偏差中保留转向的动力。

2026年6月11日

想象一下,当一个机器人试图从桌上拿起一个杯子时,它的手在精准抓取,脚却只能笨拙地按部就班移动——这几乎就是当前最先进的人形机器人的真实写照。问题出在它们的大脑被割裂成两半:一个高层策略专管手臂和手掌,另一个低层控制器只负责腿脚不摔倒,两个系统活在完全不同的动作语言里。腿脚被降级为“平衡工具”,而不是能主动执行复杂任务的伙伴。这种“上下半身分裂”让机器人无法像人类那样,在弯腰攀爬时同步协调手脚。

如今,一个名为MotionWAM的突破性方案正在打破这种僵局。它用一种“统一运动潜空间”取代了割裂的架构,让机器人从单个眼动摄像头实时捕获的画面中,同时预测包含行走、躯干扭动、高度调整、脚部交互和手部操作在内的全身运动指令。这背后的引擎是一个经过预训练的视频世界模型——原本只在桌面上玩转小物件,现在被一个三阶段的训练框架逐步改造,先是适应机器人真实的第一人称视觉动态,再无缝衔接到目标人形机器人的身体结构。

在九个真实的Unitree G1机器人任务测试中,MotionWAM不仅实现了在实时运行,还在整体成功率上碾压了基于视觉-语言-行动(VLA)的基线模型——后者即使经过相同演示数据的微调,成功率也被甩开超过30%。更令人印象深刻的是,它展现出了一种以往“上下半身解耦”策略永远无法触及的能力:在操作的同时,脚也能主动参与任务驱动的交互,比如在需要时精准踩踏踏板或调整站位。

这些结果暗示着一个跃迁:视频预训练的世界动作模型,终于从桌面操作的温室内被释放出来,开始向着像人类一样协调、优雅的全身控制跨越。当我们不再把腿脚当作维持平衡的累赘,而是视为全身协作的主动伙伴时,人形机器人的运动智能才刚刚真正起步。

2026年6月11日

如今,大语言模型处理长文本时,内存成了最大的绊脚石——每多一个词,KV缓存就膨胀一分。为了给模型“减负”,研究者们试过压缩缓存,但往往顾此失彼:要么质量大跌,要么耗时太长,还和现有推理引擎不兼容。这时,编码器-解码器架构成了诱人的替代方案:它能把冗长的词序列“拧”成一段短小的潜在向量,让解码器轻松消化。然而,之前的尝试总在精度与效率的拉锯战中败下阵来。

直到最近,一个团队决定重新审视这条路。他们从零开始,预训练了多种架构变体,像筛选种子一样找出最佳设计方案。最终,他们选出了一组参数:编码器0.6B、解码器4B,在超过350B token的数据上持续预训练,并尝试了1:4、1:8、1:16三种压缩比。这组模型被命名为Latent Context Language Models(LCLMs),它们在通用任务表现、压缩速度和峰值内存使用之间,画出了一条更漂亮的帕累托曲线。

更妙的是,LCLM可以成为长时任务代理的轻盈脊梁——代理不再需要拖着冗长的上下文奔跑,而是像翻阅摘要那样快速扫过压缩后的信息,只在必要时才展开相关片段。这或许意味着,在AI推理效率的赛道上,压缩不一定非要妥协,而是可以走向一种更聪明的平衡。

2026年6月11日

在人形机器人控制的漫长征程中,一个古老的结构始终困扰着研究者:我们能否让机器人像人类一样,拥有一个能理解复杂指令的“大脑”,和一个快速执行动作的“小脑”?现有的方法要么依赖繁琐的奖励机制设计,只能执行少数技能;要么依赖动作追踪器,难以适应新的输入方式。直到OMG的出现,这个设想才首次在真实世界中有了清晰的答案。

OMG的核心设计灵感直接来源于生物运动系统:它由两个模块构成——一个可扩展的“大脑”,负责根据语言、音频或人类参考动作等多样化条件进行推理;一个反应灵敏的“小脑”,负责执行即时运动跟踪。但实现这一愿景面临两大难题:其一,如何获取海量高质量数据来训练这种通用控制能力;其二,如何让生成器能够处理复合的、可扩展的多模态输入。

为了解决这些问题,研究者建立了一套极其精细的数据策划、过滤和标注流程。他们收集了覆盖各种动作场景的数据,通过严格的质量控制确保每一帧都有效,然后为不同模态的条件输入打上标签。在此基础上,他们搭建了一个基于扩散模型的运动生成主干网络。扩散模型近年已在图像和视频生成领域大放异彩,现在被首次用于人形机器人全身控制。它能够同时接受语言指令、音频信号甚至人类动作视频作为条件,输出对应的机器人运动轨迹。

实验结果表明,OMG在多个维度上展现了惊人的性能。在标准测试中,它实现了当前最优的全身控制效果,并且随着模型规模增大,性能持续提升——这是一种典型的“模型扩展行为”,表明它具备向更强大通用模型进化的潜力。更重要的是,它能够高效地适应新的数据分布和新的输入模态,比如只需少量新数据就能学会之前从未见过的动作。

这项研究的意义在于,它为构建人形机器人的基础模型迈出了具体的一步。当机器人不再需要针对每个新任务重新设计奖励函数,而是像人类一样通过听、看、读来理解指令并执行动作,我们才真正接近了通用人形机器人的未来。当然,从实验室到真实世界,从单一动作到复杂连贯的行为序列,还有很长的路要走。但OMG至少证明了一件事:将机器人控制划分为大脑与小脑,并用扩散模型来桥接它们,这条路是走得通的。未来的机器人或许不再需要挨个学习技能,而是像我们读一本书、听一首歌那样,自然地获得新能力。

2026年6月11日

想象一下,一个智能体需要从视频中学习物理规律和动作后果——比如扔球会飞、杯子掉地上会碎。传统自回归视频生成模型(即所谓的“世界动作模型”)在训练时,每次只预测下一个视频片段,却对更远的未来缺乏感知。这种“短视”导致训练收敛缓慢,尤其在高速帧率(如50帧/秒)下,精度也大打折扣。更糟的是,推理时还需反复迭代去噪,耗时巨大。

研究人员从大语言模型的多token预测中得到启发,提出了一个名为Next Forcing的新框架。其核心是一套“多块预测”(MCP)训练目标:为主体模型添加一组轻量级辅助模块,让它们同时预测未来多个时间步的视频块(下一个、下两个、下三个)。这些MCP模块之间形成因果链,前一个预测的结果能被传递给后续模块,从而使得近未来的信息帮助预测更遥远的未来。同时,主体模型的中间特征被融合到这些模块中,产生密集的多尺度时间监督信号,反向增强主体模型的学习。

效果立竿见影。在50帧/秒的机器人操作数据集上,仅训练5000步,Next Forcing就比现有方法LingBot-VA相对提升93.1%,并实现2.3倍的训练加速。在RoboTwin基准测试的Clean和Random设置下,它分别达到94.1%和93.5%的准确率,创下新纪录。推理时,MCP模块可以保留,与当前块并行预测下一个块,从而将推理速度提升2倍。此外,在检验物理规律的PhyWorld基准上,Next Forcing同样显著优于前人;在通用视频预训练任务上,FVD(视频生成质量指标)降低了超过50%。

这项工作的启示在于:让模型学会“远见”并不需要更深的网络或更大的参数量,只需改变预测目标——从只盯着一小步,到同时望向几步之遥。当模型能预判更长远的因果链条时,不仅学得更快、更准,还能跑得更快。或许,真正接近通用智能的关键,就在于如何巧妙地“逼迫”模型提前思考几步。

2026年6月11日

想象一下,你教会了一个机器人模仿你的动作,但它只能在固定套路中表现完美。一旦遇到新环境,它就手足无措。传统强化学习试图通过不断试错来改进策略,但这个过程往往需要反向传播梯度、迭代训练,既不稳定又昂贵。然而,最近一篇研究给出了一个优雅的解答:为什么不把最麻烦的训练阶段留在原地,仅仅在实际行动时微调策略呢?

QGF(Q引导流)算法正是这样做的。它首先通过标准的行为克隆预训练一个参考流策略——就像一个掌握了基本动作的学生,同时训练一个价值函数批评家来评估每个动作的好坏。到了测试阶段,算法不再额外学习新的策略参数,而是利用价值函数的梯度来引导参考策略生成更优的动作。这相当于在考试现场凭借经验快速调整答题思路,而不是重新学习整个知识体系。

在实验中,QGF表现出色。在单任务和目标条件离线强化学习基准上——这些任务拥有高维动作空间,比如机械臂的精细操作——它超越了所有先前的测试时强化学习方法,而且与最先进的训练时算法(如那些需要反向传播扩散模型的复杂方法)相比,性能不相上下,但计算成本却低得多。更重要的是,随着模型规模扩大,QGF避免了演员-评论家训练中常见的稳定性问题,展现出良好的扩展性。

这项研究带给我们的启示是:有时候,绕过复杂训练流程的灵感比死磕技术难题更有效。它让强化学习从“苦修派”转向了“实用派”——在模仿学习的基石上,用一点巧思就能撬动智能提升的杠杆。也许未来的机器人,不再需要漫长的重新学习,只要在关键时刻明智地偏转一丝角度。

2026年6月11日

在人工智能处理小时级视频时,常会面临超长上下文的算力瓶颈和信息冗余问题。快手团队近日开源了Keye-VL-2.0-30B-A3B模型,这是一款基于混合专家架构的多模态基础模型,首次将DeepSeek稀疏注意力机制适配到分组查询注意力多模态架构中,实现了256K无损上下文处理,能够精准捕捉关键帧和长期时序依赖。该模型通过跨模态多教师监督蒸馏策略,在强化学习框架下从策略采样中提炼密集的token级教师反馈,回传至仅激活30亿参数的混合专家骨干网络,避免了多任务对齐中的灾难性遗忘问题。凭借优化的训练推理基础设施——包括可扩展视频输入输出、异构视觉Transformer与语言模型并行计算以及定制稀疏注意力内核——Keye-VL-2.0在TimeLens细粒度时间定位、Video-MME-v2和LongVideoBench长视频理解等基准上均取得同规模最先进性能,尤其擅长代码、工具和搜索场景下的多模态自我纠错协作。这一开源成果不仅加速了社区对可扩展多模态智能代理的探索,更印证了精巧架构远比盲目堆叠算力更有价值——在仅激活3B参数的条件下,依然能挑战甚至超越更大规模模型的表现。

2026年6月11日

稀疏自编码器(SAE)一直是理解语言模型内部表示的标准工具,但它需要为每一层训练、存储和评估庞大的过完备词典,这成了快速探索的瓶颈。一个直觉问题浮现出来:在训练任何神经词典之前,激活值的几何结构中究竟已经隐藏了多少可解释的结构?

研究者的直觉很简单:许多可解释的方向对特定token有选择性,这些方向应该比随机方向更不像高斯分布。于是,他们重新拾起了独立成分分析(ICA)——这个寻找非高斯方向的经典方法,作为语言模型可解释性的精简透镜。

过去,ICA在大语言模型可解释性中被低估,部分原因在于现成的ICA实现在LLM激活上表现脆弱,也缺乏系统工具来检查和评估提取出的方向。为了弥补这些空白,研究人员推出了ICALens——首个面向LLM表示进行稳定、高效、可审计ICA分析的实用工作流。它结合了优化的GPU并行FastICA流水线、针对LLM的稳定性配方以及更好的拟合诊断工具,实现了高效可靠的逐层分析。

在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base三个模型上,ICALens无需基于梯度的逐层词典训练,就能高效恢复紧凑、人类可解释的方向。在SAEBench基准测试中,ICA在稀疏探测任务上与公开的SAE不相上下,并且在中小预算下,在目标探测扰动方面超越了SAE。

这些结果表明,ICA不应被视为一个弱基线,而应作为一个高效且互补的第一透镜,用于探索语言模型的表示。也许,那些我们以为需要复杂神经网络才能解开的结构,早在简单的几何假设中就已经露出了端倪。

2026年6月11日

大型语言模型的后训练中,在线策略蒸馏(OPD)已成为核心工具,它利用学生自身生成轨迹上的稠密逐token教师监督来提升性能。然而,研究发现OPD存在一个系统性结构缺陷——前缀失败。当学生生成的前缀偏离正确路径时,密集的逐token监督会引发双峰教师混合现象:教师同时提供正确和错误的信号,导致梯度碎片化。传统的token级损失截断或重加权方法对此束手无策,因为它们仅调整已有错误token的权重,却无法修复产生错误的根源。

这一发现推动研究者跳出token级损失干预的框架,转向轨迹级的输出修正。他们提出了轨迹精炼蒸馏(TRD),一种在在线策略支持范围内,利用教师指导修正学生轨迹的方法。TRD的核心逻辑简单而直接:在蒸馏前识别并修正学生rollout中导致问题的前缀,从源头上消除前缀失败。不仅如此,即使学生原有的轨迹是正确的,TRD也能在教师引导下探索有效的分支路径,从而拓展推理覆盖范围,提升探索效率。有趣的是,TRD同样适用于在线自蒸馏(OPSD),一种参数共享变体——学生模型本身在特权信息条件下充当教师,TRD仍能发挥作用。

实验在多种规模和基准模型上进行,TRD在单次尝试准确率和推理广度上均显著超越现有基线。例如,在数学推理、代码生成等复杂任务中,TRD不仅减少了错误回溯,还增加了学生模型自主发现新解题路径的概率。研究者已将代码开源。

这项工作的启示在于:当局部优化遇见结构性问题时,需要从整体的角度重新审视训练范式。标记级的修补往往止步于表象,而轨迹级的修正才能触及失败的本质。在大模型训练的征途中,每一次精进的突破,都可能源于对失败路径的勇敢重写——而不是对已有错误的无尽加权。

2026年6月11日

在人工智能领域,基于大语言模型的代理正越来越多地应用于复杂任务,但它们的表现不仅取决于模型本身,还依赖于一个被称为“操作框架”的中介系统——它负责协调代理与环境的交互。传统上,这个框架由人类专家为特定模型手工设计,但随着大语言模型种类日益繁多、迭代迅速,这种模式显得越来越低效。

现在,一项名为Self-Harness的新研究提出了一种颠覆性的范式:让代理自己改善自己的操作框架,无需人类工程师或更强的外部模型介入。Self-Harness被设计为一个迭代循环,包含三个关键阶段:首先是“弱点挖掘”,从执行日志中识别出模型特有的失败模式;接着是“框架提案”,针对这些失败生成多样但最小化的框架修改方案;最后是“提案验证”,只有通过回归测试的候选修改才被接受。

研究团队在Terminal-Bench-2.0基准上测试了该方法,初始框架极其精简,选用了三个不同系列的基座模型:MiniMax M2.5、Qwen3.5-35B-A3B和GLM-5。结果令人瞩目:所有三个模型的留出集通过率均有显著提升——分别从40.5%跃升至61.9%、从23.8%上升至38.1%、从42.9%提升至57.1%。定性分析进一步揭示,Self-Harness并非简单地添加通用指令,而是将模型特有的弱点转化为具体、可执行的框架调整。

这项工作暗示了一条新路径:大语言模型代理不只是被动地被框架塑造,它们也能主动参与重塑自身运行环境。当代理学会调试自己的工具,或许我们就离真正的自主智能又近了一步。

2026年6月11日

大语言模型在长文本推理时,必须将完整的键值缓存(KV Cache)加载到GPU内存中,这成为超长上下文服务的瓶颈。传统做法是让模型被动地记住所有历史信息,就像一台不断录制的摄像机,无论后来是否需要,都占用着巨大的存储空间。然而,一项名为“前瞻稀疏注意力”(LSA)的新范式改变了这一逻辑。

在全新DeepSeek-V4架构中,研究者引入了一个“神经记忆索引器”。这个索引器像一个聪明的预判员,在模型生成下一个词前,主动预测未来上下文的需求,只把那些对当前查询至关重要的KV块保留在GPU内存中。更关键的是,该索引器采用“无骨干解耦训练”策略——它被塑造成标准的双编码器架构,完全独立于大规模主干模型进行训练,训练时甚至不需要将庞大的主干模型加载到GPU内存中。

这种“少即是多”的策略在多个长上下文评测基准上展现了惊人效果。在LongBench-v2、LongMemEval和RULER等测试中,采用该方法的模型(FlashMemory-DS-V4)将平均物理KV缓存占用压缩至完整上下文基线的仅13.5%,同时下游准确率平均提升0.6个百分点。在极端500K规模下,FlashMemory更将物理KV缓存开销削减超过90%,且完全不影响主干模型的核心推理能力。

研究团队指出,这种机制不仅极大提升了服务效率,还充当了有效的“注意力降噪器”——在依赖长期全局记忆的任务中,它自动过滤掉无关的历史信息,让模型聚焦于真正关键的上下文。或许,未来的大模型不再需要用蛮力记住一切,而是学会像人类一样,有选择地遗忘和记住,这可能是通向真正高效推理的钥匙。

2026年6月11日

视频世界模型过去依赖RGB空间中的显式点云记忆,这不仅计算昂贵——需要反复渲染和VAE编码——而且信息天然有损,因为往返像素空间会丢弃学习到的潜在表征中的丰富特征。现在,研究者提出了一种名为Mirage的潜在空间空间记忆框架,它直接在扩散模型的潜在空间中构建持久3D缓存,彻底避开了像素空间的重建。Mirage的核心做法是:通过深度引导的反投影将潜在标记提升到3D空间构建记忆,再通过直接潜在空间翘曲合成新视角来查询记忆。这一统一方案同时消除了像素空间重建的信息损失,以及重复编码和渲染的计算负担。实验数据令人瞩目:相比显式3D基线,潜在空间记忆实现了高达10.57倍的端到端视频生成加速,内存占用降低了55倍。更关键的是,Mirage借助扩散模型的几何先验,在WorldScore上达到了最先进的性能,并在RealEstate10K数据集上展现了强大的重建质量。这意味着,未来视频世界模型或许不再需要笨重的像素级操作,而是能在更轻巧、更丰富的潜在空间里直接理解并生成连贯的3D世界。当计算效率与信息保真度不再矛盾,我们或许正在见证一个更智能视频理解时代的开端。

2026年6月11日

阿根廷总统米莱提交了一项开创性立法,提议创建“非人类公司”这一全新法律实体——即由人工智能自主拥有并运营的企业。米莱亲自撰文,将阿根廷定位为全球去监管化的AI乐园。这项法案旨在让阿根廷成为世界上最容易开公司的地方,与米莱执政以来一贯的去监管化政策一脉相承。“非人类公司”的核心是,由AI系统运营的企业仍能享受有限责任保护、优惠的公司税率和治理便利。然而,历史学家尤瓦尔·赫拉利随即发文反驳,警告赋予AI法人资格可能导致出现无法监管的“AI国家”。这一大胆提案虽然抢占了技术发展的先机,但留下了一个根本性疑问:当AI公司出错且没有人类直接负责时,谁来承担责任,又该如何追责?在不久的将来,AI独立经营公司不再是科幻,但米莱的立法更像一场豪赌——它让阿根廷成为实验田,却把监管的难题抛给了整个世界。毕竟,当法律赋予非人类实体以人格,人类要么迎来前所未有的繁荣,要么亲手创造出一个自己无法控制的新物种。

2026年6月11日

当AI竞赛进入加速期,OpenAI的两位核心人物——CEO萨姆·奥尔特曼和首席科学家雅各布·帕乔茨基,在一篇题为《为了造福每个人》的博客中,首次详细拆解了公司的最新蓝图。他们宣告,AI的发展正迈入“第三阶段”——一个不再是纯粹研究、也不是疯狂发布产品的阶段,而是一个经济结构开始围绕AI重塑的阶段。

这篇博客勾勒出三个核心目标:第一,构建能自动化整个研究过程的AI系统,让机器像科学家一样思考、实验和发现;第二,用AI加速经济增长,提升全社会的生产力;第三,为每个人提供“个人版AGI”(通用人工智能)——一个随时可用的、能理解个人需求的智能助手。但文章特别强调,完全自动化一切并非他们想要的未来,“AI应该帮助人们追求自己的目标,而不是让人脱离目标本身。”

回顾OpenAI的历程:最初是埋头做基础研究,随后转向交付ChatGPT这样的产品,而现在,他们说经济系统本身正在被AI重新塑形。博客还抛出一个深思熟虑的建议——建立一个全球协调机构,有能力在必要时限制或暂停前沿AI的研发。这恰好与上周Anthropic(另一家顶级AI实验室)提出的类似设想形成呼应。

这两个全球顶尖AI实验室不约而同地讨论“暂停”情景,并非巧合。它暗示着,无论技术竞赛多么激烈,这些创造者都意识到,跑在最前面的人也是最需要停下来看清道路的人。即将到来的新模型——无论是传闻中的Mythos还是GPT 5.6——都将不只是技术的飞跃,更是一场对人类治理智慧的考验。当两座山峰同时升起警示牌,山下的人应该读懂其中的信号。

2026年6月11日

苹果在2026年WWDC大会上终于揭开了其备受期待的人工智能升级第二部分的面纱,将Siri正式更名为Siri AI,并带来全新集成功能。两年前首次推出的Apple Intelligence曾因过度承诺而未能兑现,如今苹果试图弥补。

全新的Siri AI由苹果自研模型驱动,并与谷歌的Gemini模型深度合作,但并非谷歌提供给用户的同款模型。这套AI能够理解用户屏幕上的内容,从照片、信息等应用中获取上下文,还能跨系统执行应用操作,实现更流畅的工作流程。苹果专门设计了一款Siri AI应用,充当聊天机器人的交互界面,同时集中管理用户的历史对话,并在不同设备间私密同步。

隐私保护贯穿整个发布:所有Siri AI请求都在设备本地或通过私有云计算处理,不会存储任何用户数据。今年秋天,iPhone 15 Pro及以上机型将免费获得这一更新,下个月开启公测,但初期不面向欧盟和中国大陆开放。

对于从未接触过AI的iPhone用户来说,这或许是一次巨大飞跃。然而,任何体验过前沿大语言模型的人都会感觉,苹果的演示仿佛还停留在2024年的AI水平。Siri确实有所改进,但与我们在AI世界其他角落所见相比,这次发布显得格外平淡。

苹果在人工智能赛道上依然坚持自己的节奏:以隐私为盾牌,以生态为武器。但在这个日新月异的领域,谨慎有时意味着落后。当竞争对手已经奔跑,苹果才刚刚迈开稳健的步伐,这份保守能否赢得未来,或许只有时间能给出答案。

2026年6月11日

在日本北海道的广袤田野上,一位名叫冨安宏纪的自学成才的农民,正在用AI重新定义农业的未来。他管理着约100公顷的土地,种植大豆、大葱、南瓜和西兰花——这些作物并非祖传,而是他边干边学摸索出来的。但真正让他的农场与众不同的,是他用ChatGPT和Codex打造的一套数字系统。

冨安没有编程背景,却借助AI建起了卫星图像分析系统,实时监控田间的作物长势。他让AI识别植物病害,并将所有记录、农药使用日志整合到Airtable中,形成一个中央数据枢纽。更酷的是,他用Codex编写程序,实现了温室自动控制——只需发一条短信就能调节通风口。他还为农场的群聊创建了一个机器人,用来统筹日常运营。

冨安把AI比作“随时待命的工程师”。他强调,通过AI,哪怕没有大型技术团队,普通农场经营者也能跨越自动化的门槛,以每月订阅ChatGPT的费用撬动过去只有大企业才能负担的技术力量。

这个故事之所以重要,是因为它把“你可以自己动手造东西”这句话推向了极致。一个没有技术背景的农民,凭借AI就活像拥有了一个工程部门。这正体现了“自件时代”的精髓:不再等着农业科技公司来解决问题,而是自己用AI迅速制造出需要的工具。

当技术变得如此民主,一个人、一个农场、一群聊天机器人,或许就是未来的农业革命起点。真正改变世界的,不一定是硅谷的精英,而是那些在田野里敢于尝试的普通人。

2026年6月11日

Perplexity与哈佛商学院联合开展了一项有趣的研究,试图揭开AI智能体如何改变知识工作的面纱。他们拿自家平台的Computer智能体与传统的Search搜索做对比,向两个产品发送了1万条相同的用户请求,然后仔细观察每个路径的时间消耗和任务复杂度。

结果令人意外:Search平均只需33秒就给出答案,而Computer却要花上整整26分钟——看起来搜索更快。但事情没那么简单。研究人员估算,如果用户靠Search完成同样的完整工作流,实际需要269分钟;而Computer只需36分钟。因为Search只是“找到信息”,把后续的整理、分析、创作全丢给用户自己动手。AI智能体则直接包揽了从收集到产出的全过程。

更有意思的是用户的行为变化。通过Computer,有一半的请求是让智能体创造新事物——写文档、编代码、做图表——这个比例是Search的两倍。用户也更愿意涉足自己不熟悉的领域,跨领域工作的比例从50%跳升到59%。这些数据揭示了一个微妙真相:当工具从“信息检索”升级为“智能助手”时,人们不再满足于简单的查找答案,而是敢于提出更复杂、更具创造性的需求,把视野拓展到多个领域。

这项研究的意义超越了单纯的时间节约数据。AI智能体的最大价值或许不在于让你做事更快,而是让你的雄心更大。它降低了跨领域尝试的门槛,让用户敢于构思自己原本不敢碰的任务。效率只是表象,更深层的变革是工作方式的重新定义——当技术不再仅仅是一个搜索引擎,而是一个能够理解、规划并执行的伙伴,人类的想象力才真正被释放。

2026年6月11日

去年四月,当Anthropic首次推出其顶尖模型Mythos预览版时,它只对150多家经过严格筛选的合作伙伴开放,通过名为Project Glasswing的秘密项目进行测试。测试结果令人震惊:该模型在主流操作系统和浏览器上暴露出严重漏洞。如今,这家AI实验室决定做一件前所未有的事——将它的顶配能力首次向公众敞开,只不过这次,他们给它穿上了一件"紧身衣"。

这个名为Claude Fable 5的新模型,实际上是Mythos的"受限版"。它保留了Mythos的核心实力,但在安全边界上设置了新的护栏。如果用户问及网络安全、生物学或化学等敏感领域的问题,系统会自动将这些查询转给上一代模型Opus 4.8来处理——就像把危险品交给专职搬运工,而不是让珍宝亲自上阵。

表现如何?Fable在几乎所有主流AI基准测试中刷新了记录。与Opus 4.8和GPT 5.5相比,它在编程、推理、知识工作等领域的提升堪称巨大。业界有个有趣的现象:每个实验室都声称自己的最新模型是"世界最强",但这次,其他AI实验室似乎难得地达成了共识。

不过,Fable的开放是有时限的。到6月22日之前,所有Claude订阅用户都可以体验它;之后,它将转为按使用量计费:每百万输入token收费10美元,每百万输出token收费50美元。与此同时,Mythos 5也正式向Project Glasswing合作伙伴发布,它在网络安全领域的使用限制更少,成本也比预览版更低。

这也许是AI竞赛中最罕见的一幕:当技术突破真正发生,兴奋与忧虑如此鲜明地并存。6月22日的倒计时已经开始,而真正的问题在于:当一个近乎完美的AI触手可及时,它的边界在哪里,又应该在哪里?

2026年6月11日

华盛顿的国防部大楼里,一份名单的重量正在改变全球科技版图的温度。不久前,五角大楼悄然更新了其"中国军事公司"的标签,将阿里巴巴、百度和比亚迪三个中国老百姓最熟悉的消费品牌,拖进了美中安全对峙的漩涡中心。

这份不断膨胀的名单如今已囊括近200家中国企业,从人工智能巨头阿里巴巴、百度、腾讯,到电动车领军者比亚迪,无一幸免。虽然这个标签目前尚未直接触发制裁,但它像一扇无形的门——关闭了这些公司参与美国国防合同和研究资金的大门。更有意思的是,名单上还重拾了一些曾在二月草案中闪现又消失的名字,比如存储芯片制造商长江存储和长鑫存储。

北京方面立即发出抗议,指责这是歧视性做法。这些公司也纷纷否认任何军方角色。就连美国国内的批评者也忧心忡忡,认为这种"标签化"运动实际上把几乎所有中国大型科技企业都当成了潜在威胁。

这不仅仅是一次简单的分类调整。五角大楼的行动将这些中国最大的消费科技品牌,从舒适的商业领域直接推到了地缘政治对抗的前线。供应链、投资计划、增长蓝图,都因此蒙上更深的阴影。更值得警惕的是,当"军事‑民用融合"的定义被如此宽泛地解释,任何一家中国科技公司都可能被默认为事实上的国防企业。安全与商业的界限正在模糊,而全球市场对这种模糊的反应,才刚刚开始。

2026年6月11日

Instagram终于让用户完全掌控个人主页的网格布局。过去,发布动态只能按时间顺序排列,如今,你只需长按任意旧帖子,点击“重新排列网格”,即可像拼图一样将它们拖放到理想位置,无论它们发布于何时。这个功能目前仅限iOS和Android应用操作,固定帖子会保持置顶,并在重排界面中显示为灰色。Instagram负责人亚当·莫塞里去年曾预告这一改变,当时正值平台因将方形缩略图替换为更高裁剪而遭遇用户不满,这波调整也被视为平息争议的举措。早在2022年,逆向工程师亚历山德罗·帕卢奇就发现了“编辑网格”的代码,但Instagram将其搁置,直到2025年初才重新推进。

这一功能意义深远:对Instagram超过20亿用户而言,重排网格将个人主页从随机的日记本,变成了精心策划的橱窗。创作者和品牌可以决定访客最先看到什么,从而掌控第一印象。它鼓励用户从记录生活转向塑造形象,而布局优化也成了新的竞争战场。说到底,每一次拖拽,都是在回答一个老问题:在社交媒体上,我们究竟是在展示真实的自己,还是精心设计的人设?

2026年6月11日

OpenAI刚刚秘密向美国证券交易委员会提交了S-1文件,分析师预期这可能成为十年来规模最大的首次公开募股之一。同一时刻,其首席执行官山姆·奥特曼押注的另一家公司——虹膜扫描初创公司Tools for Humanity——却因营收困境和监管反弹而裁员,形成了鲜明对比。

Tools for Humanity正是Worldcoin眼球扫描设备“球体”的幕后运营方。这家公司向用户支付约50美元加密货币,以换取他们的生物识别数据,但这一商业模式始终难以转化为实际收入。据报道,尽管公司估值高达25亿美元,背靠知名风投a16z、贝恩资本和科斯拉创投,仍然被迫缩减团队。具体裁员规模尚未公开,但商业内幕报道称,公司在未能将生物识别推销转化为真正营收后开始减员。

Worldcoin的扩张之路充满波折。其用加密货币交换虹膜扫描数据的方式已在韩国等国引发禁令、罚款和隐私调查。监管机构质疑这种通过生物数据换取数字代币的做法是否合规,以及用户隐私能否得到充分保障。Tools for Humanity试图用“验证人类身份”的叙事吸引投资,却在现实世界遭遇了比人工智能更强烈的抵触。

奥特曼的赌局出现了两种截然不同的走向:一边是人工智能领域的OpenAI势如破竹,即将借IPO登上资本舞台;另一边是生物识别加密项目举步维艰,即便高估值也难掩商业模式和监管的双重压力。当创新需要人们交出生物特征来换取代币时,再耀眼的估值也经不起现实的审视。

2026年6月11日

苹果在WWDC主题演讲上,出人意料地将iOS 27定位为一次追求速度和清理包袱的更新。最大胆的举动是,它把系统支持范围直接拉回到iPhone 11和iPhone SE第二代,延续了苹果一贯超长的软件支持周期。同时,面对去年铺天盖地的批评,苹果罕见地收回了极具争议的Liquid Glass外观——而不是固执地坚持自己的设计。

性能上的数字令人瞩目:应用启动速度最高提升30%,照片拍摄后加载速度最高提升70%,而AirDrop传输速度则狂飙80%。为了平息用户对Liquid Glass的不满,苹果加入了一个全新的透明度滑块,用户终于可以自己调节这个玻璃质感的深浅。此外,图标变得更锐利、更有层次感,iCloud共享相簿首次向安卓和Windows用户开放,AirPods也新增了自定义均衡器,地图的Flyover更丰富,健康应用则增加了围绝经期追踪功能。

将iOS 27的支持范围延伸到iPhone 11,意味着大量老款手机用户依然能享受最新系统。这对安全性和开发者来说都是好消息,但从商业角度看,苹果可能无意中削弱了用户因系统过时而去换新机的动力。更值得玩味的是Liquid Glass的让步方向。苹果向来以设计自信著称,公开承认一个设计失误并迅速调整,这在历史上并不常见。这背后或许是一种策略:用极致的性能诚意笼络老用户,同时对那些挑剔的设计控也给予足够的尊重。当一款系统不再是你必须升级硬件的理由,真正的赢家是那些靠软件和服务绑定用户的生态。这场科技盛宴的核心,也许不是那些绚丽的智能功能,而是苹果正在学习如何在速度、支持和审美之间找到更精准的平衡点。

2026年6月6日

在同策略蒸馏(OPD)的日常里,学生模型只能模仿老师输出的概率分布——每一次从几十万词表中采样,都不可避免带着噪声,而且老师中间层层叠叠的隐藏状态,像是被锁在黑箱里,始终无法被学生窥见。这种“输出至上”的局限,让蒸馏效率卡在了瓶颈上。

于是,研究人员提出了同策略表征蒸馏(OPRD)。核心思路很简单:在学生与老师相同的推理过程中,不再只盯着最后的概率,而是直接对齐两者在特定层之间的隐藏状态表示。这样一来,绕过了庞大的语言模型头(LM head),也彻底避开了大词表采样带来的方差。理论上,OPRD不仅消除了采样不确定性,还让每一层的结构信息都能传递给学生。

实验的成果很直观:在AIME 2024、AIME 2025和AIMO这类高难度推理任务上,基于输出空间的OPD基线始终无法超越老师,而OPRD却显著缩小了师生差距。更令人意外的是效率——OPRD的训练速度是传统top-k OPD的1.44倍,内存占用却少了54%。

知识迁移的边界,或许从来就不在输出层。当隐藏状态被允许直接对话,学生看见的就不只是答案,还有老师思考的轨迹。

2026年6月6日

计算能力的增长速度远超高质量文本的供应,多轮训练正在成为常态。然而,仅仅对单个模型进行反复训练,往往在几轮之后就陷入性能饱和,远未能充分利用预算中的计算资源。研究人员提出,这需要一次概念性的转变:从训练单一模型,转向探索一群模型并聚合它们的预测结果。

为此,一种名为超轮次预训练的新方法被引入。它将多轮训练预算转化为一群多样化的模型,这些模型的联合预测能够达到比任何单一精炼模型更低的验证损失。该方法的核心由三个基本模块组成:一个采用反相关学习率和权重衰减的循环调度,能够从少量并行轨迹中收集多样化的模型;链式蒸馏让每个模型向其前身学习,使得模型质量在群体中持续累积;一个在预留数据集上拟合的学习先验,负责为任意的推理预算选择和加权成员。

在1.8B参数模型和100M个FineWeb令牌的训练实验中,该方法仅用了约56轮次就达到了一个强大的256轮次集成基线——效率提升了约4.6倍。如果与基线集成规模匹配,则只需约67轮次,相当于约3.8倍的效率提升,并且在这个基础上还能继续改进。在慢跑设定下,这些增益累积实现了约12.9倍的数据效率,并且成功迁移到了下游基准测试中。

关键的是,最优分配会随着预算发生变化。因此,该研究给出了具体的操作指南,指导如何针对给定的轮次预算来最大化泛化能力,无论是单轮训练还是最大预算都能找到对应的策略。

当数据的增长跟不上计算的步伐,我们或许不该再固守于打磨一块完美的石头,而是学会欣赏并利用整个群星的光芒。效率的提升,往往就藏在思维转变的瞬间。

2026年6月6日

想象一下,一个机器人不仅要听懂你“把桌上的苹果拿给我”这样的指令,还要能预判拿起苹果时周围环境会发生什么变化,并据此调整自己的动作。传统的机器人学习模型往往有所偏废:有的擅长从海量视频中理解物理世界的动态(世界-动作模型WAM),却难以处理需要多步推理的长任务;有的能借助大语言模型进行逻辑规划(视觉-语言-动作模型VLA),却缺乏对底层物理规律的真实感知。现在,研究者提出了世界-语言-动作(WLA)模型,试图将两者优势融为一体。

WLA模型的输入包括文本指令、图像和机器人自身的状态信息,而输出则是一个“三重预测”:下一阶段的子任务描述(语义级)、完成子任务所需的目标图像(世界模型级)、以及具体的机器人动作(动作级)。这意味着它不只是按部就班执行指令,而是在执行前先“想象”世界会变成什么样。为了实现这种能力,WLA的核心采用了自回归Transformer架构,而非WAM中常用的双向扩散Transformer。它会逐个预测“下一状态”——这个状态既包含“我要去拿杯子”这样的语义意图,也包含杯子被拿起后位置、角度等精细的物理变化。

物理动态部分的预测由专门的“世界专家”(World Expert)负责监督训练,这些动态信息又被用来帮助“动作专家”(Action Expert)更精准地建立状态与动作的关联,从而简化动作生成难度。有意思的是,WLA通过元查询(meta-queries)机制,让世界预测可以隐式地影响动作生成,而在实际推理时完全可以将世界预测模块关闭以节省计算资源——只有在需要提升控制精度时,才激活世界预测,在测试时通过“缩放”计算量来优化决策。这种灵活的设计使得模型在效率和性能之间取得了平衡。

WLA的第一个原型模型WLA-0,拥有20亿活跃参数。在NVIDIA RTX 5090上,单次推理仅需40毫秒,足以满足实时控制需求。在模拟和真实环境的评测中,WLA-0展现了强大的多任务和长程任务学习能力:在RoboTwin2.0 Clean基准上,任务成功率高达92.94%;在更具挑战的RMBench上,也达到了56.5%的成功率。更令人兴奋的是,WLA-0还展示了从“跨形态机器人视频”中直接学习新任务的能力——即使这些视频没有标注任何动作,它依然能通过观察不同机器人如何与世界互动,学会新的操作技能。

这一结果意味着,未来的机器人或许不再需要依赖昂贵且繁琐的人工动作标注,仅凭观看大量机器人的行为视频就能不断拓展能力边界。当机器人的“语言”和“感知”真正融入了对世界的“想象”,它们离我们想象中的通用智能体又近了一步。

2026年6月6日

传统机器人动作生成需要数十步迭代扩散,如同慢速放映,无法满足实时操控需求。步进蒸馏本是提速良方,却在视频与动作联合建模时失灵——视频流和动作流使用了截然不同的噪声调度,就像两个时钟走速不一,到达训练环节时噪声分布已天差地别,单一蒸馏方法根本无法兼顾这种不对称性。Flash-WAM的解决方案是,为每个模态量身定制一致性函数:对动作流采用线性梯度缩放参数化,匹配其低噪声环境;对视频流采用方差保持参数化,应对高噪声环境。这一设计源于对一致性函数家族的深入分析,揭示了在一致性边界条件下可实现的不同梯度缩放特性。实验在LingBot-VA上实现单步推理,在RoboTwin 2.0上将每段延迟从8.1秒锐减至348毫秒,23倍加速让实时闭环控制成为可能。模拟测试中,Flash-WAM维持了85.5%和95.7%的成功率;真实世界中,Unitree G1人形机器人平均表现恢复至60%,而朴素一致性蒸馏在同一计算预算下仅剩24%。当视频与动作不再被当作同一种信号处理,机器人才能真正跟上世界的节奏。

2026年6月6日

视频事件预测,就像从一段不完整的影片中,猜出下一秒会发生什么。这听起来像是科幻,但真实世界里的智能模型正在为此努力。然而,传统做法有个致命缺陷:它们总喜欢把画面里的动作、形状、互动关系,一股脑翻译成文字,再在文字里推理未来。一旦画面变成文字,那些细腻的几何扭曲、微妙的运动轨迹、物体间的时空关联,就像水珠从指缝漏掉,成了似是而非的“幻觉”。

一项名为Future-L1的新研究,打破了这个僵局。它让模型在推理时,既说人话,也“看”画面——在生成文字token的同时,交替插入连续的潜在视觉片段。这些视觉片段不是文字所能描述的,它们是高维空间里的视觉语义,保留了运动、形状和交互的原汁原味。为此,研究者从现有视频数据中精选了5万条样本,构建了Future-L1-50K数据集,专门挑选那些“看一眼未来画面就能猜对答案”的例子,并让模型把它的潜在状态对齐到未来的真实帧嵌入上。训练时,他们还用了一种叫LA-DAPO的强化学习算法,给不同的潜在推理轨迹打分,奖励那些与最终结果更一致、同时保持时间多样性的路径。

结果令人震惊。在FutureBench上,原本只有61.0分的Qwen3-VL-8B模型,采用Future-L1后飙升至85.4分,一举超过此前最强模型Video-CoE整整10.4分。在更复杂的TwiFF-Bench上,平均分也从2.44提升到3.04。这些数字背后藏着一个朴素的真理:当模型在潜空间里保留视觉语义,而不是把所有推理步骤都翻译成文字时,它对未来的预测会变得更加扎实而准确。

人类看视频时,从来不会把每一帧的画面都转化为语言再思考。我们在脑海中保留的是动态的、模糊的、连续的视觉印象。Future-L1所做的,不过是教会机器用同样的方式思考——不是放弃语言,而是让视觉在推理中保持它的原貌。这或许暗示着一条更根本的道路:未来的智能,不是在文字和图像之间二选一,而是学会在两者之间自由切换,就像我们的双眼和大脑,从不必翻译就能明白下一刻会发生什么。

2026年6月6日

想象一个场景:一位数学天才可以轻松口述复杂证明,但一旦要求用严谨的符号语言写出每一步逻辑,就变得磕磕绊绊。这正是大型语言模型(LLM)的困境——它们擅长非正式的数学推理,却在生成像Lean这类形式语言的可验证证明时屡屡受挫。然而,一个名为LEAP的智能体框架彻底改变了这一局面,让通用基础模型在自动形式定理证明领域达到了顶尖水平。

LEAP的核心智慧在于“化整为零”。它利用基础模型的内置能力——非正式推理、指令遵循和迭代自我完善——将复杂的数学难题拆解成一个个更小的单元。通过与Lean编译器的持续交互,这个系统在形式证明构建与非正式蓝图之间架起了一座桥梁。想象一位经验丰富的程序员一边编写代码,一边即时运行测试并修正错误;LEAP正是以类似的方式,一边推理数学逻辑,一边与编译环境对话,直到所有步骤都通过机械验证。

为了严格评估这类系统的性能,研究者引入了Lean-IMO-Bench——一个以IMO风格问题为蓝本的基准测试。这些问题的陈述虽短,但证明路径高度非惯例且多步骤,难度跨度极大,避免了现有基准被刷新的“饱和”现象。实验数据令人震撼:在2025年北美大学生数学竞赛Putnam比赛的全部12道题中,LEAP解决了所有题目,追平了此前由顶尖形式数学模型实现的突破。而在Lean-IMO-Bench上,通用LLM单次尝试的形式化求解率从不足10%直接跃升至70%,甚至超过了由金牌级别的IMO专用系统创下的48%基准——这个专用系统可是经过海量专业数据训练的。

更令人惊叹的是LEAP的研究级实用性。它自主地形式化了开放组合数学难题中的复杂证明,包括对Knuth关于偶数阶Cayley图哈密顿分解中一个关键子问题的验证。这意味着,LEAP不仅能解题,还能辅助数学家将非正式的手稿转化为计算机可验证的严谨文档。

从普特南竞赛的满堂彩,到基准测试中碾压式提升,再到研究前沿的实际应用,LEAP证明了一个道理:当大语言模型学会与逻辑编译器共舞,它们就能在形式推理的疆域里跑出加速度。也许有一天,每一个定理的诞生都会伴随着一个无形的“校验官”,而LEAP正是那扇通往信任之门的钥匙。

2026年6月6日

策略梯度方法通常致力于最大化期望回报,但在许多现实场景中,分布的尾部风险、异常值鲁棒性或Best-of-K发现等特性更为关键。OrderGrad应运而生,它是一族针对顺序统计量目标的似然比和重参数化梯度估计器。

想象一个场景:一家自动驾驶公司希望训练一个决策模型,不仅要平均表现好,更要避免那些可能导致事故的极端情况。传统策略梯度只关注均值,可能对高分奖励过度乐观。而OrderGrad允许用户将目标自定义为排序后奖励的加权平均——即有限样本的L统计量。只需改变秩权重,就能表示VaR(风险价值)、CVaR(条件风险价值)、修剪均值、中位数,甚至“Top 10%”和“Best-of-K”等常见目标。对于任何固定的样本大小和权重向量,OrderGrad都能提供无偏的梯度估计。

实现上,OrderGrad仅仅是对原始奖励进行一次简单的排序和加权变换,然后就可以直接插入到标准的策略梯度或重参数化更新中,堪称即插即用。研究者还分析了该估计器的方差行为,并在多个任务上进行验证,包括大型语言模型(LLM)的数学后训练。结果显示,当均值优化与实际部署目标不匹配时——例如需要LLM在多次尝试中选出最佳答案(Best-of-K),或要求稳健性以避免低质量输出——OrderGrad都能显著提升性能。

这一方法为解决风险规避、鲁棒性和探索性学习提供了一个统一的工具箱。当任务目标不再是简单求平均,而是关注分布中的特定部分时,也许我们应该重新审视“最优”的定义——学会在风险的边缘与机遇的顶端之间权衡,才是更贴近真实世界的选择。

2026年6月6日

在人工智能的推理世界里,语言模型正在经历一场静悄悄的革命。一直以来,大语言模型通过生成显式的“思维链”来展示推理过程——每一步推理都必须用文字表述出来,即便这个思维本身尚不确定或只是部分成型。这种离散、串行的文本化方式,虽然直观,却让模型在每一个中间步骤都不得不“说出声”才能继续前进,仿佛一个思考者在嘴里念念有词才能整理思路。

科学家们发现,如果让模型在提交最终答案之前,先用紧凑的连续状态进行潜在推理,就像人类陷入沉思时不一定会自言自语,那么信息传递的带宽可以大大提高。然而,此前尝试的潜在推理方法常常牺牲了思维链真正的优势:从左到右的渐进式生成、概率性的采样方式、与高效KV缓存的兼容性,以及可计算出的似然估计。这使得它们在自回归语言模型中难以完全发挥效力。

现在,一个名为NF-CoT的框架试图打破这一困局。它运用归一化流这种数学工具,将连续思维建模成从显式思维链中蒸馏出的紧凑概率分布,同时保留了上述所有关键特性。想象一下,在同一个因果生成流中,模型头部变出了两个角色:一个“NF头”专门生成潜在思维位置,另一个标准的“语言模型头”则继续生成文本部分。这种设计让模型能够为潜在思维提供精确的似然值,支持使用原始KV缓存进行从左到右的概率解码,甚至在潜在推理空间里直接进行策略梯度优化。

在代码生成的基准测试中,NF-CoT展现出了令人瞩目的成果:它比使用显式思维链和此前潜在推理方法都取得了更高的通过率,同时大幅降低了中间推理的计算成本。这意味着模型不再需要把所有思考过程都写在纸面上,而是在头脑中完成高密度的内省,只在必要时才开口说话。当效率与深度得以兼得,推理的边界或许将从此改写。

2026年6月6日

在强化学习后训练大型语言模型的过程中,研究者常依赖可验证奖励的强化学习来优化推理能力。然而,稀疏的结果奖励如同大海捞针,让模型探索举步维艰。一个弥补方案是直接优化推理时的目标,比如pass@K和max@K这些指标。但问题来了:现有的政策梯度估计器用着不同的信号、基线和归一化手段,彼此之间的关系像一团乱麻,让人看不清头绪。

研究团队决定从根上理顺这团线。他们聚焦于基线设计和优势中心化这个关键环节,从领域内一项领先方法的优势估计器入手,发现它虽然能保证政策梯度无偏,但生成的“优势”却像失衡的天平,并不居中。于是,他们抛出一个巧妙的解决方案:Leave-Two-Out基线。这个新基线不仅保留了政策梯度无偏的特性,还让实际批量计算出的优势变得精准居中——就像把摇摆的指针稳稳固定在零刻度。

基于这个设计,他们构建了名为MaxPO的方法。它的实现效率出众,时间复杂度呈二次方增长,能自然融入当下流行的基于组的强化学习框架,用于LLM的后训练。不仅如此,研究团队还推导出max@K的规范有限批次优势表达式,为现有的各种优势估计器提供了一张统一的蓝图——原来那些看似不同的方法,都在这个新视角下找到了各自的位置。

实验验证了猜测:采用Leave-Two-0ut基线后,梯度方差显著降低,性能超过了那些非中心化的老办法。这种对奖励信号和探索策略的精准调校,或许正是让推理模型从“做对题”迈向“懂解题”的关键一步。当优势变得居中,模型的后训练不再是撞大运,而是一场有章可循的权衡艺术。

2026年6月6日

在人工智能研究的漫长赛道上,大型语言模型智能体正被赋予越来越复杂的长期任务,比如科学发现和机器学习工程。然而,这些高难度的探索常常面临三个致命瓶颈:不同探索路径间的信息隔绝、像金鱼一样七秒记忆的搜索方式、以及缺乏高层指挥的混乱迭代。想象一下,一个科研团队里每个成员都埋头自己的孤岛,从不交流实验结果,也不记得昨天的失败教训,更没有人统筹全局策略——这就是现有MLE智能体的困境。

为了打破僵局,研究人员推出了MLEvolve——一个基于大型语言模型、能自我进化的多智能体框架,专门用于端到端的机器学习算法发现。它的核心突破在于三大创新设计。首先,MLEvolve将传统的树搜索升级为“渐进式多重分支图搜索”,让不同探索分支之间通过图结构的引用边共享信息,就好比让每个实验小组都能随时看到其他小组的最新进展。同时,它引入了一个受熵启发的渐进式调度策略:初期广泛探索不同可能性,后期逐渐收敛到最有潜力的方向,实现从“广撒网”到“深挖井”的平滑过渡。

其次,为了让智能体能在长期迭代中不断成长,MLEvolve设计了“回顾性记忆”机制。这就像一个科学家既有初期积累的领域知识库作为冷启动,又有一份动态更新的全球记忆,专门存储任务相关的成功经验和失败教训。下次遇到类似问题时,智能体能直接调取这些经验,而不是每次从零开始思考。

最后,为了确保长期迭代的稳定性,MLEvolve将战略规划与代码生成解耦,并提供了自适应编码模式。这意味着高层决策者专注于制定下一步探索计划,而底层执行者则根据计划生成并调试代码,两者各司其职,避免了“手忙脚乱”的低效。

在MLE-Bench这一权威基准测试中,MLEvolve展现出卓越性能:在仅12小时预算(标准运行时间的一半)下,它在平均奖牌率和有效提交率等多个维度上均达到领先水平。更令人惊讶的是,在数学算法优化这类特定任务上,它甚至超越了专为此领域设计的AlphaEvolve方法,证明了其强大的跨领域泛化能力。

这项研究的真正启示在于:当智能体学会积累经验、跨分支交流、并分层次协同工作时,它们在长期复杂任务中的进化速度可能远超我们的想象。想象一下,如果每个AI系统都能像MLEvolve一样从昨天的工作中汲取养分,从同伴的探索中获取灵感,那么算法发现或许真的会进入一个自我加速的时代。

2026年6月5日

在大语言模型训练的赛场上,Adam优化器曾长期是默认选手,但一个新锐优化器Muon正以约两倍的训练效率引发关注。然而,Muon究竟为何能跑得更快?其局部几何优势始终像一层迷雾。我们的研究首次从曲率视角揭开Muon相对于Adam的优势之谜。

我们首先对训练损失景观进行二阶泰勒近似,发现两者在达到相同验证损失时,Muon的单步损失下降幅度更大。尽管两者的“一阶收益”(即梯度方向上的即时收益)相差不大,但Muon始终承担更小的“二阶曲率惩罚”——这相当于在同样迈一步时,Muon踩到陡峭曲面上的代价更低。

进一步,我们将曲率惩罚拆解为“更新范数”和“归一化方向锐度”(Normalized Directional Sharpness, NDS)两个成分。有趣的是,Muon和Adam的更新范数大小接近,因此Muon更小的曲率惩罚并非来自更新幅度差异,而是源于更低的NDS——也就是其更新方向在曲率变化的曲面中更“聪明”。

随后,我们探究了训练数据和模型结构如何塑造Muon的NDS优势。通过使用Zipf-概率上下文无关语法(PCFG)数据来控制数据不平衡程度,我们发现,当数据分布越不均衡,Muon相对于Adam的NDS优势就越显著。对模型进行层内/层间曲率分解则显示,在训练的中后期,Muon更低的NDS主要来自更小的层内曲率——这意味着Muon在每一层内部更新时,避免了“扎堆”冲击高曲率区域。

除了实证证据,我们还分析了具有异质曲率(即不同方向曲率差异很大)和梯度偏向高曲率模式的理论二次型问题。严格证明表明:Muon通过将更新能量更均衡地分配到不同曲率组上,获得了比梯度下降(GD)更低的平均NDS;当曲率异质性足够强时,这种优势更会转化为相同步数下更低的局部二次损失。

Muon的高效并非魔法,而是源于其对曲率方向的巧妙规避——当优化器学会避开“陡坡”,每一步都踩得更稳,跑得更快就成了必然。这提醒我们,在模型训练的微观世界里,方向的选择往往比步长的大小更为关键。

2026年6月5日

在稀疏奖励的强化学习迷宫中,研究者们一直在寻找更密集的监督信号。在线自我蒸馏——让语言模型基于自身生成的“特权上下文”来监督自己的输出——成为了一个充满希望的答案。实际上,这种技术可以转化为一个学生到教师的完整词汇反向KL散度损失函数。基于此,一个名为SDPG(Self-Distilled Policy Gradient)的新框架诞生了。它巧妙地将群相对验证器优势、归一化标准差、精确的完整词汇在线自我蒸馏,以及参考策略KL正则化融为一体。实验证明,SDPG不仅比传统的RLVR(基于强化学习的验证器奖励)和自蒸馏基线更稳定,而且性能更优。这项开源研究向外界传递了一个信号:当自我蒸馏与策略梯度深度结合时,强化学习或许能迎来更高效的训练路径。在稀疏奖励的困局中,每一步自我审视都可能成为解局的钥匙。

2026年6月5日

近年来,人工智能系统在各类基准测试中屡创佳绩,从图像识别到自然语言处理,得分一路攀升。然而,这些亮眼表现并未如预期般转化为各专业领域的经济价值。问题出在哪里?

答案或许在于评估方式本身。我们一直用一堆与真实世界脱节的指标来度量AI,就像用高考分数去预测一个人在商场的表现——两者之间隔着巨大的鸿沟。正是基于这一洞察,一项全新的基准测试——Agents' Last Exam(ALE)应运而生。

ALE由250多位行业专家联合开发,参考了美国联邦职业分类体系O*NET/SOC 2018,专门针对非体力劳动的行业设计。它并非又一个简单的排行榜,而是一面镜子,试图照出AI在真实、长期且具有经济价值的工作流程中的表现。测试内容被组织成一个精细的任务分类体系,涵盖55个子领域,归入13个行业集群,包含超过1000项具体任务。

结果令人深思。在主流框架和模型配置下,当前最先进的AI系统在最具挑战性的任务层级上,平均完整通过率仅为2.6%。这个数字与它们在传统基准上的高光表现形成鲜明对比,仿佛学霸进了考场,却发现自己连题目都读不懂。

尤为关键的是,ALE被设计成一个“活”的基准。随着新工作流程和新行业的加入,它的任务池会不断扩展。这不再是静态的考核,而是一场永不停歇的进化竞赛。

或许,我们一直误解了AI能力的真正边界。那些亮眼的分数背后,是算法在精确定义的“考试”中的完美表演,而非在杂乱无章、充满变数的真实世界里的得心应手。当我们在实验室里为模型的进步欢呼时,经济机器仍在等待一个真正能扛起责任的“员工”。2.6%的通过率不是终点,而是一个起点——提醒我们,从大学霸到干将,还有很长的路要走。真正的价值不在于通往榜顶的阶梯,而在于落回地面的每一步。

2026年6月5日

生成式推荐模型家族OneRec已经在短视频、直播、广告和电商等真实服务中大规模部署,但它们只能从规模优势中获益,推理能力却难以激活——我们无法构建由仅有物品token组成的、有意义的思维链序列。受大语言模型领域“先思考后回答”推理范式成功的启发,研究团队进行了初步探索(OneRec-Think、OpenOneRec),试图激活生成式推荐的推理能力。然而,一个意外现象出现了:思考模式并未展现出比非思考模式更明显的优势。

这引发了更深层的追问:为什么在推荐任务中,直接模仿LLM的推理方法失效了?研究团队从多模态语言模型中关于思维链鲁棒性的最新发现中汲取灵感,认为推荐中的有效推理取决于两个关键因素:感知,即让物品token扎根于其背后的语言语义的能力;认知,即把用户行为序列重组为连贯的潜在兴趣点的能力。基于此,他们提出了OneReason框架,包含三部分:第一,预训练阶段强化物品token的感知能力;第二,在监督微调中设计三级认知增强的思维链格式,专门适配推荐任务;第三,在强化学习阶段采用“先专精后统一”的训练策略,来提升思考能力。这一方案试图让生成式推荐模型真正学会推理,而不仅仅是记忆和预测。推荐系统的未来,也许不在于更大的模型,而在于让模型学会如何思考用户行为背后的逻辑。

2026年6月5日

在通往月球和火星的漫长旅途中,水是最珍贵的资源之一,而宇航员的衣物却只能重复穿着,汗渍和微生物堆积成为头号难题,甚至可能威胁健康。现在,阿拉巴马大学亨茨维尔分校的研究团队带来了一种新思路:一把手持的冷等离子体喷枪。它喷出室温下的等离子体气流,充满活性氧和氮物种,像无数微小的刀刃一样,瞬间刺破细菌的细胞壁。实验显示,在沾染了皮肤微生物的棉布上,这种处理将菌落数从每毫升大约25万锐减至6万,效果甚至优于国际空间站当前的清洁方法。团队设想了一个未来系统:一台等离子体洗衣机,配合结合喷射与真空吸尘的工具,不仅能处理衣物,还能清洁航天服和舱内表面。不过,这项技术目前只能杀死微生物,却无法去除污渍;此外,它还需要更广泛的微生物测试和面料耐久性验证,才能被真正纳入航天任务。尽管如此,这对于长期深空居住来说,意味着一件小事被悄然改变:不必再忍受布满细菌的衣物,也不必浪费宝贵的水资源来清洗。也许,当人类终于能在火星上安家时,这件小事会成为生活更宜居的见证。

2026年6月5日

23andMe从破产中归来,变成了一家非营利机构——创始人安妮·沃西基以约3.05亿美元的价格,在法院批准的拍卖中重新买回了公司及其包含1300万人DNA的庞大数据库。她的野心不止于此,公开宣称要达成1亿用户规模,因为在她看来,这是“AI世界”推动有意义医学发现所必需的数据量级。不过,破产风波并非毫无代价:大约200万客户在此期间选择删除了自己的数据,这迫使公司重新设限,如何更谨慎地使用这些敏感的基因信息。与此同时,一项与HealthEx的合作正在小范围测试,允许用户将电子病历与DNA、实验室数据乃至生活方式数据整合——目前仅限beta版。这场重生的意义在于,当全球最大规模的基因数据集之一直接与医疗记录接轨,AI驱动的药物发现和个性化医疗或许会迎来飞跃性突破,但将所有敏感数据汇集到一个生态系统中,也把隐私、知情同意和数据治理的议题推到了聚光灯下。有论者指出,当数据成为新石油,如何开采而不灼伤自己,才是真正的考验。

2026年6月5日

在支付方式日益同质化的今天,一块小小的银色魔法棒正在掀起波澜。Jack Dorsey的Block公司刚刚推出了一款名为“Wand”的Cash App支付设备——一个25美元的珍珠光泽、星状钥匙链挂件,内置NFC芯片,只需在收银终端上轻轻一碰,就能完成非接触式支付,就像刷手机或银行卡一样便捷。但这根魔杖可不只是一件工具,它是Block“Cash App Tags”硬件系列的首秀。公司放言,这个系列未来将扩展到服装、珠宝和其他可穿戴形式。首批魔杖在发售后瞬间售罄,Cash App在X平台宣告:“第一波Wand已售罄,更多NFC标签即将到来。”为了应对用户安全需求,魔杖提供即时消费提醒功能,用户还能在App内锁定、解锁或停用丢失的标签。

这场看似玩具般的创新,实际上是对支付市场格局的巧妙挑战。苹果支付和谷歌钱包早已占据非接触式支付的主导地位,但Block赌的是一个反直觉的方向:Z世代想要的不是手机屏幕上那个千篇一律的卡片图标,而是一件能拿在手里、有质感、可以随手挥舞的闪耀小物件。通过限量发售制造稀缺感,Block试图让支付变成一种社交身份的标识。不过,这根25美元的魔杖能否从一时新奇变成日常刚需,最终取决于后续的Tags是否能提供手机支付做不到的事——比如更快的速度、更炫的交互,或是真正融入生活场景的“魔法”。在这场支付工具的传统叙事之外,Block正在写一个关于物欲、身份和即时满足的新故事。

2026年6月5日

在美国,拥有超过10万粉丝的Instagram、YouTube或X账号(或30万粉丝的TikTok账号)的创作者,现在可以认领一个特殊的“搜索个人资料”。这不是普通的知识面板,而是一个由创作者自己管理的中心页面,会出现在该名字的搜索结果最顶端。在这里,他们可以展示视频、文章、帖子,附上简介、头像、网站链接和其他平台入口,甚至能置顶某篇内容。

一个关键的按钮“关注”将创作者的个人资料直接嵌入Google Discover,让他们的内容推送到粉丝的个性化信息流中。谷歌将其包装成“创作者主导的知识面板”,但任何名字、简介或链接的编辑都需要进入“待审批”状态,直到谷歌点头批准。

这项功能推出的时机耐人寻味。2024年6月至2025年9月期间,当AI Overviews出现在某个查询中时,网页的有机点击率平均下降了61%(数据来自Seer Interactive)。AI生成的摘要正在截流开放网络的流量。谷歌自己的Linktree(即这个可认领的个人资料页面)则把发现过程和受众牢牢地锁在了自己的围墙内——创作者想在谷歌上保持可见,就必须遵守谷歌的规则,而谷歌也借此在AI时代继续掌控流量的分配权。这不仅是为创作者提供了一个主页,更是一场关于谁控制着数字注意力入口的无声博弈。

2026年6月5日

一封由OpenAI、Anthropic、Google DeepMind和微软等AI巨头CEO签署的公开信,正在紧急递交给美国国会。信上的名字包括Sam Altman、Dario Amodei、Mustafa Suleyman、Alexandr Wang和Demis Hassabis,以及DNA合成行业的领军人物。他们发出的警告令人不寒而栗:AI系统如今已在病毒学实验室操作方面超越了博士级专家,这意味着坏分子可以利用AI设计生物武器,而过去保护人类的知识壁垒正在被AI侵蚀。

信中写道:“AI系统现在在高度专业的实验室操作领域,表现优于博士级病毒学家。”这并非危言耸听,而是来自全球最顶尖AI公司领导者的集体呼声。他们敦促国会立即通过立法,强制所有美国的合成DNA和RNA卖家必须筛查每一笔订单、验证买家身份,并记录所有销售数据,确保危险序列可追溯。否则,历史上阻止坏人获得生物武器的知识屏障,将“显著瓦解”。

这封信的意义远超行业呼吁。长期以来,生物武器风险被视为AI进步阶梯上的关键一级——就像AI自我改进(RSI)一样令人担忧。它甚至让平日里立场迥异的Altman和Amodei罕见地站到了一起。问题的核心在于:AI加速的世界正在迫使法律和监管体系以史无前例的速度进化,但立法者的脚步跟得上吗?当AI已经能教坏人如何制造病毒,而我们却还在争论合成DNA要不要登记,这中间的鸿沟或许正是我们最该警惕的。未来的安全,注定不是科技公司的独角戏,而需要整个社会在规则尚未崩塌前,抢先一步按下那个“暂停键”。

2026年6月5日

想象一下,你与ChatGPT的每一次聊天,都像是一块拼图。过去,它只能记住零散的碎片——比如你喜欢喝冰咖啡、计划去日本旅行。但现在,OpenAI推出了一项名为“梦境”(dreaming)的更新,它把这些碎片自动拼成了一幅完整的画像:你的旅行偏好、工作习惯、业余爱好,被分门别类地记录在一份不断更新的“个人简介”里。这不再是简单的事实堆砌,而是一个有生命力的背景档案。

具体而言,ChatGPT现在会为你维护一份动态的书面总结,按“旅行”“爱好”“工作”等类别整理。你可以随时查看、修改这些记忆,甚至告诉它“别聊这个话题”。记忆会随着对话自动调整,越用越精准。根据OpenAI的评估,这项功能让事实性回忆的准确率从41.5%跃升至82.8%,对用户偏好的遵循率也从31.4%提升到了71.3%。目前,这项更新正在美国向Plus和Pro用户推送,免费版和Go版用户以及其他国家将在未来几周内陆续获得。

记忆一直是AI个性化中最难啃的骨头——理论上它能让体验无缝衔接,但过去总显得笨拙。Sam Altman多次畅想过超个性化AI的未来,而“梦境”或许就是那把钥匙:它让AI不仅记住你说了什么,还开始理解你是谁。当你的助手能主动想起你上次聊过的露营计划,并在你下次提到假期时提前推荐装备,那种连续感可能正是用户从其他平台“跳槽”到OpenAI的理由。

记忆像一条看不见的线,把散落的对话串成独属于你的故事。而当一个AI开始记得你的过往,它就不再是一个工具,而是你数字生活里的一本私密日记——只是这本日记,正变得越来越聪明。

2026年6月5日

Anthropic近期发布了一份关于“递归自我改进”(RSI)系统的报告,标题直击要害:“当AI构建自身”。报告引用了Claude在编码领域“接管”的内部数据,并发出警告:完全具备自我改进能力的AI,可能比机构准备好应对它的时间更早到来。

故事要从Claude的惊人成长说起。截至今年5月,Anthropic公司合并的代码中,超过80%是由Claude自主编写的。工程师们在2026年第二季度每天提交的代码量,相比2024年翻了8倍。Anthropic的联合创始人杰克·克拉克在描述这种趋势时写道:“Claude的每一个新版本,都可能由前一个版本在没有人类参与的情况下构建而成。”这意味着,AI不再仅仅是工具,它正在成为自己的设计师和构建者。

这种自我强化的循环并非孤例。就在本周,OpenAI在其“前沿AI的民主治理”蓝图中也明确指出了RSI的迹象,称“今日的系统中已经可以看到RSI的第一缕火花”。更广泛地看,MiniMax等实验室表示,其M2.7模型的一部分代码就是由模型自身帮助构建的,而围绕“自我改进循环”的新兴创业公司也在不断涌现。

然而,Anthropic的态度是谨慎的。他们表示,如果其他实验室也同意放缓或暂停前沿AI的开发,他们愿意遵循这一路径,并计划在未来几个月展开政策讨论,涉及研究、系统及各种可能场景。但问题在于,RSI带来的未知风险令人恐惧,更别提要达成一个依赖全球协调的暂停方案,几乎无法想象。

当AI开始自己决定自己的进化方向,人类的控制权还能维持多久?也许答案并不在代码里,而在我们是否愿意在技术狂奔之前,先系好安全绳。

2026年6月5日

想象你有一个形影不离的AI助手,它记下了你几个月来的对话、偏好和计划。起初它很贴心,但随着记忆堆叠,有些信息互相支持,有些却在不同情境下自相矛盾——昨天说要减肥,今天又想吃大餐。当助手面对这些微妙冲突时,它该如何正确判断?这正是OpenClaw等持久化AI助手面临的真实困境。

然而,现有的长期记忆基准测试几乎从不考察助手如何处理记忆之间的关系。为了填补这一空白,研究者推出了SubtleMemory——一个专门用于细粒度关系记忆辨别的基准。它巧妙构建了一系列受关系控制的潜在语义伪影:有些是互补的,有些是微妙的,有些直接矛盾。这些伪影被嵌入到逼真的用户与助手交互历史中,要求助手在后续的查询和指令里,从分散的记忆碎片中恢复出隐含的关系结构。

基准包含1,522个评估实例,跨越10段长历史,基于1,090组关系控制的记忆变体集合,既有用户相关的查询,也有非用户相关的查询。研究者测试了6个独立的记忆系统、2个自带原生记忆模块的Claw风格智能体,以及3个搭载插件记忆模块的Claw风格智能体。结果令人惊讶:当前所有系统在细粒度关系记忆辨别上均表现薄弱。

更深入的诊断协议揭示了不同阶段的能力画像:记忆保存、检索和下游推理各有短板;有的系统能记住孤立事实,却无法在冲突情境中挑选正确的那一条;有的能检索到所有相关记忆,却不知道如何权衡它们之间的关系。

这就像让一个学生背诵全书却不会运用知识点——AI助手拥有海量记忆,却无法理解其中的矛盾与共识。未来的AI不仅需要记住更多,更需要学会在关系网中明智选择。毕竟,真正的智能,往往藏在那些细微的差别里。

2026年6月5日

在Transformer模型的注意力机制中,查询、键、值(QKV)三个投影是否都可以被简化?一项新研究系统评估了三种共享方案:Q-K=V(共享键值)、Q=K-V(共享查询键)和Q=K=V(单一投影)。其中,Q=K-V和Q=K=V会产生对称注意力图,研究通过2D位置编码解决了这一问题。实验覆盖了合成任务、视觉任务(MNIST、CIFAR、TinyImageNet、异常检测)以及语言建模(300M和1.2B参数模型在10B token上训练),结果发现共享投影的Transformer性能与标准QKV持平,甚至有时更优。具体来说,在语言建模中,Q-K=V共享方案仅以3.1%的困惑度下降为代价,实现了50%的KV缓存减少。更重要的是,投影共享与头共享(GQA/MQA)互补:将Q-K=V与GQA-4结合,缓存减少87.5%;与MQA结合则达到96.9%,使得设备端推理成为现实。研究认为Q-K=V之所以保持质量,是因为键和值可以占据相似的表征空间,且注意力操作在低秩区域进行;而Q=K-V则破坏了注意力方向性。这项工作系统刻画了投影共享作为注意力中未被充分探索的权重绑定实例,直接带来可量化的推理内存收益,尤其对边缘部署价值显著。代码已开源。注意力机制中的每一点冗余都可能成为效率的突破口,而精简后的Transformer,正一步步走向更广阔的应用场景。

2026年6月5日

想象一下,你站在一个陌生城市的街角,目光扫过对面建筑的窗户,然后绕到楼后,试图在另一扇窗户上找到相同的细节——这看似简单的任务,其实需要同时理解几何变化、视角转换、细微纹理和遮挡推理。这正是宽基线匹配(WBM)的核心挑战,也是部署在物理世界中的多模态大语言模型(MLLMs)面临的空间推理试金石。然而,目前的MLLMs缺乏对这一能力的系统评估和训练框架。

为了填补这一空白,研究者推出了ReasonMatch-Bench——一个按视点位移和匹配粒度分层设计的基准,涵盖室内、室外和物体中心场景。测试结果令人震惊:在一个仅包含90个样本的困难子集上,人类标注员能达到84.0的F1分数,而当时最强的现有基线模型却只有37.2——差距超过两倍。这意味着,即便最先进的多模态模型,在涉及大幅视点变化和细粒度对应识别时,仍远远落后于人类的视觉推理能力。

面对这一鸿沟,研究团队构建了一套可扩展的数据生成管道。他们从大规模视频-3D语料库(包括RGB-D视频和运动恢复结构重建结果)中自动提取宽基线视点对,生成了多样且可验证的监督信号。这为后续训练提供了高质量的数据基础。

更关键的是,他们设计了动态对应强化学习(DCRL)方法。DCRL将训练过程拆解为两个核心阶段:图像级视点渐进和点级对应课程。简而言之,模型先从粗略的全局视点变化中学习,再逐步聚焦到具体的点匹配细节,并通过可验证的奖励信号进行强化——全程不需要显式的思维链监督。这种策略让模型在掌握宽基线匹配能力的同时,不会丢失原有的通用视觉理解能力。

大量实验证明,DCRL在ReasonMatch-Bench上带来了显著的性能提升,并且这些提升能够迁移到其他相关的空间推理基准任务中。更令人欣慰的是,模型在多个通用视觉理解基准上的表现不仅没有下降,反而有了小幅增长。

从人类的84分到模型的37分,这场跨越需要的不只是更多的数据或更大的模型,而是对空间关系本质的更深入理解。当机器学会跨越巨大视角差异去识别同一片窗户的纹理时,它离真正理解物理世界也更近了一步。也许,宽基线匹配的每一个像素对应,都是在搭建AI通往真实环境的桥梁。

2026年6月5日

在全息对偶的框架下,物理学家一直在探索封闭宇宙的量子结构。一项新研究在大N对称轨道折叠共形场论中识别出封闭宇宙扇区,这些理论本身具有全息对偶。研究者从种子理论的低能子空间出发,构造张量积态,发现大N希尔伯特空间会分解为一系列由占据数分布标记的超选择扇区。

在施加轨道折叠规范约束之前,这些扇区展现出惊人的规模——它们的维度呈指数级增长,其中最大熵扇区主导了整个未规范化的希尔伯特空间。这个主导扇区表现出封闭宇宙希尔伯特空间的几个关键特征:首先,纯态与混合态在简单关联函数层面变得无法区分;其次,与之相关的算子代数自然地成为超有限II_1型冯诺依曼代数。这暗示着封闭宇宙中信息的“丢失”可能源于这种代数结构的内在抹平效应。

当研究者施加S_N规范约束后,情况发生剧变。庞大的规范冗余极大地削减了独立态的数量。在大N极限下,物理希尔伯特空间的维度仅随N呈多项式增长,每个超选择扇区最终退化为一维。这一结果完美再现了带有虫洞的引力路径积分计算所暗示的定性行为——即封闭宇宙的希尔伯特空间维度远小于未约束时的指数级规模。

有趣的是,该研究揭示了一个重要矛盾:在这个设定中,传统的哈特尔-霍金型半经典近似无法再现CFT的计算结果。传统半经典方法认为封闭宇宙的波函数由某个主导鞍点决定,但CFT结果表明这种近似完全失效。然而,一旦将CFT自由度与外部观察者自由度耦合,引力路径积分计算的主导鞍点近似又被成功重建。

这一发现挑战了我们对封闭宇宙量子描述的直觉。封闭宇宙的量子态可能并非由某个“自然”的半经典波函数主导,而是需要借助外部观测的介入才能恢复引力路径积分的有效性。这或许暗示,即便在一个自洽的封闭宇宙中,观察者的存在并非锦上添花,而是定义量子宇宙学的必要前提。当宇宙与外界失去联系,其内部量子结构的丰富性将掩盖于超选择扇区之中,只有在观测的“注视”下,经典时空的图景才能重新浮现。

2026年6月4日

想象一下,你站在一个房间门口,看到地上有一滩水。你的大脑会立刻预演几种可能:如果直接踩过去,可能会滑倒;如果绕开,需要走多远。这种对未来的“预演”是人类决策的关键,如今研究者正试图让AI也学会类似的能力。

世界模型和多模态大语言模型像一对互补的搭档:前者能生成未来可能场景的视觉动画,比如“如果我把杯子推倒,水会怎么流”;后者则擅长抽象推理,比如回答“这个行为是否符合规则”。然而,世界模型生成的视觉预演就像随机播放电影——画面可能很逼真,但情节却可能完全偏离实际任务。比如AI预测一个机器人把杯子推倒后水会洒出,但实际任务却是“保持杯子稳定”,那么视觉预演反而会误导答案。

这引出一个核心问题:AI该如何判断“何时需要视觉模拟”、“模拟结果是否可信”,以及“如何将模拟融入最终答案”?研究者将其定义为“可控具体推理”——让模型学会主动调用、验证并整合视觉未来模拟,同时结合抽象推理。

为了训练这种能力,团队构建了两个人工验证的基准测试:VRQABench(用于可控制的空间预判,比如“从A点出发,3秒后球会撞到哪个物体?”)和OpenWorldQA(用于开放世界的物理预测,比如“如果把冰块扔进热咖啡,会发生什么?”)。这些任务要求AI不仅输出答案,还要展示推理过程中的视觉预演。

研究者提出的方法名为“特权未来在线策略自蒸馏”。训练时,模型像有一个“作弊指导老师”:老师能看到真实的未来视频和正确答案,用来评估学生模型自己生成的视觉预演是否合理。而学生模型在测试时,只能依靠自己的模拟能力,无法看到真实未来。这种方式迫使模型学会自我纠错。

实验结果显示,这种训练让模型在VRQABench和OpenWorldQA上的准确率分别提升了10.6%和10.9%,并且对噪声或矛盾的模拟结果更加鲁棒——即使视觉预演出错,模型也能通过抽象推理进行修正。

未来已来,但并非照本宣科。当AI学会在脑海中预演多种可能,并懂得何时相信自己的“想象”,它才真正开始像人类一样,在不确定的世界中寻找确定。

2026年6月4日

想象一下,训练一个人形机器人执行复杂的操控任务——比如弯腰捡起地上的水瓶,或者稳健地爬上楼梯——过去需要搭建真实场景、穿戴动作捕捉设备、由操作员远程操控,每一条演示数据都耗资巨大、难以规模化。现在,一项名为GRAIL的数字化生成管道彻底打破了这一瓶颈:它完全在虚拟世界中完成从数据生成到策略训练的全流程,直到部署到机器人那一刻才进入现实。

GRAIL的核心思路是“先确定一切,再生成视频”。它不像传统方法那样试图从混乱的网络视频中逆向解读三维世界,而是先组合好3D模型、场景深度、相机参数,以及一个与机器人尺寸比例一致的数字替身。在视频生成之前,所有几何信息都是精确已知的,这为后续的4D重建提供了完美的先验条件。基于这种特权设定,GRAIL利用模型的目标跟踪、人体运动估计和交互感知优化,从生成的视频中反向恢复出带有公制尺度的人-物交互轨迹,有效消除了深度模糊和形态错配。

这个管道依赖于视频基础模型的生成能力,但巧妙地将“想象”限制在已知三维空间的框架内。GRAIL生成了超过20,000条高质量序列,涵盖五种核心技能:拾取物体、操控物体、坐下、地形行走以及跨越障碍。更关键的是,这些数据可以直接用于训练端到端的视觉策略——GRAIL配备了两个互补的通用跟踪器:一个面向物体感知的潜在适配器用于操控任务,一个面向场景感知的跟踪器用于地形导航。数据经过仿真到现实的迁移,部署在宇树G1人形机器人上。

真实世界的测试结果令人振奋:在多样化的物体拾取任务中,机器人达到了84%的成功率;在爬楼梯任务中,成功率高达90%。GRAIL证明,完全虚拟生成的数据足以让机器人学会在复杂环境中完成精细的全身协调动作,而无需人工干预搭建物理场景或遥控机器人。这条路或许意味着,人形机器人的规模化学习不再受限于装备和场地,而是可以像训练语言模型一样,直接从数字世界中汲取海量经验。