EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年6月6日

计算能力的增长速度远超高质量文本的供应,多轮训练正在成为常态。然而,仅仅对单个模型进行反复训练,往往在几轮之后就陷入性能饱和,远未能充分利用预算中的计算资源。研究人员提出,这需要一次概念性的转变:从训练单一模型,转向探索一群模型并聚合它们的预测结果。

为此,一种名为超轮次预训练的新方法被引入。它将多轮训练预算转化为一群多样化的模型,这些模型的联合预测能够达到比任何单一精炼模型更低的验证损失。该方法的核心由三个基本模块组成:一个采用反相关学习率和权重衰减的循环调度,能够从少量并行轨迹中收集多样化的模型;链式蒸馏让每个模型向其前身学习,使得模型质量在群体中持续累积;一个在预留数据集上拟合的学习先验,负责为任意的推理预算选择和加权成员。

在1.8B参数模型和100M个FineWeb令牌的训练实验中,该方法仅用了约56轮次就达到了一个强大的256轮次集成基线——效率提升了约4.6倍。如果与基线集成规模匹配,则只需约67轮次,相当于约3.8倍的效率提升,并且在这个基础上还能继续改进。在慢跑设定下,这些增益累积实现了约12.9倍的数据效率,并且成功迁移到了下游基准测试中。

关键的是,最优分配会随着预算发生变化。因此,该研究给出了具体的操作指南,指导如何针对给定的轮次预算来最大化泛化能力,无论是单轮训练还是最大预算都能找到对应的策略。

当数据的增长跟不上计算的步伐,我们或许不该再固守于打磨一块完美的石头,而是学会欣赏并利用整个群星的光芒。效率的提升,往往就藏在思维转变的瞬间。

2026年6月6日

想象一下,一个机器人不仅要听懂你“把桌上的苹果拿给我”这样的指令,还要能预判拿起苹果时周围环境会发生什么变化,并据此调整自己的动作。传统的机器人学习模型往往有所偏废:有的擅长从海量视频中理解物理世界的动态(世界-动作模型WAM),却难以处理需要多步推理的长任务;有的能借助大语言模型进行逻辑规划(视觉-语言-动作模型VLA),却缺乏对底层物理规律的真实感知。现在,研究者提出了世界-语言-动作(WLA)模型,试图将两者优势融为一体。

WLA模型的输入包括文本指令、图像和机器人自身的状态信息,而输出则是一个“三重预测”:下一阶段的子任务描述(语义级)、完成子任务所需的目标图像(世界模型级)、以及具体的机器人动作(动作级)。这意味着它不只是按部就班执行指令,而是在执行前先“想象”世界会变成什么样。为了实现这种能力,WLA的核心采用了自回归Transformer架构,而非WAM中常用的双向扩散Transformer。它会逐个预测“下一状态”——这个状态既包含“我要去拿杯子”这样的语义意图,也包含杯子被拿起后位置、角度等精细的物理变化。

物理动态部分的预测由专门的“世界专家”(World Expert)负责监督训练,这些动态信息又被用来帮助“动作专家”(Action Expert)更精准地建立状态与动作的关联,从而简化动作生成难度。有意思的是,WLA通过元查询(meta-queries)机制,让世界预测可以隐式地影响动作生成,而在实际推理时完全可以将世界预测模块关闭以节省计算资源——只有在需要提升控制精度时,才激活世界预测,在测试时通过“缩放”计算量来优化决策。这种灵活的设计使得模型在效率和性能之间取得了平衡。

WLA的第一个原型模型WLA-0,拥有20亿活跃参数。在NVIDIA RTX 5090上,单次推理仅需40毫秒,足以满足实时控制需求。在模拟和真实环境的评测中,WLA-0展现了强大的多任务和长程任务学习能力:在RoboTwin2.0 Clean基准上,任务成功率高达92.94%;在更具挑战的RMBench上,也达到了56.5%的成功率。更令人兴奋的是,WLA-0还展示了从“跨形态机器人视频”中直接学习新任务的能力——即使这些视频没有标注任何动作,它依然能通过观察不同机器人如何与世界互动,学会新的操作技能。

这一结果意味着,未来的机器人或许不再需要依赖昂贵且繁琐的人工动作标注,仅凭观看大量机器人的行为视频就能不断拓展能力边界。当机器人的“语言”和“感知”真正融入了对世界的“想象”,它们离我们想象中的通用智能体又近了一步。

2026年6月6日

传统机器人动作生成需要数十步迭代扩散,如同慢速放映,无法满足实时操控需求。步进蒸馏本是提速良方,却在视频与动作联合建模时失灵——视频流和动作流使用了截然不同的噪声调度,就像两个时钟走速不一,到达训练环节时噪声分布已天差地别,单一蒸馏方法根本无法兼顾这种不对称性。Flash-WAM的解决方案是,为每个模态量身定制一致性函数:对动作流采用线性梯度缩放参数化,匹配其低噪声环境;对视频流采用方差保持参数化,应对高噪声环境。这一设计源于对一致性函数家族的深入分析,揭示了在一致性边界条件下可实现的不同梯度缩放特性。实验在LingBot-VA上实现单步推理,在RoboTwin 2.0上将每段延迟从8.1秒锐减至348毫秒,23倍加速让实时闭环控制成为可能。模拟测试中,Flash-WAM维持了85.5%和95.7%的成功率;真实世界中,Unitree G1人形机器人平均表现恢复至60%,而朴素一致性蒸馏在同一计算预算下仅剩24%。当视频与动作不再被当作同一种信号处理,机器人才能真正跟上世界的节奏。

2026年6月6日

视频事件预测,就像从一段不完整的影片中,猜出下一秒会发生什么。这听起来像是科幻,但真实世界里的智能模型正在为此努力。然而,传统做法有个致命缺陷:它们总喜欢把画面里的动作、形状、互动关系,一股脑翻译成文字,再在文字里推理未来。一旦画面变成文字,那些细腻的几何扭曲、微妙的运动轨迹、物体间的时空关联,就像水珠从指缝漏掉,成了似是而非的“幻觉”。

一项名为Future-L1的新研究,打破了这个僵局。它让模型在推理时,既说人话,也“看”画面——在生成文字token的同时,交替插入连续的潜在视觉片段。这些视觉片段不是文字所能描述的,它们是高维空间里的视觉语义,保留了运动、形状和交互的原汁原味。为此,研究者从现有视频数据中精选了5万条样本,构建了Future-L1-50K数据集,专门挑选那些“看一眼未来画面就能猜对答案”的例子,并让模型把它的潜在状态对齐到未来的真实帧嵌入上。训练时,他们还用了一种叫LA-DAPO的强化学习算法,给不同的潜在推理轨迹打分,奖励那些与最终结果更一致、同时保持时间多样性的路径。

结果令人震惊。在FutureBench上,原本只有61.0分的Qwen3-VL-8B模型,采用Future-L1后飙升至85.4分,一举超过此前最强模型Video-CoE整整10.4分。在更复杂的TwiFF-Bench上,平均分也从2.44提升到3.04。这些数字背后藏着一个朴素的真理:当模型在潜空间里保留视觉语义,而不是把所有推理步骤都翻译成文字时,它对未来的预测会变得更加扎实而准确。

人类看视频时,从来不会把每一帧的画面都转化为语言再思考。我们在脑海中保留的是动态的、模糊的、连续的视觉印象。Future-L1所做的,不过是教会机器用同样的方式思考——不是放弃语言,而是让视觉在推理中保持它的原貌。这或许暗示着一条更根本的道路:未来的智能,不是在文字和图像之间二选一,而是学会在两者之间自由切换,就像我们的双眼和大脑,从不必翻译就能明白下一刻会发生什么。

2026年6月6日

想象一个场景:一位数学天才可以轻松口述复杂证明,但一旦要求用严谨的符号语言写出每一步逻辑,就变得磕磕绊绊。这正是大型语言模型(LLM)的困境——它们擅长非正式的数学推理,却在生成像Lean这类形式语言的可验证证明时屡屡受挫。然而,一个名为LEAP的智能体框架彻底改变了这一局面,让通用基础模型在自动形式定理证明领域达到了顶尖水平。

LEAP的核心智慧在于“化整为零”。它利用基础模型的内置能力——非正式推理、指令遵循和迭代自我完善——将复杂的数学难题拆解成一个个更小的单元。通过与Lean编译器的持续交互,这个系统在形式证明构建与非正式蓝图之间架起了一座桥梁。想象一位经验丰富的程序员一边编写代码,一边即时运行测试并修正错误;LEAP正是以类似的方式,一边推理数学逻辑,一边与编译环境对话,直到所有步骤都通过机械验证。

为了严格评估这类系统的性能,研究者引入了Lean-IMO-Bench——一个以IMO风格问题为蓝本的基准测试。这些问题的陈述虽短,但证明路径高度非惯例且多步骤,难度跨度极大,避免了现有基准被刷新的“饱和”现象。实验数据令人震撼:在2025年北美大学生数学竞赛Putnam比赛的全部12道题中,LEAP解决了所有题目,追平了此前由顶尖形式数学模型实现的突破。而在Lean-IMO-Bench上,通用LLM单次尝试的形式化求解率从不足10%直接跃升至70%,甚至超过了由金牌级别的IMO专用系统创下的48%基准——这个专用系统可是经过海量专业数据训练的。

更令人惊叹的是LEAP的研究级实用性。它自主地形式化了开放组合数学难题中的复杂证明,包括对Knuth关于偶数阶Cayley图哈密顿分解中一个关键子问题的验证。这意味着,LEAP不仅能解题,还能辅助数学家将非正式的手稿转化为计算机可验证的严谨文档。

从普特南竞赛的满堂彩,到基准测试中碾压式提升,再到研究前沿的实际应用,LEAP证明了一个道理:当大语言模型学会与逻辑编译器共舞,它们就能在形式推理的疆域里跑出加速度。也许有一天,每一个定理的诞生都会伴随着一个无形的“校验官”,而LEAP正是那扇通往信任之门的钥匙。

2026年6月6日

策略梯度方法通常致力于最大化期望回报,但在许多现实场景中,分布的尾部风险、异常值鲁棒性或Best-of-K发现等特性更为关键。OrderGrad应运而生,它是一族针对顺序统计量目标的似然比和重参数化梯度估计器。

想象一个场景:一家自动驾驶公司希望训练一个决策模型,不仅要平均表现好,更要避免那些可能导致事故的极端情况。传统策略梯度只关注均值,可能对高分奖励过度乐观。而OrderGrad允许用户将目标自定义为排序后奖励的加权平均——即有限样本的L统计量。只需改变秩权重,就能表示VaR(风险价值)、CVaR(条件风险价值)、修剪均值、中位数,甚至“Top 10%”和“Best-of-K”等常见目标。对于任何固定的样本大小和权重向量,OrderGrad都能提供无偏的梯度估计。

实现上,OrderGrad仅仅是对原始奖励进行一次简单的排序和加权变换,然后就可以直接插入到标准的策略梯度或重参数化更新中,堪称即插即用。研究者还分析了该估计器的方差行为,并在多个任务上进行验证,包括大型语言模型(LLM)的数学后训练。结果显示,当均值优化与实际部署目标不匹配时——例如需要LLM在多次尝试中选出最佳答案(Best-of-K),或要求稳健性以避免低质量输出——OrderGrad都能显著提升性能。

这一方法为解决风险规避、鲁棒性和探索性学习提供了一个统一的工具箱。当任务目标不再是简单求平均,而是关注分布中的特定部分时,也许我们应该重新审视“最优”的定义——学会在风险的边缘与机遇的顶端之间权衡,才是更贴近真实世界的选择。

2026年6月6日

在人工智能的推理世界里,语言模型正在经历一场静悄悄的革命。一直以来,大语言模型通过生成显式的“思维链”来展示推理过程——每一步推理都必须用文字表述出来,即便这个思维本身尚不确定或只是部分成型。这种离散、串行的文本化方式,虽然直观,却让模型在每一个中间步骤都不得不“说出声”才能继续前进,仿佛一个思考者在嘴里念念有词才能整理思路。

科学家们发现,如果让模型在提交最终答案之前,先用紧凑的连续状态进行潜在推理,就像人类陷入沉思时不一定会自言自语,那么信息传递的带宽可以大大提高。然而,此前尝试的潜在推理方法常常牺牲了思维链真正的优势:从左到右的渐进式生成、概率性的采样方式、与高效KV缓存的兼容性,以及可计算出的似然估计。这使得它们在自回归语言模型中难以完全发挥效力。

现在,一个名为NF-CoT的框架试图打破这一困局。它运用归一化流这种数学工具,将连续思维建模成从显式思维链中蒸馏出的紧凑概率分布,同时保留了上述所有关键特性。想象一下,在同一个因果生成流中,模型头部变出了两个角色:一个“NF头”专门生成潜在思维位置,另一个标准的“语言模型头”则继续生成文本部分。这种设计让模型能够为潜在思维提供精确的似然值,支持使用原始KV缓存进行从左到右的概率解码,甚至在潜在推理空间里直接进行策略梯度优化。

在代码生成的基准测试中,NF-CoT展现出了令人瞩目的成果:它比使用显式思维链和此前潜在推理方法都取得了更高的通过率,同时大幅降低了中间推理的计算成本。这意味着模型不再需要把所有思考过程都写在纸面上,而是在头脑中完成高密度的内省,只在必要时才开口说话。当效率与深度得以兼得,推理的边界或许将从此改写。

2026年6月6日

在强化学习后训练大型语言模型的过程中,研究者常依赖可验证奖励的强化学习来优化推理能力。然而,稀疏的结果奖励如同大海捞针,让模型探索举步维艰。一个弥补方案是直接优化推理时的目标,比如pass@K和max@K这些指标。但问题来了:现有的政策梯度估计器用着不同的信号、基线和归一化手段,彼此之间的关系像一团乱麻,让人看不清头绪。

研究团队决定从根上理顺这团线。他们聚焦于基线设计和优势中心化这个关键环节,从领域内一项领先方法的优势估计器入手,发现它虽然能保证政策梯度无偏,但生成的“优势”却像失衡的天平,并不居中。于是,他们抛出一个巧妙的解决方案:Leave-Two-Out基线。这个新基线不仅保留了政策梯度无偏的特性,还让实际批量计算出的优势变得精准居中——就像把摇摆的指针稳稳固定在零刻度。

基于这个设计,他们构建了名为MaxPO的方法。它的实现效率出众,时间复杂度呈二次方增长,能自然融入当下流行的基于组的强化学习框架,用于LLM的后训练。不仅如此,研究团队还推导出max@K的规范有限批次优势表达式,为现有的各种优势估计器提供了一张统一的蓝图——原来那些看似不同的方法,都在这个新视角下找到了各自的位置。

实验验证了猜测:采用Leave-Two-0ut基线后,梯度方差显著降低,性能超过了那些非中心化的老办法。这种对奖励信号和探索策略的精准调校,或许正是让推理模型从“做对题”迈向“懂解题”的关键一步。当优势变得居中,模型的后训练不再是撞大运,而是一场有章可循的权衡艺术。

2026年6月6日

在人工智能研究的漫长赛道上,大型语言模型智能体正被赋予越来越复杂的长期任务,比如科学发现和机器学习工程。然而,这些高难度的探索常常面临三个致命瓶颈:不同探索路径间的信息隔绝、像金鱼一样七秒记忆的搜索方式、以及缺乏高层指挥的混乱迭代。想象一下,一个科研团队里每个成员都埋头自己的孤岛,从不交流实验结果,也不记得昨天的失败教训,更没有人统筹全局策略——这就是现有MLE智能体的困境。

为了打破僵局,研究人员推出了MLEvolve——一个基于大型语言模型、能自我进化的多智能体框架,专门用于端到端的机器学习算法发现。它的核心突破在于三大创新设计。首先,MLEvolve将传统的树搜索升级为“渐进式多重分支图搜索”,让不同探索分支之间通过图结构的引用边共享信息,就好比让每个实验小组都能随时看到其他小组的最新进展。同时,它引入了一个受熵启发的渐进式调度策略:初期广泛探索不同可能性,后期逐渐收敛到最有潜力的方向,实现从“广撒网”到“深挖井”的平滑过渡。

其次,为了让智能体能在长期迭代中不断成长,MLEvolve设计了“回顾性记忆”机制。这就像一个科学家既有初期积累的领域知识库作为冷启动,又有一份动态更新的全球记忆,专门存储任务相关的成功经验和失败教训。下次遇到类似问题时,智能体能直接调取这些经验,而不是每次从零开始思考。

最后,为了确保长期迭代的稳定性,MLEvolve将战略规划与代码生成解耦,并提供了自适应编码模式。这意味着高层决策者专注于制定下一步探索计划,而底层执行者则根据计划生成并调试代码,两者各司其职,避免了“手忙脚乱”的低效。

在MLE-Bench这一权威基准测试中,MLEvolve展现出卓越性能:在仅12小时预算(标准运行时间的一半)下,它在平均奖牌率和有效提交率等多个维度上均达到领先水平。更令人惊讶的是,在数学算法优化这类特定任务上,它甚至超越了专为此领域设计的AlphaEvolve方法,证明了其强大的跨领域泛化能力。

这项研究的真正启示在于:当智能体学会积累经验、跨分支交流、并分层次协同工作时,它们在长期复杂任务中的进化速度可能远超我们的想象。想象一下,如果每个AI系统都能像MLEvolve一样从昨天的工作中汲取养分,从同伴的探索中获取灵感,那么算法发现或许真的会进入一个自我加速的时代。

2026年6月5日

在大语言模型训练的赛场上,Adam优化器曾长期是默认选手,但一个新锐优化器Muon正以约两倍的训练效率引发关注。然而,Muon究竟为何能跑得更快?其局部几何优势始终像一层迷雾。我们的研究首次从曲率视角揭开Muon相对于Adam的优势之谜。

我们首先对训练损失景观进行二阶泰勒近似,发现两者在达到相同验证损失时,Muon的单步损失下降幅度更大。尽管两者的“一阶收益”(即梯度方向上的即时收益)相差不大,但Muon始终承担更小的“二阶曲率惩罚”——这相当于在同样迈一步时,Muon踩到陡峭曲面上的代价更低。

进一步,我们将曲率惩罚拆解为“更新范数”和“归一化方向锐度”(Normalized Directional Sharpness, NDS)两个成分。有趣的是,Muon和Adam的更新范数大小接近,因此Muon更小的曲率惩罚并非来自更新幅度差异,而是源于更低的NDS——也就是其更新方向在曲率变化的曲面中更“聪明”。

随后,我们探究了训练数据和模型结构如何塑造Muon的NDS优势。通过使用Zipf-概率上下文无关语法(PCFG)数据来控制数据不平衡程度,我们发现,当数据分布越不均衡,Muon相对于Adam的NDS优势就越显著。对模型进行层内/层间曲率分解则显示,在训练的中后期,Muon更低的NDS主要来自更小的层内曲率——这意味着Muon在每一层内部更新时,避免了“扎堆”冲击高曲率区域。

除了实证证据,我们还分析了具有异质曲率(即不同方向曲率差异很大)和梯度偏向高曲率模式的理论二次型问题。严格证明表明:Muon通过将更新能量更均衡地分配到不同曲率组上,获得了比梯度下降(GD)更低的平均NDS;当曲率异质性足够强时,这种优势更会转化为相同步数下更低的局部二次损失。

Muon的高效并非魔法,而是源于其对曲率方向的巧妙规避——当优化器学会避开“陡坡”,每一步都踩得更稳,跑得更快就成了必然。这提醒我们,在模型训练的微观世界里,方向的选择往往比步长的大小更为关键。

2026年6月5日

在稀疏奖励的强化学习迷宫中,研究者们一直在寻找更密集的监督信号。在线自我蒸馏——让语言模型基于自身生成的“特权上下文”来监督自己的输出——成为了一个充满希望的答案。实际上,这种技术可以转化为一个学生到教师的完整词汇反向KL散度损失函数。基于此,一个名为SDPG(Self-Distilled Policy Gradient)的新框架诞生了。它巧妙地将群相对验证器优势、归一化标准差、精确的完整词汇在线自我蒸馏,以及参考策略KL正则化融为一体。实验证明,SDPG不仅比传统的RLVR(基于强化学习的验证器奖励)和自蒸馏基线更稳定,而且性能更优。这项开源研究向外界传递了一个信号:当自我蒸馏与策略梯度深度结合时,强化学习或许能迎来更高效的训练路径。在稀疏奖励的困局中,每一步自我审视都可能成为解局的钥匙。

2026年6月5日

近年来,人工智能系统在各类基准测试中屡创佳绩,从图像识别到自然语言处理,得分一路攀升。然而,这些亮眼表现并未如预期般转化为各专业领域的经济价值。问题出在哪里?

答案或许在于评估方式本身。我们一直用一堆与真实世界脱节的指标来度量AI,就像用高考分数去预测一个人在商场的表现——两者之间隔着巨大的鸿沟。正是基于这一洞察,一项全新的基准测试——Agents' Last Exam(ALE)应运而生。

ALE由250多位行业专家联合开发,参考了美国联邦职业分类体系O*NET/SOC 2018,专门针对非体力劳动的行业设计。它并非又一个简单的排行榜,而是一面镜子,试图照出AI在真实、长期且具有经济价值的工作流程中的表现。测试内容被组织成一个精细的任务分类体系,涵盖55个子领域,归入13个行业集群,包含超过1000项具体任务。

结果令人深思。在主流框架和模型配置下,当前最先进的AI系统在最具挑战性的任务层级上,平均完整通过率仅为2.6%。这个数字与它们在传统基准上的高光表现形成鲜明对比,仿佛学霸进了考场,却发现自己连题目都读不懂。

尤为关键的是,ALE被设计成一个“活”的基准。随着新工作流程和新行业的加入,它的任务池会不断扩展。这不再是静态的考核,而是一场永不停歇的进化竞赛。

或许,我们一直误解了AI能力的真正边界。那些亮眼的分数背后,是算法在精确定义的“考试”中的完美表演,而非在杂乱无章、充满变数的真实世界里的得心应手。当我们在实验室里为模型的进步欢呼时,经济机器仍在等待一个真正能扛起责任的“员工”。2.6%的通过率不是终点,而是一个起点——提醒我们,从大学霸到干将,还有很长的路要走。真正的价值不在于通往榜顶的阶梯,而在于落回地面的每一步。

2026年6月5日

生成式推荐模型家族OneRec已经在短视频、直播、广告和电商等真实服务中大规模部署,但它们只能从规模优势中获益,推理能力却难以激活——我们无法构建由仅有物品token组成的、有意义的思维链序列。受大语言模型领域“先思考后回答”推理范式成功的启发,研究团队进行了初步探索(OneRec-Think、OpenOneRec),试图激活生成式推荐的推理能力。然而,一个意外现象出现了:思考模式并未展现出比非思考模式更明显的优势。

这引发了更深层的追问:为什么在推荐任务中,直接模仿LLM的推理方法失效了?研究团队从多模态语言模型中关于思维链鲁棒性的最新发现中汲取灵感,认为推荐中的有效推理取决于两个关键因素:感知,即让物品token扎根于其背后的语言语义的能力;认知,即把用户行为序列重组为连贯的潜在兴趣点的能力。基于此,他们提出了OneReason框架,包含三部分:第一,预训练阶段强化物品token的感知能力;第二,在监督微调中设计三级认知增强的思维链格式,专门适配推荐任务;第三,在强化学习阶段采用“先专精后统一”的训练策略,来提升思考能力。这一方案试图让生成式推荐模型真正学会推理,而不仅仅是记忆和预测。推荐系统的未来,也许不在于更大的模型,而在于让模型学会如何思考用户行为背后的逻辑。

2026年6月5日

在通往月球和火星的漫长旅途中,水是最珍贵的资源之一,而宇航员的衣物却只能重复穿着,汗渍和微生物堆积成为头号难题,甚至可能威胁健康。现在,阿拉巴马大学亨茨维尔分校的研究团队带来了一种新思路:一把手持的冷等离子体喷枪。它喷出室温下的等离子体气流,充满活性氧和氮物种,像无数微小的刀刃一样,瞬间刺破细菌的细胞壁。实验显示,在沾染了皮肤微生物的棉布上,这种处理将菌落数从每毫升大约25万锐减至6万,效果甚至优于国际空间站当前的清洁方法。团队设想了一个未来系统:一台等离子体洗衣机,配合结合喷射与真空吸尘的工具,不仅能处理衣物,还能清洁航天服和舱内表面。不过,这项技术目前只能杀死微生物,却无法去除污渍;此外,它还需要更广泛的微生物测试和面料耐久性验证,才能被真正纳入航天任务。尽管如此,这对于长期深空居住来说,意味着一件小事被悄然改变:不必再忍受布满细菌的衣物,也不必浪费宝贵的水资源来清洗。也许,当人类终于能在火星上安家时,这件小事会成为生活更宜居的见证。

2026年6月5日

23andMe从破产中归来,变成了一家非营利机构——创始人安妮·沃西基以约3.05亿美元的价格,在法院批准的拍卖中重新买回了公司及其包含1300万人DNA的庞大数据库。她的野心不止于此,公开宣称要达成1亿用户规模,因为在她看来,这是“AI世界”推动有意义医学发现所必需的数据量级。不过,破产风波并非毫无代价:大约200万客户在此期间选择删除了自己的数据,这迫使公司重新设限,如何更谨慎地使用这些敏感的基因信息。与此同时,一项与HealthEx的合作正在小范围测试,允许用户将电子病历与DNA、实验室数据乃至生活方式数据整合——目前仅限beta版。这场重生的意义在于,当全球最大规模的基因数据集之一直接与医疗记录接轨,AI驱动的药物发现和个性化医疗或许会迎来飞跃性突破,但将所有敏感数据汇集到一个生态系统中,也把隐私、知情同意和数据治理的议题推到了聚光灯下。有论者指出,当数据成为新石油,如何开采而不灼伤自己,才是真正的考验。

2026年6月5日

在支付方式日益同质化的今天,一块小小的银色魔法棒正在掀起波澜。Jack Dorsey的Block公司刚刚推出了一款名为“Wand”的Cash App支付设备——一个25美元的珍珠光泽、星状钥匙链挂件,内置NFC芯片,只需在收银终端上轻轻一碰,就能完成非接触式支付,就像刷手机或银行卡一样便捷。但这根魔杖可不只是一件工具,它是Block“Cash App Tags”硬件系列的首秀。公司放言,这个系列未来将扩展到服装、珠宝和其他可穿戴形式。首批魔杖在发售后瞬间售罄,Cash App在X平台宣告:“第一波Wand已售罄,更多NFC标签即将到来。”为了应对用户安全需求,魔杖提供即时消费提醒功能,用户还能在App内锁定、解锁或停用丢失的标签。

这场看似玩具般的创新,实际上是对支付市场格局的巧妙挑战。苹果支付和谷歌钱包早已占据非接触式支付的主导地位,但Block赌的是一个反直觉的方向:Z世代想要的不是手机屏幕上那个千篇一律的卡片图标,而是一件能拿在手里、有质感、可以随手挥舞的闪耀小物件。通过限量发售制造稀缺感,Block试图让支付变成一种社交身份的标识。不过,这根25美元的魔杖能否从一时新奇变成日常刚需,最终取决于后续的Tags是否能提供手机支付做不到的事——比如更快的速度、更炫的交互,或是真正融入生活场景的“魔法”。在这场支付工具的传统叙事之外,Block正在写一个关于物欲、身份和即时满足的新故事。

2026年6月5日

在美国,拥有超过10万粉丝的Instagram、YouTube或X账号(或30万粉丝的TikTok账号)的创作者,现在可以认领一个特殊的“搜索个人资料”。这不是普通的知识面板,而是一个由创作者自己管理的中心页面,会出现在该名字的搜索结果最顶端。在这里,他们可以展示视频、文章、帖子,附上简介、头像、网站链接和其他平台入口,甚至能置顶某篇内容。

一个关键的按钮“关注”将创作者的个人资料直接嵌入Google Discover,让他们的内容推送到粉丝的个性化信息流中。谷歌将其包装成“创作者主导的知识面板”,但任何名字、简介或链接的编辑都需要进入“待审批”状态,直到谷歌点头批准。

这项功能推出的时机耐人寻味。2024年6月至2025年9月期间,当AI Overviews出现在某个查询中时,网页的有机点击率平均下降了61%(数据来自Seer Interactive)。AI生成的摘要正在截流开放网络的流量。谷歌自己的Linktree(即这个可认领的个人资料页面)则把发现过程和受众牢牢地锁在了自己的围墙内——创作者想在谷歌上保持可见,就必须遵守谷歌的规则,而谷歌也借此在AI时代继续掌控流量的分配权。这不仅是为创作者提供了一个主页,更是一场关于谁控制着数字注意力入口的无声博弈。

2026年6月5日

一封由OpenAI、Anthropic、Google DeepMind和微软等AI巨头CEO签署的公开信,正在紧急递交给美国国会。信上的名字包括Sam Altman、Dario Amodei、Mustafa Suleyman、Alexandr Wang和Demis Hassabis,以及DNA合成行业的领军人物。他们发出的警告令人不寒而栗:AI系统如今已在病毒学实验室操作方面超越了博士级专家,这意味着坏分子可以利用AI设计生物武器,而过去保护人类的知识壁垒正在被AI侵蚀。

信中写道:“AI系统现在在高度专业的实验室操作领域,表现优于博士级病毒学家。”这并非危言耸听,而是来自全球最顶尖AI公司领导者的集体呼声。他们敦促国会立即通过立法,强制所有美国的合成DNA和RNA卖家必须筛查每一笔订单、验证买家身份,并记录所有销售数据,确保危险序列可追溯。否则,历史上阻止坏人获得生物武器的知识屏障,将“显著瓦解”。

这封信的意义远超行业呼吁。长期以来,生物武器风险被视为AI进步阶梯上的关键一级——就像AI自我改进(RSI)一样令人担忧。它甚至让平日里立场迥异的Altman和Amodei罕见地站到了一起。问题的核心在于:AI加速的世界正在迫使法律和监管体系以史无前例的速度进化,但立法者的脚步跟得上吗?当AI已经能教坏人如何制造病毒,而我们却还在争论合成DNA要不要登记,这中间的鸿沟或许正是我们最该警惕的。未来的安全,注定不是科技公司的独角戏,而需要整个社会在规则尚未崩塌前,抢先一步按下那个“暂停键”。

2026年6月5日

想象一下,你与ChatGPT的每一次聊天,都像是一块拼图。过去,它只能记住零散的碎片——比如你喜欢喝冰咖啡、计划去日本旅行。但现在,OpenAI推出了一项名为“梦境”(dreaming)的更新,它把这些碎片自动拼成了一幅完整的画像:你的旅行偏好、工作习惯、业余爱好,被分门别类地记录在一份不断更新的“个人简介”里。这不再是简单的事实堆砌,而是一个有生命力的背景档案。

具体而言,ChatGPT现在会为你维护一份动态的书面总结,按“旅行”“爱好”“工作”等类别整理。你可以随时查看、修改这些记忆,甚至告诉它“别聊这个话题”。记忆会随着对话自动调整,越用越精准。根据OpenAI的评估,这项功能让事实性回忆的准确率从41.5%跃升至82.8%,对用户偏好的遵循率也从31.4%提升到了71.3%。目前,这项更新正在美国向Plus和Pro用户推送,免费版和Go版用户以及其他国家将在未来几周内陆续获得。

记忆一直是AI个性化中最难啃的骨头——理论上它能让体验无缝衔接,但过去总显得笨拙。Sam Altman多次畅想过超个性化AI的未来,而“梦境”或许就是那把钥匙:它让AI不仅记住你说了什么,还开始理解你是谁。当你的助手能主动想起你上次聊过的露营计划,并在你下次提到假期时提前推荐装备,那种连续感可能正是用户从其他平台“跳槽”到OpenAI的理由。

记忆像一条看不见的线,把散落的对话串成独属于你的故事。而当一个AI开始记得你的过往,它就不再是一个工具,而是你数字生活里的一本私密日记——只是这本日记,正变得越来越聪明。

2026年6月5日

Anthropic近期发布了一份关于“递归自我改进”(RSI)系统的报告,标题直击要害:“当AI构建自身”。报告引用了Claude在编码领域“接管”的内部数据,并发出警告:完全具备自我改进能力的AI,可能比机构准备好应对它的时间更早到来。

故事要从Claude的惊人成长说起。截至今年5月,Anthropic公司合并的代码中,超过80%是由Claude自主编写的。工程师们在2026年第二季度每天提交的代码量,相比2024年翻了8倍。Anthropic的联合创始人杰克·克拉克在描述这种趋势时写道:“Claude的每一个新版本,都可能由前一个版本在没有人类参与的情况下构建而成。”这意味着,AI不再仅仅是工具,它正在成为自己的设计师和构建者。

这种自我强化的循环并非孤例。就在本周,OpenAI在其“前沿AI的民主治理”蓝图中也明确指出了RSI的迹象,称“今日的系统中已经可以看到RSI的第一缕火花”。更广泛地看,MiniMax等实验室表示,其M2.7模型的一部分代码就是由模型自身帮助构建的,而围绕“自我改进循环”的新兴创业公司也在不断涌现。

然而,Anthropic的态度是谨慎的。他们表示,如果其他实验室也同意放缓或暂停前沿AI的开发,他们愿意遵循这一路径,并计划在未来几个月展开政策讨论,涉及研究、系统及各种可能场景。但问题在于,RSI带来的未知风险令人恐惧,更别提要达成一个依赖全球协调的暂停方案,几乎无法想象。

当AI开始自己决定自己的进化方向,人类的控制权还能维持多久?也许答案并不在代码里,而在我们是否愿意在技术狂奔之前,先系好安全绳。

2026年6月5日

想象你有一个形影不离的AI助手,它记下了你几个月来的对话、偏好和计划。起初它很贴心,但随着记忆堆叠,有些信息互相支持,有些却在不同情境下自相矛盾——昨天说要减肥,今天又想吃大餐。当助手面对这些微妙冲突时,它该如何正确判断?这正是OpenClaw等持久化AI助手面临的真实困境。

然而,现有的长期记忆基准测试几乎从不考察助手如何处理记忆之间的关系。为了填补这一空白,研究者推出了SubtleMemory——一个专门用于细粒度关系记忆辨别的基准。它巧妙构建了一系列受关系控制的潜在语义伪影:有些是互补的,有些是微妙的,有些直接矛盾。这些伪影被嵌入到逼真的用户与助手交互历史中,要求助手在后续的查询和指令里,从分散的记忆碎片中恢复出隐含的关系结构。

基准包含1,522个评估实例,跨越10段长历史,基于1,090组关系控制的记忆变体集合,既有用户相关的查询,也有非用户相关的查询。研究者测试了6个独立的记忆系统、2个自带原生记忆模块的Claw风格智能体,以及3个搭载插件记忆模块的Claw风格智能体。结果令人惊讶:当前所有系统在细粒度关系记忆辨别上均表现薄弱。

更深入的诊断协议揭示了不同阶段的能力画像:记忆保存、检索和下游推理各有短板;有的系统能记住孤立事实,却无法在冲突情境中挑选正确的那一条;有的能检索到所有相关记忆,却不知道如何权衡它们之间的关系。

这就像让一个学生背诵全书却不会运用知识点——AI助手拥有海量记忆,却无法理解其中的矛盾与共识。未来的AI不仅需要记住更多,更需要学会在关系网中明智选择。毕竟,真正的智能,往往藏在那些细微的差别里。

2026年6月5日

在Transformer模型的注意力机制中,查询、键、值(QKV)三个投影是否都可以被简化?一项新研究系统评估了三种共享方案:Q-K=V(共享键值)、Q=K-V(共享查询键)和Q=K=V(单一投影)。其中,Q=K-V和Q=K=V会产生对称注意力图,研究通过2D位置编码解决了这一问题。实验覆盖了合成任务、视觉任务(MNIST、CIFAR、TinyImageNet、异常检测)以及语言建模(300M和1.2B参数模型在10B token上训练),结果发现共享投影的Transformer性能与标准QKV持平,甚至有时更优。具体来说,在语言建模中,Q-K=V共享方案仅以3.1%的困惑度下降为代价,实现了50%的KV缓存减少。更重要的是,投影共享与头共享(GQA/MQA)互补:将Q-K=V与GQA-4结合,缓存减少87.5%;与MQA结合则达到96.9%,使得设备端推理成为现实。研究认为Q-K=V之所以保持质量,是因为键和值可以占据相似的表征空间,且注意力操作在低秩区域进行;而Q=K-V则破坏了注意力方向性。这项工作系统刻画了投影共享作为注意力中未被充分探索的权重绑定实例,直接带来可量化的推理内存收益,尤其对边缘部署价值显著。代码已开源。注意力机制中的每一点冗余都可能成为效率的突破口,而精简后的Transformer,正一步步走向更广阔的应用场景。

2026年6月5日

想象一下,你站在一个陌生城市的街角,目光扫过对面建筑的窗户,然后绕到楼后,试图在另一扇窗户上找到相同的细节——这看似简单的任务,其实需要同时理解几何变化、视角转换、细微纹理和遮挡推理。这正是宽基线匹配(WBM)的核心挑战,也是部署在物理世界中的多模态大语言模型(MLLMs)面临的空间推理试金石。然而,目前的MLLMs缺乏对这一能力的系统评估和训练框架。

为了填补这一空白,研究者推出了ReasonMatch-Bench——一个按视点位移和匹配粒度分层设计的基准,涵盖室内、室外和物体中心场景。测试结果令人震惊:在一个仅包含90个样本的困难子集上,人类标注员能达到84.0的F1分数,而当时最强的现有基线模型却只有37.2——差距超过两倍。这意味着,即便最先进的多模态模型,在涉及大幅视点变化和细粒度对应识别时,仍远远落后于人类的视觉推理能力。

面对这一鸿沟,研究团队构建了一套可扩展的数据生成管道。他们从大规模视频-3D语料库(包括RGB-D视频和运动恢复结构重建结果)中自动提取宽基线视点对,生成了多样且可验证的监督信号。这为后续训练提供了高质量的数据基础。

更关键的是,他们设计了动态对应强化学习(DCRL)方法。DCRL将训练过程拆解为两个核心阶段:图像级视点渐进和点级对应课程。简而言之,模型先从粗略的全局视点变化中学习,再逐步聚焦到具体的点匹配细节,并通过可验证的奖励信号进行强化——全程不需要显式的思维链监督。这种策略让模型在掌握宽基线匹配能力的同时,不会丢失原有的通用视觉理解能力。

大量实验证明,DCRL在ReasonMatch-Bench上带来了显著的性能提升,并且这些提升能够迁移到其他相关的空间推理基准任务中。更令人欣慰的是,模型在多个通用视觉理解基准上的表现不仅没有下降,反而有了小幅增长。

从人类的84分到模型的37分,这场跨越需要的不只是更多的数据或更大的模型,而是对空间关系本质的更深入理解。当机器学会跨越巨大视角差异去识别同一片窗户的纹理时,它离真正理解物理世界也更近了一步。也许,宽基线匹配的每一个像素对应,都是在搭建AI通往真实环境的桥梁。

2026年6月5日

在全息对偶的框架下,物理学家一直在探索封闭宇宙的量子结构。一项新研究在大N对称轨道折叠共形场论中识别出封闭宇宙扇区,这些理论本身具有全息对偶。研究者从种子理论的低能子空间出发,构造张量积态,发现大N希尔伯特空间会分解为一系列由占据数分布标记的超选择扇区。

在施加轨道折叠规范约束之前,这些扇区展现出惊人的规模——它们的维度呈指数级增长,其中最大熵扇区主导了整个未规范化的希尔伯特空间。这个主导扇区表现出封闭宇宙希尔伯特空间的几个关键特征:首先,纯态与混合态在简单关联函数层面变得无法区分;其次,与之相关的算子代数自然地成为超有限II_1型冯诺依曼代数。这暗示着封闭宇宙中信息的“丢失”可能源于这种代数结构的内在抹平效应。

当研究者施加S_N规范约束后,情况发生剧变。庞大的规范冗余极大地削减了独立态的数量。在大N极限下,物理希尔伯特空间的维度仅随N呈多项式增长,每个超选择扇区最终退化为一维。这一结果完美再现了带有虫洞的引力路径积分计算所暗示的定性行为——即封闭宇宙的希尔伯特空间维度远小于未约束时的指数级规模。

有趣的是,该研究揭示了一个重要矛盾:在这个设定中,传统的哈特尔-霍金型半经典近似无法再现CFT的计算结果。传统半经典方法认为封闭宇宙的波函数由某个主导鞍点决定,但CFT结果表明这种近似完全失效。然而,一旦将CFT自由度与外部观察者自由度耦合,引力路径积分计算的主导鞍点近似又被成功重建。

这一发现挑战了我们对封闭宇宙量子描述的直觉。封闭宇宙的量子态可能并非由某个“自然”的半经典波函数主导,而是需要借助外部观测的介入才能恢复引力路径积分的有效性。这或许暗示,即便在一个自洽的封闭宇宙中,观察者的存在并非锦上添花,而是定义量子宇宙学的必要前提。当宇宙与外界失去联系,其内部量子结构的丰富性将掩盖于超选择扇区之中,只有在观测的“注视”下,经典时空的图景才能重新浮现。

2026年6月4日

想象一下,你站在一个房间门口,看到地上有一滩水。你的大脑会立刻预演几种可能:如果直接踩过去,可能会滑倒;如果绕开,需要走多远。这种对未来的“预演”是人类决策的关键,如今研究者正试图让AI也学会类似的能力。

世界模型和多模态大语言模型像一对互补的搭档:前者能生成未来可能场景的视觉动画,比如“如果我把杯子推倒,水会怎么流”;后者则擅长抽象推理,比如回答“这个行为是否符合规则”。然而,世界模型生成的视觉预演就像随机播放电影——画面可能很逼真,但情节却可能完全偏离实际任务。比如AI预测一个机器人把杯子推倒后水会洒出,但实际任务却是“保持杯子稳定”,那么视觉预演反而会误导答案。

这引出一个核心问题:AI该如何判断“何时需要视觉模拟”、“模拟结果是否可信”,以及“如何将模拟融入最终答案”?研究者将其定义为“可控具体推理”——让模型学会主动调用、验证并整合视觉未来模拟,同时结合抽象推理。

为了训练这种能力,团队构建了两个人工验证的基准测试:VRQABench(用于可控制的空间预判,比如“从A点出发,3秒后球会撞到哪个物体?”)和OpenWorldQA(用于开放世界的物理预测,比如“如果把冰块扔进热咖啡,会发生什么?”)。这些任务要求AI不仅输出答案,还要展示推理过程中的视觉预演。

研究者提出的方法名为“特权未来在线策略自蒸馏”。训练时,模型像有一个“作弊指导老师”:老师能看到真实的未来视频和正确答案,用来评估学生模型自己生成的视觉预演是否合理。而学生模型在测试时,只能依靠自己的模拟能力,无法看到真实未来。这种方式迫使模型学会自我纠错。

实验结果显示,这种训练让模型在VRQABench和OpenWorldQA上的准确率分别提升了10.6%和10.9%,并且对噪声或矛盾的模拟结果更加鲁棒——即使视觉预演出错,模型也能通过抽象推理进行修正。

未来已来,但并非照本宣科。当AI学会在脑海中预演多种可能,并懂得何时相信自己的“想象”,它才真正开始像人类一样,在不确定的世界中寻找确定。

2026年6月4日

想象一下,训练一个人形机器人执行复杂的操控任务——比如弯腰捡起地上的水瓶,或者稳健地爬上楼梯——过去需要搭建真实场景、穿戴动作捕捉设备、由操作员远程操控,每一条演示数据都耗资巨大、难以规模化。现在,一项名为GRAIL的数字化生成管道彻底打破了这一瓶颈:它完全在虚拟世界中完成从数据生成到策略训练的全流程,直到部署到机器人那一刻才进入现实。

GRAIL的核心思路是“先确定一切,再生成视频”。它不像传统方法那样试图从混乱的网络视频中逆向解读三维世界,而是先组合好3D模型、场景深度、相机参数,以及一个与机器人尺寸比例一致的数字替身。在视频生成之前,所有几何信息都是精确已知的,这为后续的4D重建提供了完美的先验条件。基于这种特权设定,GRAIL利用模型的目标跟踪、人体运动估计和交互感知优化,从生成的视频中反向恢复出带有公制尺度的人-物交互轨迹,有效消除了深度模糊和形态错配。

这个管道依赖于视频基础模型的生成能力,但巧妙地将“想象”限制在已知三维空间的框架内。GRAIL生成了超过20,000条高质量序列,涵盖五种核心技能:拾取物体、操控物体、坐下、地形行走以及跨越障碍。更关键的是,这些数据可以直接用于训练端到端的视觉策略——GRAIL配备了两个互补的通用跟踪器:一个面向物体感知的潜在适配器用于操控任务,一个面向场景感知的跟踪器用于地形导航。数据经过仿真到现实的迁移,部署在宇树G1人形机器人上。

真实世界的测试结果令人振奋:在多样化的物体拾取任务中,机器人达到了84%的成功率;在爬楼梯任务中,成功率高达90%。GRAIL证明,完全虚拟生成的数据足以让机器人学会在复杂环境中完成精细的全身协调动作,而无需人工干预搭建物理场景或遥控机器人。这条路或许意味着,人形机器人的规模化学习不再受限于装备和场地,而是可以像训练语言模型一样,直接从数字世界中汲取海量经验。

2026年6月4日

在人工智能的模型训练世界里,教师与学生之间的知识传递往往暗藏玄机。传统的在线蒸馏方法(OPD)让一个学生模型在自己的生成轨迹上,接收来自更强大教师的密集token级反馈——这听起来很完美,因为它既避免了监督微调(SFT)中“离策略”的分布偏移,又解决了强化学习(RL)中稀疏的信用分配问题。然而,这个精妙的机制有两个致命伤:第一,它需要直接访问教师每个token的logits,这意味着那些强大的闭源模型(比如Claude、Gemini)只能被排除在教师行列之外;第二,token级的logits信号本身极其脆弱——它依赖于师生之间对下一个token的狭窄重叠,一旦预测出错,就会放大重复等退化模式,让学生陷入死循环。

这正是这篇论文要解决的问题。研究者推出了OmniOPD,一个无需logits、基于块级监督信号的崭新框架。它的核心思路是:用蒙特卡洛展开来模拟教师的局部偏好,通过一个连续的语义相似度指标评估多token块的整体质量,替代了原来脆弱的逐token匹配。更妙的是,一个“峰值熵调度器”像精明的导师一样,只在学生推理中不确定性最高的分叉点上进行监督,把资源用在刀刃上。同时,Dirichlet-Multinomial贝叶斯先验和基础模型KL锚点约束离散采样的方差,防止未经监督的token出现策略崩溃。

测试结果毫不含糊:在多个竞技基准上,OmniOPD在数学任务上比标准OPD高出最多28.64%——这证明了块级语义验证能提取更可靠的学习信号,而token级logits虽信息密度高,却被噪声和脆弱性抵消。更令人兴奋的是,当搭配Claude-4.5-Haiku和Gemini-2.5-Flash这样的黑盒教师时,OmniOPD在数学上又比使用开源权重教师方案额外提升了9.54%,甚至让学生的表现超越了自探索强化学习的水平。

这场蒸馏技术的进化告诉我们一个朴素真理:不要执着于细枝末节的完美对齐,抓大放小、关注全局语义的相似,反而能撬动更大的学习潜力。当信息密度与噪声相伴时,懂得如何“偷懒”才是最聪明的学习策略。

2026年6月4日

斯坦福大学一项研究让16位合同法学教授进行了一场匿名盲测,比较他们自己的答案与谷歌AI系统给出的回答。结果显示,教授们75%的情况下更青睐AI——包括Gemini 2.5 Pro和NotebookLM。这项测试聚焦于合同法的“办公时间”问题,这类问题需要判断力和批判性思维,而非死记硬背的标准答案。

研究者从14所法学院邀请了16位教授,让他们在2918次对决中匿名评判自己的答案和AI的回答。结果令人震惊:AI系统胜出75%,只有一位顶尖教授与AI打平。后续测试引入了一个AI模拟裁判,将范围扩大到9个AI系统,其中Claude Opus 4.7表现最佳,而所有AI都击败了真人教授。

这项研究的意义远超单纯的能力比较。虽然GPT-4等早期模型已能通过律师资格考试,但本次测试将AI置于更复杂、更主观的司法判断情境中——这正是法律教育中师生互动最微妙的部分。AI进入教育领域仍充满争议,但像按需辅导这样的场景,或许能真正改变学习过程。

这不仅是技术的胜利,更是对教育本质的追问:当机器能比老师更精准地解答复杂问题时,我们该如何重新定义“教”与“学”?

2026年6月4日

想象一下,你是个小商家,半夜在Facebook上发布新品,几分钟后就有客户通过WhatsApp询问尺寸和价格,AI代理不仅秒回,还主动推荐搭配商品,直接帮客户完成预约试穿。这不是科幻,而是Meta刚刚全球上线的“商业智能代理”新功能。

Meta在2024年10月曾小范围免费测试这项服务,如今已向全球所有企业开放,覆盖WhatsApp、Instagram、Messenger三大平台。据Meta透露,目前已有超过100万家商家使用该工具。这些AI代理能完成销售、商品推荐、客户线索筛选、预约安排等任务,并且支持多语言对话。如果遇到复杂问题,客户可以随时要求人工客服接管。

更值得关注的是,Meta还推出了独立的“商业代理平台”,允许企业将AI代理接入第三方工具,比如客服系统Zendesk或电商平台Shopify,未来还将支持更复杂的商业运营操作。目前该功能免费起步,但Meta已明确表示会针对不同规模的企业推出付费订阅层级。

为什么这一举动意义重大?Meta的社交帝国本身就是全球商家的流量入口,现在直接把AI销售员嵌入聊天界面,等于在黄金地段开了无限个智能柜台。但问题在于信任。就在本周,有黑客成功骗过Meta自家的客服机器人,让人不禁担忧:商家敢把自家客户交给Meta的AI代理吗?毕竟,客户数据的安全和真实的销售体验,是商业的命脉。

当AI不再只是回答“什么时候发货”,而是主动说“您上次看的包和这双鞋很搭”,商家和消费者都站在了新技术和旧信任的十字路口。商业与人工智能的融合势不可挡,但真正决定未来格局的,或许不是谁跑得更快,而是谁能把信任这个基础打得足够牢。

2026年6月4日

两个图像实验室同时发布了新模型——Ideogram 4.0开源了,Reve 2.0也来了。它们不约而同地推动着一种更注重布局、更可迭代的生成流程,让用户能塞进更多输入,抓住更多创意控制权。

具体来看,Ideogram 4.0一举拿下了开放模型的头把交椅,在Design Arena榜单上仅落后于OpenAI和Google的闭源模型。它在文本渲染、排版和图形设计方面出类拔萃,在Contra的测试中,专业人类设计师对它的偏好甚至超过了顶尖对手。而Reve 2.0则在Arena的Text-to-Image排行榜上超越了Nano Banana 2,爬到了总榜第二,只排在GPT-image-2之后。它的输出像被贴了标签一样,每个部分都能单独调整,用户不用再为一个小瑕疵把整张图推倒重来。Reve把图像当成代码来生成——编辑时不是改提示词,而是直接重写布局;Ideogram则通过JSON实现了类似的思路。

这些新能力的意义远不止画质提升。图像模型早已告别了“老虎机”时代——那时你唯一能做的就是一次次拉杆,盼着提示词掷出个好结果。真正的跃迁在于颗粒度的控制和修改,而这些过去人们得跳到别的应用里才能完成。对于Ideogram,开源权重本身就是故事:它证明了开源距离前沿并不遥远。

2026年6月4日

今天的视频模型像是患上了“短暂记忆症”:生成几分钟的内容便会遗忘开头,误差像滚雪球般越积越大。大多数方案只能依赖预先设计的缓存策略——要么固定每几帧压缩一次,要么在推理时调整位置编码——但无论哪种,都在本地窗口被撑满时不可逆地丢掉了历史信息。科学家们想到,人类大脑如何持续几十年记事情?靠的不是无限容量,而是不断巩固与抽象,把无关细节过滤,只留下核心模式。

受此启发,研究团队提出了Echo Infinity,一个自回归框架,能实现真正实时的无限视频生成。它的核心是一个“可学习的进化记忆”——一组专门用来记忆过去内容的查询向量。每当旧帧被推出局部窗口,这些查询就会通过注意力机制和门控机制自动更新,把关键信息提炼成紧凑的表示。整个过程不依赖任何手工规则,全凭视频扩散Transformer(DiTs)端到端优化,计算开销恒定,不受视频长度影响。更有趣的是,这些记忆查询还能充当可泛化的生成先验,即使只使用优化后的初始状态,也能提升生成质量。

另一个关键创新是“统一相对RoPE”方案。以往模型的位置编码有固定上限(比如最大4096个位置),一旦生成超过这个长度就只能强撑,导致训练和推理之间出现鸿沟。Echo Infinity把初始帧固定在ID 0,让最新帧的ID最多增长到DiTs预训练的最大时域RoPE ID,这样模型彻底摆脱了有限RoPE束缚,训练时的位置范围也能推理时无缝延续。

在长短视频生成的基准测试中,Echo Infinity达到了当前最优性能。更重要的是,它首次展示了超过130万帧(相当于24小时)的实时推出效果,且没有明显质量衰减。这意味着,未来的AI电影不再是剪辑好的片段,而是一场永不落幕的实时直播,一个永远凝固又永远流淌的梦境。或许,当机器学会了如何像人类一样遗忘与提炼,它才真正拥有了跨越时间的想象力。

2026年6月3日

想象一下,你正站在一个巨大的训练场上,面前是20亿帧来自不同动作捕捉系统的运动数据——有人类行走、奔跑、跳跃,也有复杂舞蹈和武术。这些数据曾属于不同实验室、不同设备,各自为政,从未被整合。传统方法试图用浅层MLP网络学习全身控制,却常常陷入两难:要么只擅长少数动态动作,要么只能泛化到简单场景,始终无法兼得。但一项名为Humanoid-GPT的研究,彻底打破了这一僵局。

研究人员构建了一个类似GPT的Transformer模型,采用因果注意力机制,首次将整个人形机器人运动控制的预训练数据规模提升到20亿帧(2B-frame)。这个语料库不仅整合了所有主要公开动作捕捉数据集,还加入了大规模内部录制的运动数据,通过统一的重定向流程形成标准化的训练材料。当模型规模和数据容量同时扩展时,奇迹发生了:单一Transformer学会了跟踪高度动态的行为——比如急速转身、连续起跳——同时展现出前所未有的零样本泛化能力,直接将所学知识迁移到从未见过的动作和控制任务上。

之前的方法往往受限于数据稀缺,导致模型要么在敏捷性上突出但泛化差,要么泛化好但动作生硬。Humanoid-GPT通过预训练解决了这一敏捷-泛化权衡。大量实验和缩放分析显示,该模型在多个基准测试中建立了新的性能前沿:它不仅能鲁棒地应对未见任务,还能保持对高度动态和复杂运动的精确跟踪。简单来说,这个AI控制器就像一位接受过百亿次模拟训练的舞者,无论面对何种新舞步,都能即时做出协调反应。

这项突破的意义在于,它将人形机器人从“预设程序”的牢笼中解放出来。未来,机器人或许不再需要针对每个新动作单独编程,而是像人类一样,通过大规模经验学习实现真正的适应性控制。这不仅是技术边界的拓展,更是人机协作新可能性的开端——当机器学会“举一反三”,它们与我们的世界将更加无缝契合。

2026年6月3日

在视频推理领域,我们总希望模型能像人类一样,不仅生成流畅的画面,更能理解规则并完成任务。然而,当前最先进的视频生成模型虽然视觉质量出色,却常常在逻辑上“翻车”——它们难以跟随任务特定的规则,导致推理场景中频频出错。过去,研究者们尝试让视觉语言模型作为“预解者”,为视频生成模型提供文本指导。可文本描述抓不住复杂的时空细节,即便有了完美的计划,视频生成模型也难以忠实执行那些精细或冷门的指令。

现在,一项新研究颠覆了这一思路:既然视觉语言模型作为求解者不够给力,那么何不让它们发挥强大的感知能力,转而扮演“教师”的角色?这位教师提取任务规则,将其转化为可微分的奖励信号,在测试时动态优化视频生成模型的一个轻量级LoRA模块。这样一来,视频生成模型不再被固有的能力边界所困,而是在实际推理中完成自适应优化。

在符号视频推理基准VBVR-Bench和通用视频推理基准RULER-Bench上,这一方法平均提升了16.7个百分点,远超传统“VLM作为预解者”范式的+0.4点,以及简单的最佳N次采样缩放策略的+2.2点,而测试时间成本几乎相同。这告诉我们,有时换个角色,让视觉语言模型从“做题家”变成“评分员”,反而能打开视频推理通往更广阔通用性的道路。

每个失败的计划背后,都可能藏着一位更善于发现错误的老师。

2026年6月3日

在人工智能领域,让一个大模型(教师)去教会另一个更小的模型(学生)是一种常见且高效的后训练方法,称为“同策略蒸馏”(On-Policy Distillation, OPD)。它被广泛应用于智能体学习、多任务增强和模型压缩等场景。但实践中,当教师和学生的知识分布差异较大时,OPD训练会变得极其不稳定。为什么?因为如果用教师来监督学生自己生成的token,这些监督信号可能并不靠谱——教师觉得理所当然的步骤,在学生看来可能完全是陌生的领域,由此产生的策略梯度会指向错误方向,甚至导致整个优化过程失败。

为了解决这一核心矛盾,研究者们提出了一种名为TrOPD(Trust Region On-Policy Distillation)的新方法。它从信用赋值的角度切入,强调在可靠的监督区域内进行学习,而非盲目地全盘接受教师指导。TrOPD包含三个关键设计:第一,信任区域同策略学习——只有当教师能给出可靠监督时,模型才执行OPD训练,以此来缓解分布不匹配下K1反向KL估计器带来的优化困难。第二,异常值估计——对于那些差异极大的“异常”区域,系统会采用梯度裁剪、掩码处理或直接切换为前向KL估计,以降低不可靠监督的负面影响。第三,离策略引导——学生模型会从教师生成的前缀文本继续生成,并通过前向KL损失模仿教师的离策略输出,从而鼓励学生主动向那些可靠的同策略区域进行探索。

实验结果显示,在数学推理、代码生成以及通用领域的多个基准测试中,TrOPD始终优于当前最先进的OPD基线方法,包括OPD、EOPD和REOPOLD。

大模型学习的过程,从来不是简单的“复制粘贴”。只有当教师真正理解学生的认知边界,并提供恰到好处的引导时,知识才能顺利传递。如果我们一味施加超出学生能力范围的指导,结果只会让双方都陷入混乱。信任区域的选择,或许正是让AI更聪明、更稳定成长的关键一步。

2026年6月3日

在机器人操作领域,一个核心挑战是如何让模型在执行动作之前就能预判未来后果。为此,研究人员推出了τ0世界模型(τ0-World Model),这是一个统一的视频-动作世界模型,将策略学习、视频预测和动作评估整合进一个未来预测框架之中。它基于共享的视频扩散骨干网络,提供了两种互补接口。一是视频动作模型,能从多视角观测、语言指令和机器人状态中联合预测未来的视觉潜变量和连续的机器人动作块;二是动作条件视频模拟器,能将候选动作块展开为多视角未来视频,并预测密集的任务进度分数。该模型依托约27,300小时的训练数据,包括真实机器人遥操作、UMI风格交互、以自我为中心的人类视频以及各种失败轨迹,并采用模态特定的监督掩码进行训练。在推理时,τ0世界模型利用测试时的计算能力采样候选动作,通过重去噪一致性进行排序,并对低质量候选调用模拟器修正。在长时程和精细化的机器人操作任务中,它展现出优于其他基线的性能。
这种将预判能力嵌入机器人操作的方式,让机器不再盲目执行,而是在行动前“想象”未来。未来或许正是那些能够“思考”后果的机器,才能真正走向自主。

2026年6月3日

大型语言模型智能体在执行复杂长程任务时,越来越依赖可复用的外部技能。然而,现有的训练无关技能适应方法往往从完整轨迹或会话级反馈中更新技能,导致故障归因粗糙,修正结果常不稳定或过于宽泛。为了解决这一痛点,研究团队提出了SkillAdaptor——一个无需训练、基于步骤级显式故障归因的技能适应框架,它能无缝接入OpenClaw类智能体工具包。当智能体执行失败后,SkillAdaptor会定位第一个可操作的故障步骤,将该步骤的责任关联到候选技能,并在保持骨干模型冻结的前提下,通过显式接受检查执行针对性更新。实验在三个基准套件上展开:WebShop、PinchBench和Claw-Eval,分别搭配Kimi-K2.5、GLM-5和GPT-5.2模型。结果显示,SkillAdaptor在所有三个测试集上均优于无技能和传统技能适应基线,其中在PinchBench平均分上提升1.5个百分点,在Claw-Eval平均分上提升1.8分,在WebShop成功率上提升1.7个百分点。这些数据表明,步骤级归因能够支撑更稳定、更可审计的训练无关技能维护机制。当智能体学会从一次微小的步骤偏差中自省,而不是对整个失败轨迹全盘重写,它便获得了更精细、更可信的成长路径。

2026年6月3日

在生成式AI加速的赛道上,研究者们一直试图用“少步蒸馏”让视觉模型跑得更快——只需几步推理就能生成高质量图像。但有趣的是,大家的目光几乎都盯着蒸馏目标的设计,却很少有人追问:学生的成功,到底是被“教什么”决定的,还是被“怎么教”决定的?

一个来自Qwen团队的研究给出了意想不到的答案。他们以自家的Qwen-Image-2.0模型为实验平台,系统解剖了少步蒸馏中的三个隐秘因素:数据如何组合?教师输出的尺度该如何选用?以及编辑任务与生成任务混在一起训练时,比例怎么调?结果令人惊讶——这些训练配置中的细节,比蒸馏目标本身更关键地影响着学生模型的性能。比如,不同任务混合比例会导致模型在文本到图像生成与指令引导编辑之间出现跷跷板式的表现,而教师输出的选择(如用连续得分还是离散预测)也会带来非直觉的行为偏差。

基于这些发现,团队不仅提出了新的训练配方,还推出了名为Qwen-Image-Flash的高效模型。它证明了一个容易被忽略的道理:先进的蒸馏技术固然重要,但如果训练管线的组织方式漏洞百出,再精巧的目标函数也无法施展拳脚。

技术世界里,最亮的聚光灯往往打在算法创新上,但那些被默认忽略的“训练细节”,才常常是决定成败的暗礁。真正的高效,从来不是单一变量的优化,而是整个流程的深思熟虑。

2026年6月3日

科学家们训练搜索代理时,往往让它一边决定如何搜索,一边记住自己看过什么、哪些证据有用、还有哪些约束未解决、哪些声明已被核实。这种将大量常规状态管理塞进策略的做法,被认为让强化学习同时优化语义搜索决策和可恢复的簿记工作,而后者本可以由环境更可靠地维护。于是,一种名为Harness-1的20B参数搜索代理应运而生,它在一个带状态搜索框架内接受强化学习训练。

这个框架承担了环境侧的工作记忆:维护候选池、带有重要性标记的精选集、紧凑的证据链接、验证记录、压缩和去重后的观察结果,以及基于预算的上下文渲染。而策略仅保留语义决策:搜索什么、保留或丢弃哪些文档、验证什么、何时停止。这种分工让Harness-1在涵盖网络、金融、专利和多跳问答的八个检索基准测试中,平均精选召回率达到0.730,比次强的开源搜索代理高出11.4个百分点,并且能够与体量大得多的前沿模型搜索代理一较高下。

尤其值得一提的是,它在保留的迁移基准测试上表现格外亮眼,暗示着基于显式搜索状态的强化学习能够产生超越训练领域的一般化检索行为。当状态管理被明确地交给环境,策略得以专注于更高层次的判断——这或许正是搜索代理摆脱规模竞赛、走向智能化的关键一步。毕竟,聪明地搜索,比单纯记住更多细节更重要。

2026年6月3日

有一种AI,不再需要为不同感官分别设计不同的“大脑”——它同时理解文字、看懂图片、解析视频、听懂声音,甚至能预测并产生行动。这就是Cosmos 3——一个全模态世界模型家族。它通过统一的混合Transformer架构,将语言、图像、视频、音频和动作序列的输入输出整合在一个框架内,无缝融合了视觉语言模型、视频生成器、世界模拟器和行动决策模型。

研究团队在多项理解和生成任务中进行了严格评估。结果显示,Cosmos 3在多样化任务中均树立了新的最佳水平,证明了全模态世界模型可以成为实体智能体可扩展的通用骨干网络。在技术报告撰写时,其后训练模型被Artificial Analysis评为最佳开源文生图和图生视频模型,同时被RoboArena评为最佳策略模型。这一成绩意味着,从合成数据生成到机器人策略学习,Cosmos 3都展现出了领先性能。

更有意义的是,研究团队选择将全部成果开源以加速物理AI的发展。他们发布的资源包括代码、模型检查点、精心策划的合成数据集以及评估基准,均托管于Linux基金会的OpenMDW-1.1许可之下。这意味着全球研究者可以自由使用、修改和扩展这些工具,无需从头训练。

世界模型从单一模态走向全模态融合,是迈向通用智能的必经之路。Cosmos 3证明了这条路不仅可行,而且高效。当AI能同时“看见、听见、读懂并行动”,它与人类协同的未来将不再遥远。

2026年6月3日

我们正在进入一个机器不仅能听懂语音,还能分辨环境音和音乐旋律的时代。最新发布的MOSS-Audio正是这样一个统一的音频语言模型,它就像一位全能的听觉助理,可以理解你说话的内容、周围环境的声响,甚至一首歌的节奏和情感。这个模型能做的事令人印象深刻:它不仅能为一段音频生成准确的文字描述,还能回答与时间相关的问题,比如“在第几秒出现了狗叫声?”;它可以把语音精确地转录成文字,并带上时间戳,记录每一句是在什么时候说的;更厉害的是,它能进行基于音频的推理——比如听到雨声和车流声后,推断出场景是雨天街头。

支撑这一切的是两个精巧的设计。第一个叫“DeepStack跨层特征注入”,这相当于让大语言模型可以从音频编码器的不同深度获取声学信息,而不是只看最后一层。这样一来,模型既能抓住粗颗粒度的声音轮廓,也不会遗漏微妙的音色细节。第二个是“时间标记”,简单来说,模型在音频数据流中插入了显式的时间戳标记,就像给声音贴上了一个个时间标签,让它能够精确地定位每一个事件发生的时刻。

为了训练这个模型,研究者们设计了一套聪明而细致的数据处理流程。他们会先对音频进行“事件保留分割”,保证每一段都完整地包含一个声音事件,比如一段完整的对话或一首完整的音乐,然后再针对不同分支进行专门标注:语音部分标注说话内容,音乐部分标注旋律和风格,环境音则描述声源。最后,这些分支标注会被合并成统一的字幕,用于预训练。更重要的是,中间的分支特定字幕也被保留下来,用来构建任务导向的监督微调数据。

整个模型经过了大规模音频-语言数据的预训练,其中特别加入了时间感知的目标函数,让模型学会时间定位;随后又进行了多阶段的后训练,进一步提升它遵循指令和进行音频推理的能力。最终的成果有4B和8B两种参数量版本,分别提供“指令”和“思考”两种配置,以适应不同场景的需要。在通用音频理解、语音字幕、自动语音识别以及带时间戳的语音识别等任务上,MOSS-Audio都展现出强劲的性能,为未来更智能的语音代理打下坚实的基础。

如果说过去的音频模型像是一本有声词典,只能查词句,那么MOSS-Audio更像是一个善于倾听和思考的伙伴,它让机器开始理解声音的维度和秩序。时间戳让它知道“何时”,DeepStack让它明白“何意”,而统一的框架让它能跨越语言、噪声与旋律的边界。当技术与叙事相遇,每一段声音都将拥有被完整解读的可能。

2026年6月3日

过去,参数高效微调(PEFT)一直被当作全量微调的廉价替代品——省算力、省时间,但总被看作“缩水版”。如今,一项新研究颠覆了这一认知:PEFT的真正潜力,在于成为持久个性化模型的紧凑基底。

核心思想很简单:将大型的基础模型视为共享的“通用大脑”,而每个用户或任务则通过极小的适配器(Adapter)携带专属的“记忆芯片”。这种适配器不是临时补丁,而是持久的本地状态,记录着个人偏好、技能习惯、工具使用模式,甚至类似记忆的更新。基础模型提供共享能力,适配器则赋予实例特定的行为。

研究围绕三个缩放轴展开探索:Scale Up(向上缩放)——更强的共享先验知识,能让更小的局部更新发挥更大作用;Scale Down(向下缩放)——挑战适配器的极限,探索它究竟能缩到多小仍保持可靠性;Scale Out(向外缩放)——让成千上万个持久的适配实例共存,各自管理自己的身份与演进。

为了实现这一愿景,团队开发了MinT基础设施,专门处理适配器的身份管理、版本修订、来源追溯、效果评估以及服务驻留。这意味着,每个适配器都可以像独立软件包一样被追踪、部署和迭代,而无需改动庞大的基础模型。

传统上,我们为了个性化往往需要为每个人微调整个模型,成本高昂且难以维护。而PEFT的新范式,将个性化嵌入到极小的适配器中,实现了“模型共享、个性分离”。这不仅是成本的优化,更是架构思维的转变:从“为每个用户造一个模型”走向“一个大脑,无数记忆卡”。

最终,这项研究暗示了一个更优雅的未来:PEFT不再只是预算紧张时的备选方案,而是构建持久、可扩展、专属于每个用户的AI系统的理想基石。当每个适配器都能承载独一无二的经验与习惯,我们离真正的“千人千面”人工智能,或许只差这些小巧而强大的记忆芯片。

2026年6月3日

逆图形学是一个古老而高度欠约束的问题,目标是让计算机能从一张照片反向推算出背后的可编辑3D场景,实现渲染、重打光、物体操控等操作。过去研究者们往往依赖专门的2D或3D基础模型、可微渲染技术或者多视角的监督信号,然而这些方法要么需要大量标注数据,要么在面对复杂光照和材质时捉襟见肘。

现在,一个名为“分阶段可执行逆图形”(SEIG)的新框架跳出了这些限制。它利用预训练的视觉语言模型(VLM),比如GPT-4V,让模型像一位数字雕塑师一样,从一张单视角图像出发,逐步在可执行的Blender程序代码空间中构建场景。整个过程被拆解为四个阶段:先大致定位物体的几何形状,再确定表面的材质属性,接着调整场景中物体的布局和遮挡关系,最后添加光影信息。每个阶段,模型都会审视自己已有的成果,并修正下一步的细节。

在实验测试中,研究人员把SEIG生成的3D场景与真实场景进行了像素级、感知层和语义层的多重对比。结果发现,没有这种分阶段拆解思路时,模型生成的场景往往会出现几何错位、材质漂移甚至光源方向相反的问题;而经过一步步迭代修正,保真度出现了显著提升。例如在一张杂乱桌面的照片上,SEIG能正确区分出金属玩具的镜面反射和旁边塑料杯的漫反射,连桌布上的褶皱阴影都被还原为合理的环境光遮蔽效果。

更令人兴奋的是,这些重建出的场景是真正的可编辑Blender文件。用户可以直接修改材质的颜色,调整光源的强度,甚至把场景中的茶杯旋转一百八十度,所有操作都像在专业软件里一样自然——而这一切的起点,只是一张普通手机拍下的照片。这项研究预示着一个可能性:未来的创作者或许不需要繁琐的建模流程,只需对着实物拍张照,AI就能帮你变出可任意玩耍的3D数字孪生。

这个能力足以让人重新思考“看见”与“理解”的边界。当模型不仅能识别照片里的是一只猫,还能推测出它绒毛的材质、身后的阴影来自哪个方向,甚至把这一切变成一串可以编辑的代码,我们离真正的视觉智能或许比想象中更近。每一次对场景的逐步拆解,都是让机器学会像人类一样“拆开再组装”世界的一个小脚印。

2026年6月3日

理解一段视频,远不止识别几个孤立瞬间。人类能持续追踪画面中物体、状态和事件的变化——这种能力被称为视觉状态跟踪,它是视频理解的基石。然而,当前对多模态大语言模型(MLLM)的评估却很少触及这个能力。为此,研究者提出了一个名为VSTAT的视频基准,专门诊断MLLM在视频中的视觉状态追踪表现。

VSTAT由834个视频片段组成,既有合成场景,也有真实世界画面,并配有1500道精心设计的题目。这些题目无法从任何单一帧或短片段中得出答案,必须依赖对整个视频流中事件的连续感知和整合。例如,观看一段打篮球的录像,模型不能只靠某一次投篮动作就推断比赛结果,而要持续跟踪球权变换、球员跑位和得分变化。

令人惊讶的是,尽管当前最先进的MLLM在现有视频基准上表现强劲,但在VSTAT上却远不及人类——它们仅略优于基于答案先验的基线模型。研究者深入分析了这一差距,将MLLM的思维轨迹与底层视频流进行对比,发现模型在文本推理层面能够正确描述和追踪变化,但在实际视觉感知环节就失败了。换句话说,模型知道该看什么、该追踪什么,但眼睛“看不见”关键画面。

进一步的初步评估显示,近期热门的智能体方法,包括基于MLLM的视频代理和编码代理,也无法轻易解决这一问题。它们同样在VSTAT上表现欠佳,说明当前主流技术路线在视觉状态跟踪上存在根本性短板。

这项研究给火热的多模态大模型敲响了一记警钟。当模型能游刃有余地回答“视频中有什么”,却难以回答“视频中什么在变化、如何变化”时,我们或许该重新审视:真正的视频理解,究竟离我们还有多远?毕竟,如果连人眼最基本的跟踪能力都难以企及,那么再华丽的推理也只是空中楼阁。

2026年6月3日

在机器人学习领域,一个长期困扰研究者的问题是:语言指令描述的是语义目标与事件,视觉系统捕捉的是连续变化的场景动态,而机器人动作却运行在毫秒级的控制时间尺度上。以往的“世界动作模型”试图将这三者强行塞入同一个固定长度的预测窗口,结果导致模型只会做短视的“相关拟合”——就像让一位马拉松运动员、一位短跑选手和一位散步的老者必须踩着完全相同的节拍前进。这种粒度错配,正是制约机器人泛化能力提升的隐形瓶颈。

WALL-WM(World Action Model)给出了一个截然不同的解法:让动作学习围绕“语义事件”展开。研究团队提出,与其用固定长度的动作块作为学习单元,不如将视频和动作数据组织成有意义的、语义连贯的事件。比如,“拿起杯子”是一个完整事件,其内部的动作时长可以变化,而不必被机械地切成固定帧数。为此,他们设计了事件驱动的视觉-语言-动作预训练方法,并配套构建了包含事件级描述和聚类平衡采样的数据生态系统。这套系统能够在大规模、多样化的场景和任务结构中进行可扩展学习,让模型真正理解行为背后的意图而非只有局部相关。

更巧妙的是,从同一套预训练骨干网络出发,WALL-WM支持两种互补的推理模式。在事件模式下,模型消耗下一事件的文本描述,自主决定执行多少个时间步的动作,实现可变长度的动作执行。在统一模式下,模型借助一个视觉语言模型与“阶梯解码”策略,既能兼容传统的固定长度动作块推理,又保留了一条梯度连续的视觉-语言-动作路径。此外,研究团队还引入了基于Muon优化器的大规模预训练基础设施,为通用世界动作模型提供了一套实用的扩展配方。

实验结果令人振奋:在真实世界的大规模泛化评估中,WALL-WM在跨语言、跨场景、跨任务维度上均展现出了前所未有的广度与性能,达到当前最先进水平。它不是简单地“刷榜”,而是证明了语义事件作为学习原子单位的可行性。

或许,真正的智能不在于学会每一帧的动作,而在于理解每一个事件的起承转合。当机器不再被固定窗口束缚,而是跟随事件的脉络灵活应变,人与机器的协作将不再是僵硬的指令执行,而是富有节奏的共舞。

2026年6月3日

想象一下你走进一个陌生的房间,手里拿着一张照片,你需要通过移动身体、转动头部,直到你看到的场景与照片完全一致。对人类来说,这几乎是与生俱来的能力,眨眼间就能完成。但如果让一个AI去做同样的事呢?它需要在三维环境中主动调整自己的视角,每一步都依赖对空间的理解和对视觉信息的记忆。这不再是被动地分析一张图片或一段视频,而是真正的主动感知与行动。

这正是研究人员提出的新任务——目标视角复现。他们把这一挑战命名为TVR,并搭建了名为TVRBench的室内仿真基准测试。在这套系统里,AI被置于一个三维房间或跨多个房间的复杂环境中,每次任务都给定一张目标图像,AI必须通过连续的动作(如向前走、向左转、向右转身)来改变自己的观察,直到它实时看到的画面与目标图像高度一致。整个过程没有地图、没有导航路径,只有纯视觉输入和自身的运动指令。

为了衡量AI的真实能力,研究团队测试了当前最强的开源和闭源模型。结果令人震惊:在测试集中,最好的开源模型成功率只有7.8%,而闭源模型也只有12.0%。换句话说,超过88%的情况下,AI都无法准确复现目标视角。这暴露了一个根本性问题:现有的大模型在处理多轮视觉历史时表现糟糕,尤其是在需要身体平移而非原地旋转时,模型几乎无法正确理解空间上的差异与运动之间的映射关系。它们可以认出“这是什么”,却不知道“我应该怎么动才能看到那个东西”。

为了找到缩小这一差距的方法,研究者构建了一个统一的后训练框架,包含四个主要环节:基于专家轨迹的监督微调、基于推理链的监督微调、离线单轮GRPO强化学习,以及在模拟器实时交互中的多轮GRPO强化学习。结果表明,视觉与动作联合的监督微调贡献了最主要的提升:一个9B参数的开源模型,经此训练后成功率飙升至50.8%。而在此基础上加入实时交互的多轮GRPO,性能进一步提升到51.4%。有趣的是,推理链监督和单轮GRPO反而会降低闭环控制中的表现——在复杂的空间任务中,AI并不能总是从“分析自己的思考过程”中获益,依赖实时试错的强化学习反而更容易陷入局部最优。

这些数据不仅揭示了当前AI在空间智能上的短板,也指出了可能的突破方向:从被动理解走向主动行动,需要更丰富的视觉历史建模,需要动作与感知的深度融合,也需要更合适的训练策略。TVRBench就像一面镜子,让研究者看清了地基模型在三维世界中的真实水平。当AI能够在虚拟房间里自如地复现任何一个视角时,我们离它真正理解并融入物理世界,也不再遥远。这是一个需要耐心和创造力的征程,但每一步踏实的实验,都在为未来铺路。

2026年6月3日

在零样本语音合成领域,扩散模型在VAE潜在空间或mel频谱图上运作,已成为主流范式。这些压缩表示虽提升了生成效率,却无可避免地遭遇信息损失和端到端训练缺失的困境。理论上,直接建模原始波形能避开这些问题,但这一方向始终少人问津——因为音频信号的序列长度实在太长了,仿佛一道天堑。

想象一下,你试图一笔一画地描绘整个交响乐团的演奏,而不是用简化的乐谱。这就是直接生成波形面临的挑战。但WavTTS团队偏偏选了这个看似不可能的路。他们提出第一个在原始波形上生成语音的TTS模型,凭借流匹配与扩散变压器(DiT)的巧妙结合,大胆地用简单的分块化策略直接建模波形,同时引入多尺度mel频谱图监督,在训练中提供感知层面的引导。这不再是黑箱压缩,而是让模型在原生空间中学习和创造。

更关键的是,他们深入研究了波形扩散中预测目标和噪声调度的作用,设计出有效调度方案来提升生成质量。实验在开源基准上展开,结果令人振奋:WavTTS不仅紧密追赶上当前最先进的潜在空间零样本TTS模型,更大幅超越了此前所有端到端语音生成模型。这证明,直接缩放扩散TTS到波形空间,不仅是可能的,而且可以走得很远。

每一步探索都在重写边界。或许,最直接的路,才是通往真实声音的捷径。

2026年6月3日

在好莱坞不少人对AI如临大敌时,奥斯卡获奖导演马丁·斯科塞斯却悄然跨出了一步。他公开了自己的新身份:AI图像初创公司Black Forest Labs的顾问,并发布了一段视频,展示他如何用该公司的FLUX模型为一部新电影绘制故事板。

斯科塞斯去年便与Black Forest Labs签约,成为其合作伙伴和顾问。他的使用场景很明确:仅用于电影前期制作的故事板,绝不生成演员、布景或实拍素材。当导演能瞬间将脑海中的画面变成可视化的分镜,并与团队共享,斯科塞斯称之为“创意上的解放”。在他看来,电影这门艺术还很年轻,只有约125年历史,“所以我们必须对它的进化保持开放”。

这条消息很可能刺痛好莱坞那些反AI的神经——毕竟斯科塞斯是这个行业中拥有传奇地位的标杆人物。但他的做法恰恰提供了另一种解读:AI不是要取代电影人的创意,而是辅助它,让前期预演更高效、更直观。对那些对全AI电影或AI工作室心存疑虑的电影人来说,这或许是一个更温和、更可接受的入口。

技术的意义不在于它多强大,而在于用它的人如何划定边界。斯科塞斯把AI当作一支新的铅笔,而不是一台替自己作画的机器。这种“有限度的拥抱”,或许才是创意行业与新技术共存的正确打开方式。

2026年6月3日

美国总统特朗普签署了一项行政令,要求开发前沿人工智能模型的实验室在发布前,自愿将模型交给政府进行为期30天的安全审查。这与此前预期的90天要求相去甚远。在5月21日计划举行签字仪式前的几个小时,特朗普废除了90天草案,他告诉记者,这一要求会“妨碍”美国与中国的AI竞赛。根据新令,实验室需在发布前30天内,通过一个保密流程标记“受覆盖的前沿模型”,这些模型被认为有能力发现安全漏洞。此前担任AI事务负责人的戴维·萨克斯曾反对最初的草案,但在审查窗口从90天缩短至30天后转变了立场。行政令还明确规定,新模型无需强制许可或批准,并指示司法部打击利用AI进行的计算机系统入侵。随着Anthropic的Claude Mythos即将公开发布,而GPT-5.6也可能具备类似能力,网络安全威胁变得非常真实且迫在眉睫。然而,这项行政令看起来更像是政府试图在AI前沿领域获得一个(自愿的)前排座位,而非真正解决潜在安全问题的手段。这场博弈的实质,是安全与速度之间的拉锯。当技术狂奔时,监管者既想抓住缰绳,又不敢勒得太紧。

2026年6月3日

在2026年的Build开发者大会上,微软掀起了一场全栈智能体AI的浪潮。这家科技巨头一口气发布了七款名为MAI的自研模型,覆盖推理、编程、图像、语音和转录等多个领域,开发者可以通过微软Foundry平台直接调用。更引人注目的是,微软推出了首个“自动驾驶”智能体——Scout,它基于OpenClaw架构,内置于Teams中,能主动执行会议安排、资料准备等任务。与此同时,量子芯片Majorana 2的亮相令人振奋——这款由AI辅助设计的芯片将可靠性提升了1000倍,有望将实用量子计算机的实现时间缩短至2029年。在硬件方面,微软预览了名为Project Solara的智能体设备平台,并展示了徽章和桌面伴侣等概念设备。继Surface Laptop Ultra之后,微软还推出了专为AI负载打造的迷你PC——Surface RTX Spark Dev Box。

这一切都发生在Nvidia的“大日子”之后——Build大会紧随其后的时间点显得意味深长。微软不仅延续了智能体的主题,还与Nvidia合作开发AI笔记本电脑和PC。凭借自研模型、自主智能体和专用硬件,微软正在摆脱OpenAI的阴影,开辟一条全新道路。当智能体不再只是聊天机器人,而是能主动替你安排行程、设计芯片、甚至成为你身上的徽章时,我们或许正站在计算革命的门槛上。问题是:谁将真正掌控这些智能体?微软的回答是Windows和Microsoft 365,但答案才刚刚开始书写。

2026年6月3日

胰腺癌,这个被称为“癌王”的恶性肿瘤,几十年来一直让医生和患者感到绝望。它极具侵袭性,传统化疗效果有限,靶向治疗更是屡屡碰壁。直到最近,一款名为daraxonrasib的口服小分子药物悄然登场,在500名患者的3期临床试验中,它首次将转移性胰腺癌患者的中位总生存期从化疗的6.7个月拉长到13.2个月,几乎翻了一倍。

这组数字背后是一个个真实的人生。参加试验的患者都是经过前线治疗后病情仍进展的难治性病例,而daraxonrasib作为每日一次的口服RAS抑制剂,交出了令人震惊的成绩单:死亡风险降低了60%,肿瘤无进展生存期从化疗的约3.6个月提高到7.2个月。更重要的是,约三分之一的患者用药后影像上肿瘤缩小超过30%,而化疗组这一比例仅约8%。副作用方面,daraxonrasib比化疗更温和,患者的耐受性明显更好。

这颗药的聪明之处在于精确打击。胰腺癌中约90%由KRAS基因突变驱动,而daraxonrasib恰恰是首个靶向KRAS蛋白活性状态的RAS(ON)抑制剂,相当于直接掐断癌细胞的“生长开关”。此前,KRAS突变蛋白被认为是“不可成药”的靶点,但近年来一系列进展正在改写这一认知。目前该药已获得美国FDA快速通道资格,并开放了扩大使用计划。

为什么这个突破如此重要?因为胰腺癌对靶向药物的抵抗已经持续了数十年。60%的死亡风险降低,是任何3期试验中从未见过的数字。更令人期待的是,相同的KRAS突变也存在于肺癌、结直肠癌等高发癌症中,这意味着daraxonrasib验证了一条全新的治疗路径,可能为更多癌种带来希望。当医学终于撬动那个最顽固的靶点,我们或许正在见证一个治疗时代的拐点。