EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年6月17日

长期以来,计算机视觉面临一个根本性难题:理解图像和生成图像往往被当作两个独立任务,各自依赖不同的视觉分词器。这种割裂不仅让表征空间分裂,更阻碍了真正统一的视觉模型诞生。如今,一项名为UniAR的新工作试图打破这一僵局——用一个自回归框架、一套离散视觉分词器,同时驾驭理解与生成这两项能力。

研究团队的核心洞察在于:关键不在堆砌更多模块,而在于让模型能够“自读自写”。具体做法是,他们改造了一个预训练的视觉编码器,引入多级特征融合,将高层语义与低层细节打包在一起;同时采用一种查找免费的比特量化方案,在不显著增加成本的前提下,大幅扩展有效视觉词汇量。这使得一个分词器既能精细记录图像纹理,又能抓住抽象概念。

为了避免生成过程缓慢、序列过长,UniAR设计了并行比特预测机制。模型不再逐个像素预测,而是同时预测空间分组的多级视觉码,生成速度因此显著提升。之后,一个基于扩散的视觉解码器将这些离散令牌还原为高保真图像。

经过大规模预训练、监督微调以及强化学习的多轮打磨,UniAR在图像生成和图像编辑任务上取得了最先进的成绩,同时在对图像的理解类基准测试中也保持了竞争力。这意味着,视觉领域长久以来“理解好则生成弱、生成强则理解偏”的魔咒,或许首次被同一个模型打破。

路径已经打开:当模型能直接解读自己生成的视觉令牌,不再需要额外的重新编码时,理解与生成便不再是两座孤岛。真正的统一多模态建模,也许就从这个小小的分词器开始。未来,视觉系统将不再分裂为两个世界,而是成为一个既能看、又能画的整体。

2026年6月17日

大语言模型和多模态模型之所以强大,在于它们能把异质数据统一成相同格式,然后大规模训练。但在机器人操纵领域,这个配方行不通——数据天生碎片化:不同机械臂、不同传感器、不同任务,采集既贵又窄,对齐和规模难以兼得。一个名为Qwen-RobotManip的视觉-语言-动作基础模型却找到了突破口,它基于Qwen-VL构建,核心是一套跨表示、运动和行为的统一对齐框架。这套框架让多源数据不再互相打架,反而形成合力,从而能够吸纳以前训练模式难以消化的海量操纵数据。

最关键的创新在于一条“人-机合成流水线”:它将第一人称的人类手部演示视频,自动转化为15种不同机器人平台上的轨迹。再加上一套严格的整理流程,把来源各异的数据集归一化。尽管只用了开源数据集和人类视频(没有任何专有数据采集),团队还是构建了一个约38,100小时的预训练语料库。这个规模意味着模型开始展现出“涌现”的泛化能力:零样本理解并执行指令、应对环境扰动、自主从错误中恢复、甚至能在不同形态的机器人上迁移技能。

为了验证这种泛化,研究团队没有依赖那些对预训练质量不敏感的标准化基准,而是特意设计了多种超出训练分布(OOD)的测试场景,包括RoboCasa365、LIBERO-Plus、EBench、RoboTwin-Clean2Rand、RoboTwin-IF和RoboTwin-XE。结果Qwen-RobotManip在所有OOD设置下都大幅超过当前最强的模型π0.5,在RoboChallenge排行榜上获得第一,相对提升20%,并且在AgileX ALOHA、Franka、UR、ARX等真实机器人平台上得到验证。

如果机器人操纵的终极目标是“给一台新机器看几个视频就能干活”,那么Qwen-RobotManip已经把这个距离缩短了一大截。它证明了:数据异质不是天花板,而是可以被对齐的矿藏。当模型不再挑食,真正的通用性才会从规模中涌现。

2026年6月17日

游戏生成,正在成为编码代理最酷也最难的试金石。想象一下,你只需用自然语言描述一个游戏想法,比如“一个平台跳跃关卡,主角能双段跳,碰到金币得分,掉进坑里就重来”,AI就要自己动手,在游戏引擎里写出脚本、布置场景、管理资产、调度渲染,最终生成一个真正能玩的交互系统。和传统的代码生成不一样,游戏生成是一个端到端的大工程——脚本、场景、渲染、运行时交互必须无缝咬合,才能让玩家感受到连贯的玩法。

为了严肃地衡量AI在这项任务上的能力,研究者们提出了一个形式化的定义:端到端游戏生成,就是让模型产生一个完整的游戏工件,这个工件在目标环境中能够通过可观察的玩家与游戏交互,来兑现最初的规格说明。评估这样一个系统,不能只看看代码有没有编译通过,三个条件缺一不可:引擎接地——代码必须真正在一个游戏引擎中跑起来;工件完整性——生成的必须是完整可玩的作品,而不是片段;交互验证——玩法是否正确,必须通过实际拆解玩家与游戏的互动来判定。

基于这个思路,研究团队搭建了一套交互锚定的评估框架:让AI生成的游戏被录制成回放演示,再由一份细致的评分指南配合多模态评判来打分。框架的落地产品叫GameCraft-Bench,一个包含140个Godot引擎任务的基准测试,横跨15个游戏家族——从经典的打砖块、贪吃蛇,到平台跳跃、射击小游戏,覆盖了游戏设计的基本范式。

测试结果让人清醒。最前沿的编码代理,最高分也只拿到了41.46%。绝大多数代理的得分在40%以下。深度分析显示,AI常常能实现一些看起来很“对”的机制——比如角色能移动、跳跃会触发动画——但走到“完整游戏”这一步就捉襟见肘了。它们缺少足够的游戏内容,视觉反馈常常很敷衍,界面的呈现也谈不上连贯。换句话说,AI学会了游戏开发的“语法”,却还没掌握“讲好一个游戏故事”的能力。

这140个任务像一面镜子,照出了当前编码代理的真实边界:能模仿,难创造。能写片段,难成作品。那些看起来稀松平常的“完整可玩”,背后是人类对设计、节奏和体验的本能把握。

2026年6月17日

想象一下,要让AI模拟一个漫长的未来场景——比如一场风暴的演变,或是机器人连续数小时的动作。传统世界模型面临一个残酷的困境:要想预测得准,就得把网络挖得很深,可越深越贵,而且误差像滚雪球一样越滚越大。这仿佛是一个无解的循环。现在,一种名为Looped World Models(LoopWM)的新架构,却巧妙地绕开了这个陷阱。

研究者发现,问题的根源在于世界模型通常采用“直通式”设计:输入一步,输出一步,深度固定。而LoopWM反其道而行之,它是首个将循环架构应用于世界建模的尝试。核心做法出奇简单:用一个参数共享的Transformer模块,对潜在环境状态进行反复迭代、逐步精炼。就像人类面对复杂问题时,会反复推敲同一个想法,每次旋转都让理解更清晰一分。

这种设计带来了两个惊人的效果。首先,参数效率飙升——相比常规方法,LoopWM最多能实现100倍的参数压缩。其次,计算深度不再是一刀切,而是自适应地随预测步骤的复杂度动态调整:简单的动作快速掠过,困难的环节则反复“深思”。这恰好解决了“部署成本高”与“累积误差”之间的张力。

更重要的是,LoopWM开辟了一条全新的缩放轴。以往推动世界模拟进步的,要么是扩大模型参数,要么是增加训练数据。而这项研究证明,迭代潜深度可以成为一个独立的、正交的拓展方向——不依赖更多算力或数据,仅通过循环利用已有参数,就能激发出更强的模拟能力。

这远不止是技术上的讨巧。它暗示着,世界模拟的本质可能不在于模型有多庞大,而在于智能系统如何像人一样,通过“再思考”来逼近真实。如果未来每一帧预测都允许模型反复修正,或许那些长期以来的模拟难题——从天气预测到机器人行动规划——都将迎来新的解法。

2026年6月17日

Meta的CTO安德鲁·博斯沃思在Wired曝光的一份内部备忘录中,承诺进行一次“文化重置”。背景是Meta此前在3月进行的人工智能重组,强制数千名员工转向支持AI模型训练,导致内部士气崩塌,有员工甚至将所在部门称为“古拉格”。更火上浇油的是,有人劫持公司直播,公开抨击一位高级AI高管。

博斯沃思承认,Meta在解释AI重组愿景时“做得糟透了”,这次变动损害了员工信任。为了挽回局面,他承诺设置新的管理者报告上限,减少人员轮换,举办社交活动,并改善零食厨房。然而,这些举措被外界解读为典型的公司式让步——既无法解决根本矛盾,还可能进一步激化员工疏离感。

此次事件还伴随着另一项争议:Meta被曝强制要求员工使用电脑鼠标追踪功能,以收集AI训练数据。内部反抗情绪持续蔓延,尽管Meta的AI实验室在模型开发上取得了一定成绩(如Muse Spark),但大规模重组和低技术含量的苦工任务,正在侵蚀基层员工的忠诚。

当“微厨房”和社交派对成为安抚工具,而真正的诉求——对工作意义与尊严的认可——被忽略时,这样的承诺是否真能修补裂痕?或许,问题的答案并不在咖啡机旁。

2026年6月17日

中国AI实验室Z AI发布了开源权重模型GLM-5.2,在多项编程基准测试中与GPT 5.5和Claude Opus 4.8展开了正面较量。这不仅是开源模型距离顶级闭源系统最近的一次,更在业界投下了一枚深水炸弹——它拥有100万Token的上下文窗口,能处理长期任务,还提供了两种“努力模式”(High和Max)应对复杂工作。Z AI为这个模型选择了MIT许可证,定价则和前代保持一致,远低于前沿闭源模型。在代码、推理、数学等真实场景测试中,GLM-5.2轻松超越了GPT 5.5,得分仅落后Opus 4.8几分。这让人不禁想起那些曾被认为不可逾越的壁垒,如今正被一点一点地撬开。当开源模型已能承载如此性能,我们或许该重新思考:未来AI的统治力,到底由代码开放度决定,还是由价格高低左右?这条路上,GLM-5.2给出了一个让人振奋的答案——它用实力证明,开源和亲民的价格,才是通往下一个时代的最短路径。

2026年6月17日

SpaceX刚刚正式行使了收购AI编程初创公司Cursor的期权,这笔交易价值600亿美元,全部以股票支付。就在此前,SpaceX上市后股价一路飙升,公司市值几乎翻倍,而埃隆·马斯克的个人财富也由此冲破了1万亿美元大关。

这一切要从四月份说起。当时Cursor与SpaceX签署了一份初步协议,其中包含一个选项:要么以600亿美元收购Cursor,要么仅为合作支付100亿美元。而SpaceX选择了前者。Cursor的CEO迈克尔·特鲁尔透露,他们的下一代模型将具备“通用智能”,完全从零开始训练,规模堪比Opus模型。而SpaceX则表示,Cursor已经参与到Grok Build及其自有编辑器的模型训练中,这为马斯克的人工智能开发平台提供了关键支撑。

为什么这笔交易如此重要?Cursor与SpaceX早在四月就已深度绑定,而SpaceX上市后的疯狂涨势,让全部用股票支付变得毫不费力。尽管马斯克的Grok在编程能力上一直不算顶尖,但Cursor的模型与SpaceX强大算力的结合,很可能以马斯克喜欢的高速节奏扭转局面。现在,马斯克不仅拥有了火箭和卫星,还多了一个AI编程引擎。

2026年6月17日

传统上,人类干预被视为后训练视觉-语言-动作模型的“专家示范”,但在人形机器人领域,这一假设正面临严峻挑战——因为全身运动学和灵巧手控制的复杂性,人类难以顺畅地进行远程干预,导致收集到的干预轨迹往往犹豫、低效甚至错误。如果模型盲目模仿这些不完美行为,反而会学到不良习惯。为此,来自上海交通大学等机构的研究团队提出了一种新颖的强化学习框架ROVE,专门解决人形机器人后训练中“不完美干预”带来的双重难题。

ROVE的解决方案分为三层。首先,它设计了一套人机协同的数据收集管道,能够高效地在同一环境中同时采集机器人自主部署数据和人类远程干预数据,为后续训练提供混合质量的轨迹库。其次,框架引入“乐观价值估计”机制,不苛求所有轨迹都是专家级,而是通过价值函数自动识别并优先学习那些真正带来高回报的行为,自动过滤掉犹豫或错误动作。最后,为了进一步提升价值估计的鲁棒性,ROVE额外融入了跨具身人类经验视频——这些视频展示了人类在不同身体形态下完成类似任务的失败与恢复过程,为机器人提供了丰富的长尾故障和恢复模式监督信号。最终生成的评论家网络能输出信息量充足的优势信号,引导视觉-语言-动作模型专注于高价值行为,而非无差别模仿所有干预动作。

在挑战性的真实世界接触式精细操作任务中,例如拧瓶盖、插销等,ROVE相比直接模仿学习的基线方法取得了显著提升,并且在多次滚动部署与干预迭代中持续改进。这项工作的核心启示在于:与其执着于收集完美的专家干预,不如设计算法从混杂的不完美数据中淘金,让机器学会辨别什么才是真正值得模仿的优秀行为。在机器人训练成本高昂、人类干预难以完美的现实约束下,这种务实的思路或许更能推动人形机器人走出实验室、适应复杂多变的真实场景。

2026年6月17日

想象一下,你在训练一个AI解数学题,但只告诉它最终答案是否正确——这就是稀疏奖励的困境。它可能永远不知道“拆解题干”或“自我验证”这些步骤其实值得鼓励。现在,一种更聪明的训练方式出现了:ExpRL。它不再要求AI模仿参考答案,而是把参考答案藏在幕布后,当作一把隐形的“评分尺”。AI每生成一步推理,一个裁判LLM就悄悄比对参考答案,判断这一步是否在朝正确方向前进——无论最终答案是否匹配,都会给出过程性奖励。于是,AI学会了欣赏“部分的进步”“有用的中间分解”和“高效的自我修正”,这些恰恰是终极答案奖励常常忽略的黄金行为。

实验表明,在困难的数学推理基准上,ExpRL不仅超越了传统的监督微调和稀疏奖励GRPO,还比自蒸馏更强。更重要的是,经过ExpRL初始化的模型,再去接受稀疏奖励RL时,表现更上一层楼。当被扩展到混合领域时,ExpRL证明了自己不止会解数学题。这提示我们:有时候,奖励的公平和精细,比奖励的本身更关键——真正值得学习的,不是终点的一个字,而是通往终点的每一步思考。

2026年6月16日

你想象过机器人像人一样,轻轻一捏就能感知鸡蛋的硬度,或用指尖调整布料褶皱吗?这种对触觉的实时反应,长久以来被视为实现人类级灵巧操作的关键。但现实中,大多数基于学习的视觉-语言-动作模型(VLA)要么完全忽略触觉,要么只能处理静态的触觉线索。原因不难理解:缺乏大规模触觉训练数据,现有模型架构难以处理高频触觉信号,而静态编码器又无法捕捉动态变化。

这个困局正在被一项新研究打破。研究者设计了一种全新的触觉数据集,规模达到惊人的100小时,但采集效率却出奇地高——他们优先录制了基础的运动基元,比如按压、滑移、抓握等简单动作,而非复杂的全程操作。这种“先学基础动作”的数据策略,让触觉数据的积累不再依赖成千上万次完整任务演示。

更关键的是模型架构的革新。传统VLA模型在处理文本、图像时表现优异,却无法自然接纳连续高频的触觉信号——就像用铅笔记录交响乐的每一个音符,既笨拙又失真。为此,团队引入了可变速率混合变换器(Mixture-of-Transformers, MoT),它就像一个由多个专家组成的协作团队:每个“专家”变换器专门处理一种感官信息(视觉、语言、触觉),然后通过门控机制动态融合。触觉部分则搭配了全新的时序触觉VQ-VAE编码器,它能把原本每秒数百次的触觉数据流压缩成紧凑的离散编码,同时保留时间动态特征,让模型真正“感受”到物体表面从光滑到粗糙的变化、从硬到软的过渡。

最终,这套触觉反应策略在12项精细力控和可变形物体操作任务中进行了检验,包括拧瓶盖、揉面团、穿针引线等难度极高的动作。结果令人振奋:平均成功率比当前最强的基线方法高出30%以上。尤其在处理软体物体时,触觉反馈让机器人学会了根据材料反馈动态调整力度,而不是机械地重复预设轨迹。

这些进展并非偶然。它们暗示着机器人学习的下一个前沿:触觉不再是视觉的附属品,而是一种独立的、高频感知通道。但当触觉与视觉、语言如此协同运作时,一个更深层的问题浮现出来——人类灵巧操作的秘诀,或许不在于单项感官的极致,而在于所有感官以不同速率、不同精度共同编织出的那种即时反应。机器人的这条路,才刚刚开始。

2026年6月16日

在人工智能的进化史上,一个耐人寻味的规律正逐渐浮出水面:越是依赖较弱假设的方法,越能在数据和算力增长时展现出惊人潜力。这一趋势在视觉表示学习领域尤为明显——从早期以监督学习为主,到后来弱监督学习的兴起,再到如今无需人类标注的自监督学习大获成功,每一次范式更迭都在印证这条铁律。然而,即便是当前最先进的自监督方法,也依然离不开数据增强、随机遮挡或裁剪等强归纳偏差。这就引出一个关键问题:如果趋势持续,这些残存的偏差是否终将成为规模扩张时的瓶颈?

最新实验给出了明确的答案:随着数据量的增长,最优归纳偏差的强度确实在持续下降。这一发现令人振奋却又在意料之中——它暗示着我们需要一种设计哲学的根本转变:减少那些人为预设的约束。为此,研究者提出了Temporal Difference in Vision(TDV),一种完全从视频出发的自监督学习新范式,它彻底抛弃了传统的归纳偏差,转而依托一个根本的因果假设:过去引起未来。

TDV的核心机制优雅而简洁:它同时训练一个图像编码器和一个运动编码器,使得当前帧的表示加上编码后的运动,恰好等于下一帧的表示。这里没有复杂的裁剪策略,没有精心设计的数据增强,没有对视角的预设——只有一个朴素的因果链条:从过去帧中提取静态信息,从帧间差异中提取动态信息,然后预测未来。这种简单的线性组合框架意外地强大。实验证明,即便不依赖任何强归纳偏差,TDV在密集空间任务上的表现已经能够媲美当前最先进的配方。

这一成果的意义超越了方法本身。它揭示了一个更深层的规律:当数据足够丰富时,从数据自身涌现的结构可能比我们精心设计的先验知识更为有效。那些曾经帮助我们跨越小数据陷阱的归纳偏差,在大规模场景下反而可能成为限制模型能力的枷锁。就像曾经的词袋模型让位于词嵌入,手工特征让位于端到端学习,视觉表示学习正在经历又一次范式跃迁——这一次,我们或许正在目睹强归纳偏差时代的落幕,以及真正无假设学习的黎明。

未来的研究或将沿着这条路径继续深入:当模型不再依赖人类的先验,而是纯粹从时空因果中学习时,视觉智能会展现出怎样的全新维度?答案令人期待,但至少现在,我们已经开始迈出第一步。

2026年6月16日

在人工智能领域,一场静悄悄的革命正在上演。一个仅有30亿参数的小模型VibeThinker-3B,凭借一套名为“频谱到信号”的后训练范式,在可验证推理任务中击败了参数规模大数十倍的旗舰系统——包括DeepSeek V3.2、GLM-5和Gemini 3 Pro。这并非依靠隐藏参数或作弊,而是通过精心设计的训练管道:先进行课程式监督微调,再引入多领域强化学习,最后用离线自蒸馏巩固成果。结果令人瞠目:在AIME26数学竞赛中,它拿下94.3分,若采用声明级测试时缩放,分数攀升至97.1;在LiveCodeBench v6上,它一次性通过率达80.2%;面对从未见过的LeetCode竞赛题,接受率高达96.1%。更难得的是,它在指令遵循测试IFEval中取得93.4分,证明极致的推理能力并未牺牲控制性。

研究者由此提出“参数压缩-覆盖假说”:可验证推理本质上可以被压缩进紧凑的推理核心,而开放域知识和通用能力则需要更广泛的参数覆盖——事实、概念和长尾场景的广度。这暗示着,小模型并非只是大模型的廉价替代品,而是通往参数密集能力前沿的一条互补路径。当推理可以被浓缩,而知识需要摊开时,我们或许需要重新思考:真正的智能,究竟来自规模,还是来自对本质的提炼?

2026年6月16日

在追求高效可扩展的智能体智能时,模型需要兼具低延迟响应和强推理能力,且训练、部署要实用。为此,研究者推出了Ling-2.6和Ring-2.6模型家族。Ling-2.6专为即时响应和每输出token高能力优化,而Ring-2.6则面向深度推理和更高级的智能体工作流。它们并非从零训练,而是基于Ling-2.0基础模型,通过架构迁移预训练和大规模后训练升级而来。升级过程中,模型架构、优化目标、服务系统和智能体训练环境被统一协同设计,从而同时提升了模型能力和部署效率。架构上,创新性地采用了混合线性注意力设计,将Lightning Attention与MLA结合,大幅改善了长上下文训练和解码效率。为进一步提升每个输出token的能力,研究者通过进化思维链、语言单元策略优化、双向偏好对齐以及最短正确响应蒸馏等技术进行了优化。针对智能体能力,提出了KPop强化学习框架,支持Ring-2.6-1T在大规模环境交互数据上稳定训练。KPop通过异步调度编码、搜索、工具使用和工作流执行,提升了训练效率,使得从复杂的智能体-环境交互中可扩展学习成为可能。Ling-2.6和Ring-2.6为构建高效、可扩展且开放的智能体系统提供了实用路径。所有2.6系列的检查点均已开源,以支持实际智能体智能的进一步研究与发展。这一系列模型不仅展现了技术创新,更预示着开放、高效的人工智能系统未来可期。

2026年6月16日

机器人控制领域,视觉-语言-行动模型虽能理解语义指令,却对动作如何改变场景缺乏预判能力。一些研究者尝试通过世界行动模型预测未来画面来弥补这一缺陷,但像素级的视频生成计算成本高昂,冗余信息拖慢决策速度。现在,一种名为LaWAM的新方法带来了突破——它不再重建完整未来视频,而是从紧凑的潜在视觉子目标中提取动态信息,让机器人学会“预知”动作后果。

LaWAM的核心是一种潜在动作条件世界模型。研究团队利用预训练视觉基础模型的潜在空间,训练出能根据动作预测未来观察特征的模型。这些预测的特征被转化成潜在视觉子目标,进而引导动作生成。整个过程无需生成像素级图像,大幅降低了计算负担。在LIBERO基准测试中,LaWAM达到了98.6%的成功率,在RoboTwin任务中达到91.22%,真实世界操控任务中同样表现优异。同时,每次动作块预测仅需187毫秒,相比像素级世界行动模型,端到端延迟降低了最多24倍。

这种方法的关键在于平衡了预测深度与计算效率。它没有丢弃对未来的预见性,而是将这种预见压缩到更智能的表征中。当机器人既能理解当前状态,又能感知动作如何改变场景,操控的精准度和适应性便迈上了新台阶。未来,这类模型或许能让机器人更快适应环境变化,在工厂、家庭等复杂场景中做出更可靠的决策。

2026年6月16日

想象一台机器人,它需要理解你说的话,同时还要推演杯子、摄像头和自己的机械臂在三维空间中的相对位置。这听起来简单,但现有的大多数机器人策略——包括那些从互联网海量数据中习得的视觉-语言-动作模型(VLA)和视频世界-动作模型(WAM)——核心依然停留在二维图像或二维衍生出的隐空间里。它们拥有强大的语义或时间先验,却往往丢失了接触密集操作所必需的三维几何信息。就像一个人看惯了平面地图,却无法准确判断楼梯的高度。

为了解决这一矛盾,一组研究者提出了几何动作模型(Geometric Action Model,简称GAM)。GAM的核心理念是“就地取材”:它直接调用一个预训练好的几何基础模型(GFM)作为统一的基底,同时服务于感知、时间预测和动作解码三个任务。具体做法巧妙地像切蛋糕一样——把GFM从中间某层切开:浅层部分充当观察编码器,负责理解当前场景;在切开的断面上,研究者插入了一个因果未来预测器,它根据语言指令、机器人自身状态(本体感知)和过往动作历史,预测接下来即将发生的隐层状态。然后,这些预测的未来隐层回溯进GFM剩余的另一半模块,让整个骨干网络既能生成未来的几何推理,又能同时解码出具体的动作指令。

这种设计几乎没动原始模型的架构,却让GFM瞬间拥有了语言条件的时间世界建模能力,同时完整保留了它原有的丰富几何先验。在大量仿真和真实机器人操控基准测试中,GAM在准确性、鲁棒性、运行速度和模型轻量性上都显著超过了当前主流的、同样基于大规模基础模型的方法。它不再需要额外复杂的2D到3D转换,而是直接从几何层面理解世界如何变化——这或许正是让机器人真正“懂”三维操作的关键一步。

机器人的困境往往在于,它能看到像素,却摸不透空间。GAM的启示在于:当基础模型已经学会世界的几何形状时,我们不必另起炉灶去教它如何抓握——只需轻轻切开它的一角,插入时间,剩下的交给它自己的几何直觉。未来,我们或许不再纠结于让模型“看得更清”,而是让它“想得更立体”。

2026年6月16日

在温哥华一套公寓里,一台没有压缩机、没有制冷剂的设备正悄悄运行,它利用电流流过特种材料来搬运热量。与此同时,德国一家超市的冷柜依赖于磁铁反复磁化和退磁来降温;香港团队则用形状记忆合金拉伸回弹,将温度压到冰点以下。这些看似科幻的场景,其实是全球固态空调技术试点项目的缩影。全球空调需求预计到2050年将翻三倍,而传统空调已吞噬全球7%的电力并贡献3%的温室气体排放——固态空调的尝试,正试图从根源上扭转这一趋势。

三种主流技术路线正在争锋:纽约布鲁克林的Mimic Systems采用热电材料(如碲化铋),通过电流驱动热量移动,其房间级设备已在温哥华公寓试点;德国的Magnotherm则利用磁热效应,通过磁场改变材料磁化状态实现冷却,正在连锁超市进行验证;而中国香港团队开发的弹性热装置已能实现低于0℃的降温,英国Barocal公司则探索基于压力的压强热技术。然而,它们面临共同挑战:传统蒸汽压缩空调的性能系数(COP)可达3,但热电材料在大温差下效率骤降,目前仅适用于汽车座椅等小空间;磁热和弹热技术仍在实验室向商业化的跨越中。

即便只取得有限份额,固态空调的突破意义深远。目前空调已占全球用电量的7%和温室气体排放的3%,随着地球变暖和发展中国家普及,这一负荷将在2050年翻三倍。传统的氢氟碳化物制冷剂本身就是强温室气体,而固态系统彻底抛弃了这类物质,并且有望通过更高效的热管理降低能耗。从公寓到超市,这些试点项目的每一步,都是向一个无压缩机、无制冷剂未来的试探。在技术与成本的天平未完全倾斜之前,它们正悄然改变我们对“凉爽”的想象——或许未来,空调不再是靠“制造冷”,而是靠“搬运热”来抵御高温。

2026年6月16日

流媒体世界迎来一场地震级并购。福克斯公司以220亿美元的现金加股票组合,将流媒体先锋Roku收入囊中。这笔交易并非简单的资产收购,而是传统电视巨头与联网电视平台的一次战略联姻——福克斯旗下的新闻、体育频道和Tubi平台,将全面接入Roku覆盖1亿家庭的操作系统及其海量用户数据。交易细节显示,福克斯为每股Roku支付160美元,其中96美元现金外加0.9693股福克斯A类股票,为此专门安排了120亿美元贷款。交易完成后,Roku创始人兼CEO安东尼·伍德将进入福克斯董事会,Roku也承诺将继续保持“开放、对合作伙伴友好”的平台属性。值得玩味的是,现有福克斯股东将持有合并后公司约73%的股份,而福克斯股价在消息公布后却大幅下挫——市场或许在重新评估这一庞然大物的前景。这次收购的本质,是把传统广播公司缺失的最后一环补上:流媒体平台的第一手数据。长期以来,观众行为数据如同广告商的“寻宝图”,从传统电视逐步流向科技公司。如今,福克斯通过Roku直接获得了这张地图。同时,直播体育和新闻与联网电视规模的结合,被证明是当下最有效的增长公式。在这场融合中,电视行业的权力正静悄悄地转移:谁掌控平台、数据与内容,谁就握住了未来遥控器的开关。当观众在Roku频道里观看超级碗或Fox News时,他们或许未曾意识到,自己的选择将不再只是娱乐,而是电视帝国重新站队后的一枚砝码。

2026年6月16日

英国首相基尔·斯塔默本周一宣布,英国将禁止16岁以下未成年人使用社交媒体,声称这项措施将“比世界上任何一个国家走得更远”,旨在保护儿童免受网络伤害。

禁令覆盖Snapchat、TikTok、YouTube、Instagram、Facebook和X等主流平台,但WhatsApp和Signal等即时通讯软件仍可访问。英国还将禁止16岁以下用户进行直播和与陌生人联系,并正在考虑实施宵禁和无限滚动限制。科技公司需承担执行责任,否则将面临高额罚款,目标是在2027年春季前全面铺开。

英国此举紧随西班牙、马来西亚、法国、丹麦、挪威和澳大利亚之后,后者在去年12月成为首个实施此类禁令的国家。

然而,大型平台正在强烈反对,认为禁令大规模执行困难,并可能迫使青少年流向更危险、不受监管的网站。来自澳大利亚的早期信号显示,执行可能是法律最薄弱的环节——今年3月的一项民意调查中,约70%的家长表示他们的孩子仍然在使用被禁的平台。

数字时代的保护与自由之争,才刚刚开始。

2026年6月16日

就在Ninja Theory刚刚在6月7日公布《地狱之刃》系列新作《塞娜》后不久,这家曾打造口碑佳作的游戏工作室却被告知即将关闭。据The Verge报道,在周一的一场内部电话会议上,Ninja Theory的员工得知工作室即将关停,尽管团队仍希望找到买家。与此同时,Bloomberg透露,Compulsion Games、Double Fine和Ninja Theory正积极谈判,试图从微软剥离以避免关闭的命运。这是微软Xbox游戏工作室一轮新的震荡,上周Xbox游戏工作室负责人克雷格·邓肯刚刚离职,而新任CEO阿莎·夏尔马发起的“重置”正在波及更多团队:她向员工坦承,Xbox年营收五年内下降了近5亿美元,而硬件成本却翻了两倍。这一切表明,微软过去十年疯狂的游戏收购——包括创纪录的690亿美元收购动视暴雪——并未解决Xbox的盈利难题。即便是声名卓著的工作室,如今也不再安全。这是去年微软裁减9000人之后的又一次收紧,而这一次,连正在研发新作品的工作室也无法幸免。当一家巨头用收购构筑堡垒,却发现堡垒内部开始崩塌,最令人不安的或许不是利润的流失,而是创造力的退场。

2026年6月16日

当你在Facebook的搜索框里敲下一个问题时,你期待的可能是几个相关的帖子链接。但现在,Meta决定用AI直接给你答案——而且这些答案不是来自冷冰冰的知识库,而是来自Facebook上数亿用户的公开帖子、Reels和群聊内容。这项名为AI Mode的新搜索体验,将Muse Spark驱动的Meta AI直接嵌入Facebook搜索栏。你问“周末去哪玩”,它能从附近妈妈的亲子游分享里捞出推荐;你问“如何修复漏水水管”,它可能引用某个维修小组里大爷的实战经验。

这不仅是搜索方式的变革,更是一场内容生态的重新编织。Meta同时推出了一系列照片编辑工具:一键换衣、换发型、换配饰;把你的头像变成球队队服风格;甚至自动从相册里拼出创意照片。这些工具全部用AI驱动,看似只是娱乐功能,实则是为社交平台注入更多“可玩性”——用户生成的内容越丰富,AI Mode能调用的素材池就越庞大。

真正引起行业震动的是价格。据内部消息,Meta正在筹备两个付费AI层级:每月7.99美元和19.99美元。这个定价比ChatGPT Plus(20美元)和Google Gemini Advanced(19.99美元)都低,甚至低于竞争对手。Meta希望用低价快速占领用户,但风险也随之而来:AI Mode回答的准确性严重依赖平台上的用户内容,而这些内容未经专业审核。Google去年在AI搜索中(AI Overviews)就曾因错误答案引发争议——比如建议用户“往披萨上涂胶水”来防止芝士滑落。如今Meta面对的是更混乱的公众帖子生态,错误信息、恶搞内容、甚至广告软文都可能被AI当成“答案”喂给用户。这种风险,可能比谷歌面临的更大。

无论如何,Meta正在复刻谷歌的搜索剧本,只不过把外部的互联网链接换成了自家生态内的用户生成内容。一边是8美元的低价AI服务,一边是海量不可控的UGC水池,这场实验能否跑通,取决于Meta能否在“开放”与“可信”之间找到那个精准的平衡点。毕竟,用户愿意为一个错误的答案付钱,但这个错误不会只伤害一次。

2026年6月16日

微软CEO萨提亚·纳德拉最新发布的备忘录,给整个科技界抛出一个耐人寻味的命题:一家公司的AI竞争力,不取决于它能否拿到最先进的模型,而在于能否建立一套属于自己的“学习循环”系统。他警告说,如果AI经济被少数几个模型主宰,大量行业将会被彻底吞噬。

纳德拉的观点将公司价值一分为二:员工提供的“人力资本”,以及公司自主拥有而非租赁的“代币资本”——也就是AI能力。在他看来,真正聪明的做法不是追逐那些天价的前沿模型,而是埋头打造一个能不断进化、积累企业专属经验的系统。这个系统最神奇的测试是:如果你把其中一个模型抽走,换上另外一款,公司积累的“老兵直觉”依然稳稳地保留在系统里,不会消失。

这意味着企业需要重新思考与AI的关系。纳德拉特别强调,要避免出现“所有行业的所有公司都把价值拱手让给少数几个吞噬一切的模型”的世界。这番话或许并不新鲜,但它直接挑战了那些前沿实验室的论断——后者曾警告行业,AI这辆蒸汽压路机正在碾压而来。在一个开源、廉价模型也能与前沿模型在某些领域一较高下的时代,真正的价值可能就藏在企业的判断力中,当这种判断力嵌入AI并使AI持续从中学习时,护城河才算真正形成。

没有人能预言哪款模型会最终胜出,但有一点越来越清晰:与其沦为模型的租客,不如成为学习的主宰。

2026年6月16日

超过一百位网络安全高管和研究人员联合签署了一封公开信,要求美国解除对Anthropic旗下模型Fable 5的出口禁令。他们认为,这项限制措施并没有有效阻止攻击者,反而削弱了防御方的能力。攻击者依然可以从其他竞争模型中获取类似的技术手段,而防御者却因此被绑住了手脚。

前Facebook安全负责人Alex Stamos指出,被政府标记为“越狱”的漏洞其实只是“概念验证”,防御团队通常会利用这类发现来修补弱点。信中还特别提到,OpenAI的Daybreak、GPT-5.5、Kimi 2.7、Opus以及Sonnet等模型都具备相同的能力,说明这类漏洞并非Fable 5独有。

公开信呼吁,对模型的监管应当建立在科学评估、民主决策和透明公正的执行基础之上。签名者包括来自Adobe、Zoom、Sophos、Vercel、Veracode、Nvidia以及斯坦福HAI的安全负责人,覆盖了多个重要行业和学术机构。

这场争议的核心在于,安全研究人员并不认同政府基于威胁评估而施加的限制。禁令背后的真正动机越发模糊,而双方之间的沟通问题也浮出水面。与其说这是一场单纯的安全之争,不如说它同时涉及了意识形态的分歧。

技术出口管制正在演变为一场关于安全理念与权力边界的辩论,而真正的敌人或许并不在模型里。当我们试图用锁链挡住洪水,却发现自己也站在了同一片水域。

2026年6月16日

当前的音频-视频问答自动化管道普遍采用“视频-字幕-QA”范式。但这类方法通常将视频分割成短片段,并分别生成音频和视觉模态的独立描述。这种解耦处理切断了声音与其视觉来源之间的固有联系,而独立的片段处理又常常导致同一实体在不同片段中出现不一致的描述。更糟糕的是,将长文本理解与QA合成耦合在单一步骤中,往往使模型局限于局部事件,生成的问题缺乏长时时间关联和深层跨模态推理。

针对这些痛点,研究人员提出了一套自动数据引擎,包含两种创新机制。首先是“实体锚定视频脚本”机制,它将视频转化为结构化的脚本,包括摘要、主要实体列表以及逐片段音视频描述。实体列表作为全局先验,确保跨片段的引用一致性,并重建音频-视觉关联。其次是“线索引导QA生成”机制,它提示模型先从脚本中挖掘跨片段、多模态的线索,再基于这些高价值线索生成问答对。

利用这一流水线,研究团队构建了指令微调数据集OmniVideo-100K,以及一个经过人工验证的测试集OmniVideo-Test。在OmniVideo-100K上对VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B等模型进行微调后,在OmniVideo-Test上的性能提升高达20.59%,并且在Daily-Omni和JointAVBench等成熟基准上也展现了高达12.64%的泛化提升。

这项研究的核心突破在于:不再把视频拆成碎片去孤立理解,而是用实体作为锚点,把分散的音画线索串联成完整的故事。它让人不禁思考——当机器学会像人类一样,看到物体就能联想到它可能发出的声音,听到声音就能回溯它的视觉源头,那么“看懂视频”这件事,或许才刚刚开始。

2026年6月16日

你能想象一个视频生成模型,不仅能从一段文字或一张图片开始,还能像游戏玩家一样控制摄像头自由穿梭,甚至让模型记住之前见过的场景,并在十几秒后准确回访吗?DreamX-World 1.0正是为此而生的通用世界模型——它把文本、图像变成可控的长视频,支持在照片级真实、游戏风格和艺术化三种视觉世界中自由切换。

为了做到这一点,研发团队打造了一套独特的“数据引擎”。他们用Unreal Engine渲染出大量相机轨迹精准的虚拟场景,从动作丰富的游戏录像中提取交互数据,再结合真实世界视频里恢复出的相机几何信息,训练模型理解镜头移动与场景变化的关联。更重要的是,他们解决了一个长期难题:当模型生成越来越长的视频时,颜色和风格会慢慢“跑偏”。通过把双向视频生成器改造成“自回归世界模型”,并在训练中让它看到自己之前生成的历史帧,模型学会了在数十秒的生成过程中保持视觉一致性。

在相机控制上,他们提出了一种轻量级编码方法E-PRoPE,让模型对空间压缩后的图像块赋予“相机感知”能力,从而精准响应用户的镜头指令。而“记忆条件场景持久性”则像给模型装了一个地理坐标系统:当生成到第100帧时,它能通过相机几何关系“回忆”起第50帧的画面细节,避免场景元素凭空消失或变形。再加上“事件指令微调”和强化学习对齐,用户甚至可以用自然语言让模型在视频中间触发某个动作或事件——比如让一只猫突然跳起来。

为了让这一切在单机上跑得动,团队用上了混合精度DiT执行、残差重复利用、75%稀疏化的VAE解码以及异步流水线并行,最终在八块RTX 5090上达到了16帧每秒的生成速度。在5秒时长的标准评测中,DreamX-World 1.0的相机控制分达到73.75,综合得分84.76,全面超越了HY-WorldPlay 1.5的80.79和LingBot-World的80.45。

从这个世界模型的探索中,我们看到了一条清晰的路:让机器不仅学会“画”出世界,更要学会“理解”世界的运动与变化。当生成视频的时间从秒级迈向分钟级,镜头语言与事件编排的精确控制,或许才是通向真正互动式数字世界的钥匙。

2026年6月16日

想象一下,你只要说一句话,机器人就能理解你的意图,并预测出接下来会发生什么画面——比如“把杯子放到桌上”,然后它就能在脑海里模拟出整条手臂运动的轨迹。这听起来像科幻小说,但Qwen-RobotWorld已经让这种能力成为现实。

这项研究推出了一种名为Qwen-RobotWorld的语言条件视频世界模型,专门用于具身智能。它最大的创新在于,把自然语言当作统一的动作接口。无论你是在做机器人操作、自动驾驶、室内导航,还是想让人类的行为迁移到机器人身上,你只需要给出一段当前观察的视频和一个语言指令,模型就能预测出未来物理上可行的视觉轨迹。换句话说,它不是在真实世界行动,而是在虚拟世界里“预演”未来。

为什么要做这件事?研究团队看到了三个极其诱人的应用方向:第一,它可以合成数据,用来训练策略模型——相当于一个无穷无尽的虚拟老师;第二,它能构建可扩展的虚拟环境,用来评估不同策略的好坏,省去真实实验的成本;第三,它能为下游机器人控制提供语言引导的规划信号——先想好再做,更安全。

为了实现这些,研究团队设计了一套巧妙的架构,包含三个核心部分。第一个是双流MMDiT(多模态扩散变压器)加MLLM动作编码。具体来说,模型使用了60层的双流扩散变压器,把Qwen2.5-VL这个大语言模型的语义和视频VAE的潜在特征通过逐层联合注意力机制融合在一起。这样,语言指令和视频画面不再是割裂的,而是深度耦合的。第二部分是具身世界知识(EWK)——一个庞大的视频-文本语料库,包含860万个视频片段,总计超过2亿帧画面,覆盖了20多种具身形态和500多种动作类别。这些数据被精心标注了动作-语言映射关系,让模型学到丰富多样的世界知识。第三部分则是通用+专家渐进课程训练策略——先让模型学习通用的视觉先验,再在共享的语言接口下注入具身领域的专门知识。这就好比先学物理规律,再学具体怎么开卡车。

效果怎么样?非常亮眼。在EWMBench和DreamGen Bench这两个综合基准上,Qwen-RobotWorld整体排名第一;在WorldModelBench和PBench上,它超过了所有现有的开源模型。更让人惊喜的是,在RoboTwin-IF基准上进行零样本分析时,模型展示出了强大的泛化能力和多视图一致性——哪怕从没见过的场景和视角,它也能给出合理的预测。

看,一个能用语言在脑海里推演未来的世界模型已经诞生了。它也许还远不是最终答案,但至少给了我们一种新的可能:当我们不再需要为每个动作、每个场景手工编程时,真正智能的机器人才会离我们更近一步。

2026年6月16日

在视觉语言模型(VLM)内部,描述图像的过程并非黑箱——研究者发现,模型语言骨干中有一小撮被称为“注视头”的注意力头,它们像探照灯一样追踪着模型当前正在描述的图像区域。这一发现源于一个巧妙的实验:用连环画(漫画条)作为受控测试床,因为叙事顺序在空间上已经铺陈开来。仅需几次前向传播计算一个简单的相关性得分,就能定位这些头。

这些注视头不仅跟踪被描述的图像标记——若将它们的注意力重定向至某个选定区域,模型就会转而描述该区域。在顶多9%的所有注意力头(前100个)上施加单一注意力掩码干预,就能以83.1%的准确率引导模型描述任意指定的漫画面板;而同样的干预施加在随机头群上无法重定向回答,若干预所有头则会彻底破坏生成。这种控制甚至可连续操作:在生成中途切换注视目标,模型会在几个标记内结束当前面板描述并转向新目标。

超出连环画范畴,相同的干预在自然图像(COCO数据集)上也能将回答重定向至指定区域。该机制在从2B到32B参数的不同模型大小以及多种VLM架构中反复出现,但部分使用冻结编码器的模型系列并未显示相应的头集。更广泛而言,这项研究表明:通过机械论分析识别的靶向编辑,可以成为无需重新训练即可在推理时操纵多模态模型行为的实用杠杆。

当模型像拥有自主“目光”一样,通过寥寥几个注意力头就能被精准指引,我们不仅理解了它的内部语言,更获得了一把随时可用的钥匙——在复杂世界中,有时只需找到关键的杠杆,而非重建整个系统。

2026年6月16日

在软件开发的世界里,人类工程师面对一个庞大的代码库时,往往会先扫一眼文件夹的层级结构、依赖关系图,建立起空间方位感,然后才深入代码行。然而,由大语言模型驱动的代码代理却几乎只把仓库当成连续的纯文本字符——它们看不到那些对人类来说一目了然的视觉线索。这种差异催生了一个开放问题:多模态大语言模型是否能让代理从仓库的视觉表示中获益?

为了回答这个问题,研究者首次针对代码仓库的视觉表示展开了系统性实证研究,聚焦于仓库级别的问题解决任务。他们选取了四种最新的多模态模型,设计了三种输入模式进行对比:纯文本、纯视觉,以及文本与视觉混合。实验结果出人意料又合乎逻辑。

纯视觉方案的表现令人失望——代理完全依赖截图或图表来理解仓库,结果不仅问题解决的准确率下降,而且消耗的token成本反而上升。原因在于,视觉信息缺乏足够的符号细节,代理为了弥补信息不足,不得不反复进行视觉查询,陷入了低效循环。

更聪明的做法是融合。当代理在标准的文本接口之外,额外获得仓库结构的可视化图(比如目录树、依赖图谱)作为补充模态时,效果立刻改观。代理可以更快地定位文件、理解模块关系,输入token消耗最多减少了26%,同时问题解决准确率不仅没有下降,有时甚至有所提升。

研究进一步发现,可视化工具在两种场景下最为关键:一是故障定位阶段,代理需要迅速锁定缺陷所在的文件;二是当代理能够自主控制探索深度时,它可以选择性地展开或折叠子目录,避免被无关代码淹没。这些发现指向下一代代码代理的设计方向——一个务实地混合文本与视觉信息的架构,既能保留文本的精确符号能力,又能利用视觉的结构性导航优势。

让代理学会“看见”,就像人类工程师扫一眼项目结构图那样,或许正是打通代码理解效率瓶颈的那把钥匙。毕竟,最好的工具往往不需要在两种感知模式之间二选一,而是让它们彼此成就。

2026年6月15日

想象一下,一个机器人试图抓取一个杯子,但它的视觉系统只能看到二维平面视频,无法感知杯子的深度和背后的隐藏空间——这样的操控注定笨拙而失败。这正是当前世界动作模型(WAMs)面临的困境:它们能预测未来画面和规划动作,却往往在三维空间的约束和物体接触的几何关系中“失明”。为了突破这一瓶颈,研究者提出了WAM4D——一种快速的四维世界动作模型,在保持高效推理的同时,为机器人注入了真正的空间理解能力。

问题的症结在于,现有WAMs大多在2D视频或潜在空间中运行,生成的视觉推演虽然合理,却忽略了精确操控所需的3D空间约束和被遮挡的接触几何。例如,当机器人手臂绕过障碍物时,模型需要知道物体表面哪些区域可能被遮挡、手掌如何调整角度才能稳固抓取。为此,一些几何基础模型(如深度估计网络)能提供强大的先验,从视觉观测中恢复密集的3D结构和运动。但若让WAM直接预测这种密集的四维表示(三维空间加时间),会引入昂贵的几何解码环节,大幅拖慢因果动作生成的速度——这对于实时操控是不可接受的。

于是,WAM4D巧妙地平衡了精度与效率。它的核心设计是引入轻量级的“空间注册令牌”(spatial register tokens),这些令牌只在训练时作为未来深度的读出标记,将预训练的几何先验高效地“转移”到一个因果视频-动作变压器(video-action transformer)中。一旦训练完成,注册分支便被移除,只留下轻量化的动作推理主干,避免了在线计算的高昂代价。为了进一步防止非因果捷径(比如模型“作弊”地利用未来信息),研究团队还为混合变压器(Mixture-of-Transformers)骨干设计了因果混合注意力机制,明确定义了视频、动作和几何令牌之间的模态可见性——每个令牌只能看到它之前的同一模态或其他模态的合理信息。

实验在RoboTwin 2.0数据集和具有挑战性的真实世界操控任务上进行。结果令人振奋:WAM4D在保持与现有模型相当的动作预测准确性的同时,大幅提升了空间一致性——机器人能更准确地判断物体的位置、形状和接触点,从而更流畅地完成抓取、堆叠等精细操作。这意味着一台搭载WAM4D的机械臂,在混乱的桌面上拾取一个藏在其他物体后的小螺丝钉时,能提前感知它的三维轮廓和背后的空隙,而不是只凭二维图像胡乱试探。

当机器人开始“看见”世界的厚度和空隙,操控便从盲目的模仿进化成有空间直觉的协同。这或许正是通往物理世界通用的那把钥匙——因为真正的智能,从来不只在平面的光影里,而在每一寸可触碰的立体中。

2026年6月15日

在大型语言模型的强化学习训练中,生成阶段(rollout)始终是效率的瓶颈。多令牌预测(MTP)本应是加速的利器——通过投机解码一次生成多个令牌,理论上可显著提升吞吐量。然而,研究者们发现一个令人困惑的现象:当模型进入RL训练阶段后,MTP的接受率会急剧下降,导致加速效果大打折扣。

Bebop团队系统性地揭开了这个谜团。他们首先发现,MTP接受率的下滑并非偶然,而是与模型熵值的波动呈清晰的负线性关系。RL训练过程中,模型探索性增强,输出分布变得更分散,就像调高了一步一个脚印的随机性,使得MTP的预测更易被拒绝。这一发现直指问题核心:传统贪婪式草稿采样在这种动态环境下难以适应。

如何破局?Bebop提出了双管齐下的方案。其一,采用概率拒绝采样替代贪婪采样,显著减轻了熵波动对接受率的干扰;其二,针对传统交叉熵或KL散度训练目标的不足,创新性地设计了端到端的总变差(TV)损失函数——它直接优化多步拒绝采样的接受率。实验显示,这一改进将接受率提升了约10%,在数学推理、代码生成和智能体任务中稳定达到95%以上,推理吞吐量额外提升25%。

更令人意外的是,Bebop发现:在RL训练之前进行的MTP预训练,配合端到端TV损失和拒绝采样,就能在整个RL训练过程中保持稳定一致的接受率和加速比,完全无需在RL过程中频繁更新MTP参数。这意味着复杂的在线MTP更新成本可以彻底免除。在Qwen3.5、Qwen3.6和Qwen3.7模型上的异步RL训练中,Bebop实现了高达1.8倍的端到端加速。

从观察到归因,从设计到验证,这项工作不仅揭示了RL与MTP交互的深层机理,更提供了一套立即可用的工程方案。当算力竞赛日趋白热化,有时真正的突破不在于堆砌资源,而在于理解算法内在的物理规律,然后顺势而为。

2026年6月15日

智能体的表现真的只靠模型本身吗?一项新研究给出了否定的答案。研究人员发现,一个叫HarnessX的系统正在揭示一个被长期忽视的领域:AI智能体在执行任务时的“运行时装备”——包括提示词、工具、记忆和控制流程,这些看似外围的组件竟能显著影响智能体的最终表现。传统的做法是每次为不同模型或任务手工搭建静态框架,但HarnessX提出了全新的思路:让运行时装备像生物一样进化。

这个系统拥有三个核心武器。首先,它通过一种“替换代数”将不同类型的装备组件灵活组装;然后,依靠名为AEGIS的演化引擎,它能从智能体执行过程的轨迹中学习,自动调整装备配置,其机制与强化学习有异曲同工之妙;最后,它把执行轨迹不仅用于更新装备,还反馈给模型训练,形成一个闭环。

测试结果令人振奋:在ALFWorld、GAIA、WebShop、tau^3-Bench和SWE-bench Verified这五个覆盖不同场景的基准测试中,HarnessX带来了平均14.5%的性能提升,其中表现较弱的基准提升幅度高达44%。这暗示着智能体的进步不一定非要依赖更大的模型或更复杂的算法,从执行反馈中优化运行时接口,是一个可行且见效的补充路径。

这项研究提醒我们,当AI的发展聚焦于模型参数时,那些连接模型与真实世界的桥梁——运行时装备,或许才是下一个突破的关键。让智能体学会如何更好地“使用工具与策略”,可能比简单堆砌算力更重要。

2026年6月15日

想象一下,如果机器人能从海量视频中自学物理运动规律,而无需为每个机器人手臂贴上专属的动作标签,那该多高效?这正是μ0(读作“mu-zero”)世界模型的雄心所在。传统方法要么像像素空间视频模型那样,耗费大量算力去重建每一帧的细节画面——就像画家非要给每片树叶上色;要么像直接动作模型那样,需要为每个机器人姿态准备专门的训练数据,这就像请老师给每个学生单独编教材,很难规模化。

μ0走了第三条路:它不预测像素,也不直接学习动作,而是聚焦于一个更简洁、更通用的目标——预测3D轨迹。具体来说,它只关注在操作过程中最关键的交互点,比如工具尖端、物体表面、手指和接触区域,然后预测这些点在空间中的平滑3D路径。这形成了一个轻盈、不依赖具体机器人躯体的运动接口,好比用简笔画取代了高分辨率照片,保留轮廓却省去冗余。

为了让模型能从多样的视频源中学习,研究者准备了TraceExtract系统。它像一个自动化的动画师:从视频中自动挑选关键点,构建在全局坐标系中对齐的轨迹,并将各段运动与分层级的语言描述关联起来。这套系统产出的监督数据,被用来预训练μ0。μ0本身由预训练的视觉语言骨干模块和一个模块化的轨迹专家模块构成;后者用B样条控制点来表征每个查询点,并预测未来轨迹。

实验结果清晰显示出μ0的优势:在2D和3D轨迹预测任务上,它都优于基线模型——包括专门的轨迹预测模型和将轨迹token化的视觉语言模型。更重要的是,由于μ0是冻结且可重用的,它可以与各种下游机器人的动作专家模块配对使用。尽管其预训练阶段完全不涉及动作监督,但最终部署时,由它提供的轨迹条件策略,在性能上竟能与全程带动作监督训练的VLA模型(如π0)一较高下。

这项研究传递了一个简单而深刻的信号:在构建可跨形态、可扩展的机器人学习基础时,也许我们需要的不是更复杂的标签,而是更聪明的表征——一条流畅的3D轨迹,足以串联起海量视频数据与未来的机器人动作。当模型学会预测物体和人手将要到达的位置,动作本身便成了一种自然的后续。

2026年6月15日

在当今的文本到图像生成领域,大型语言模型虽然无处不在,却往往只扮演“编码器”的配角——它们负责理解文字提示,而真正的图像去噪工作却由独立训练的新模型完成。这种分工导致了一个尴尬的断层:语言模型的强大先验知识,在视觉生成环节很难被充分释放。

直到“表示自编码器”的出现,才打破了这一僵局。它巧妙地将生成目标转向了语义结构化的视觉表示,创造出一个与预训练语言模型先验知识更加兼容的潜在空间。这就像为两个世界搭建了一座桥梁。

受到多模态大语言模型的启发——在这些模型中,仅仅一个简单的MLP投影仪就能将干净的视觉表示与预训练语言模型对齐——研究者们想到了一个更大胆的尝试:能否把这个对齐机制,从“干净”的视觉输入,延伸到充满噪声的视觉输入?于是,他们直接把多模态大语言模型本身,重新用作“噪声表示编码器”。

这就是RepFusion的核心创新。它让多模态大语言模型处理噪声视觉表示,然后将输出作为扩散Transformer的条件信号。在推理成本相近的对照实验中,RepFusion展现了显著优势:它轻松超越了那些将所有计算能力都分配给新初始化去噪模型的基线方法。

这些结果揭示了一个重要洞察:多模态大语言模型其实早已内嵌了去噪视觉表示的强大先验。通过让这些模型持续处理逐步演化的噪声表示,现代文本到图像系统可以将宝贵的测试时计算,高效地投入到对多模态大语言模型的反复条件调用中。

当语言模型不再只是理解文字,而是开始“看”到并修复噪声中的图像,人机共创的边界正在悄然模糊。或许真正的理解,始于对不完美之物的接纳与重塑。

2026年6月15日

在数学奥林匹克的世界里,金牌意味着人类智慧巅峰的象征,而如今,一个名为MaxProof的AI框架正在改写这一规则。MiniMax-M3系列中的M3模型,通过一种创新的“群体级测试时间扩展”策略,在IMO 2025和USAMO 2026上分别取得了35/42和36/42的成绩,双双超越人类金牌门槛。这背后的秘密,是一套精心设计的“三位一体”能力:证明生成、证明验证,以及基于批评的证明修复。M3模型首先被训练出这三种能力,其中验证环节依赖于一种低误报率的深度防御生成验证器,确保每一步推理的可靠性。最终,这些能力被整合进一个统一的M3模型中。

然而,真正的突破发生在测试阶段。MaxProof不再仅仅将模型视为一个简单的“解题机”,而是让它同时扮演生成器、验证器、精炼器和排序器的多重角色。在解题时,系统会先搜索大量候选证明,形成一个“证明群体”,然后通过类似锦标赛的淘汰机制,层层筛选,直到选出唯一的最佳证明。这种“以量取胜”的搜索策略,让M3在复杂证明题中展现出令人惊叹的稳定性。

值得注意的是,这不仅是数字上的胜利。人类金牌选手通常需要数小时甚至数天攻克一道难题,而M3的测试时间扩展框架通过并行搜索和迭代优化,将数学证明问题转化为可计算的群体决策过程。当然,这并不意味着AI已经彻底征服数学——目前的成功仍局限于特定竞赛题型,且依赖大量计算资源。但它揭示了另一个可能性:当AI被赋予“自我批判”和“群体协作”的能力时,它能否突破人类思维的局限?至少,在数学奥林匹克的赛场上,答案正变得愈发肯定。当机器开始在人类智力巅峰的竞技场中夺牌,我们或许该重新思考:什么是真正的证明,什么又是创新的边界?

2026年6月15日

在机器人操控领域,世界动作模型(WAM)往往依赖预训练视频生成模型中的重建导向分词器来保持视觉保真度,但像素级别的重建对学习“未来预测与指令跟随之间的动力学”帮助有限。针对这一痛点,研究团队提出了一种全新的表征中心世界动作模型——RepWAM,其核心在于构建语义视觉-动作潜空间:他们训练了一个表征视觉-动作分词器,将视觉输入转换为对齐的视觉编码和潜在动作编码;随后,在语言指令的引导下,让WAM预训练任务同时预测未来的视觉状态以及连接它们的潜在动作,最后再通过真实机器人轨迹的微调实现闭环操控。在真实环境与仿真基准测试中,RepWAM在多种操控场景下都展现了强劲的性能,而消融实验进一步证实,语义导向的视觉-动作分词比传统的重建导向分词更具优势。

研究中几个关键要点:一是传统WAM采用的重建分词器虽然保留了视觉细节,却难以捕捉与环境交互的“指令-动作”因果链;二是RepWAM通过约束视觉与动作嵌入在潜空间中对齐,让模型不仅“看到”未来画面,还能“预演”如何通过动作达成目标;三是模型在预训练阶段结合语言指令进行联合学习,提升了泛化能力;四是实验覆盖了桌面抓取、抽屉开关、物体重排等典型操控任务,表现优于多个基线模型;五是团队计划开源代码与权重,推动领域发展。

从更宏观的视角看,这项研究揭示了一个关键转向:对机器人来说,“看清”世界固然重要,“理解”世界如何因动作而改变——并且是用语言可描述的方式——才是通往通用策略的桥梁。当视觉与动作在语义空间中共振,机器人学到的便不仅仅是像素的排列,而是一种因果的逻辑。这或许正是未来机器人与人类协作时,无需大量示范就能领会意图的第一块基石。

2026年6月15日

想象一下,智能体不仅能自动提出科学假设,还能自主验证并迭代出超越人类设计的解决方案。这正是基于大语言模型的智能体正在展现的潜力。然而,随着模型能力不断提升,研究团队发现,自主科学发现的瓶颈正悄然转移:从如何设计智能体的工作流,转向如何设计智能体的环境——那些塑造智能体行为的资源、约束和接口。他们称之为“环境工程”:构建能够放大有益行为(如开放式探索、系统性产物管理、智能体间协作)同时抑制有害行为(如奖励欺骗、高摩擦人工监督)的环境。为此,该团队推出了EurekAgent系统,从四个维度对环境进行工程化:权限工程(确保受限执行与隔离评估)、产物工程(基于文件系统和Git的协作)、预算工程(预算感知的探索)以及人在回路工程(便捷的人工监督与干预)。EurekAgent在多项数学问题、内核工程和机器学习任务上取得了新的最优结果,其中在26圆堆积问题上以不到11美元的总API成本发现了SOTA结果。代码和结果已开源。这一突破表明,环境工程正成为开发可靠自主研究智能体的核心研究方向。当智能体被赋予恰当的环境,它们能释放出超乎想象的科学创造力——而设计这样的环境,或许比设计智能体本身更加重要。

2026年6月15日

想象一下,全世界数百万个AI代理正在同时上演一出荒诞剧:它们各自反复从零开始阅读同一份文档,每一遍都重新执行大模型中最耗算力的“预填充”步骤,只为重建一个与先前代理一模一样的“键值缓存”。同一个答案,被计算了百万次。这听起来像是效率噩梦,但一个简单到近乎冒犯的提议或许能终结它:只计算一次。

让发布者预计算文档的键值缓存,然后允许其他代理付费加载并跳过预填充。实验证明,这个方法不仅可行,而且与从头预填充在输出上完全一致(24/24个贪婪采样token,logits层面匹配),精度零损失。以Qwen3-4B模型为例,加载预计算缓存的算力成本仅为预填充的1/9到1/50,且随着文档长度增加,差距急剧扩大(预填充的注意力复杂度随长度平方增长)。仅一次复用就能收回预计算的投资。

但关键在于:缓存应该存在哪里?直接传输键值缓存行不通,因为它几乎不可压缩,每次加载的出口流量成本甚至超过它要替代的预填充。而将缓存托管在服务提供者端——就像生产环境中的提示缓存那样——则完全消除了出口流量。其中蕴藏的价值有多大?实测数据表明,为一个热门文档(3774个token)服务8000万个代理时,重新预填充的总成本约150万美元,而复用缓存的算力成本仅约3万美元——相差49.7倍。当下API服务商收取的缓存读取手续费约为正价推理的10%,这意味着用户端已经获得10倍折扣,而实测的50倍算力节省远超这个数字,差额便成为服务商利润:每份热门文档可达数百万美元。

我们勾勒了一个面向代理的原生预填充内容分发网络,并将无损键值压缩和跨参与方支付层留作开放问题。当计算的本质从重复劳动变为一次付出、无限分享,未来每个数字文档或许都自带一个“共享大脑”,而代理们只需付一次入场券,就能免去亿万次徒劳的重复。

2026年6月15日

一份最新报告揭示了一个名为HyVLA-0.5的端到端机器人学习系统,它并非只解决某个单一环节,而是企图打通整个机器人学习的全链路。这个系统背后的团队告诉我们,要让机器人真正学会在现实世界中行动,光有算法远远不够。他们构建的HyVLA-0.5涵盖了六个关键环节:数据从哪里来,模型长什么样,如何在通用数据集上先“预习”,再针对特定任务“精修”,然后用强化学习进行“课后复盘”,最后把学到的能力部署到真实的机械臂上。每个环节都像拼图的一块,缺一不可。

这不仅仅是一个技术报告,更像是一份现代机器人训练的“操作手册”。数据收集是起点——团队记录了机器人如何抓取、摆放、移动各种物件,这些原始数据构成了学习的基础。模型设计则决定了机器人“大脑”的内部结构,HyVLA-0.5采用视觉-语言-动作(VLA)架构,让机器人既能看懂世界,也能听懂指令。继续预训练(continued pre-training)是一个聪明的策略:先让模型在大规模通用数据集上“博览群书”,建立对物理世界的直觉,然后再用机器人特定数据做监督微调,让泛化能力更强。最有趣的是强化学习后训练(RL post-training),这相当于让机器人在模拟环境中反复试错,就像人类运动员不断修正动作一样,最终输出的策略不仅准确,而且鲁棒。最后,所有模型需要面对真实的物理世界——部署时可能遇到光照变化、物件位置偏移、传感器噪声,这些都是训练时从未见过的“意外”。

值得注意的是,HyVLA-0.5的每一层组件都承担着明确且不可替代的功能。数据收集决定了知识的上限;模型架构决定了学习效率;预训练和微调决定了迁移能力;RL后训练决定了执行稳定性;部署则验证了整个系统的实用价值。这种全栈式的设计思路提醒我们,机器人智能的进步不是某一次算法突破就能完成的,而需要在每一个环节上做扎实的工程创新。

当机器人开始在厨房里抓取鸡蛋、在工厂里拧紧螺丝、在家庭里递送药品时,我们看到的不仅是一个算法的成功,更是无数个数据采集器、训练脚本、模拟环境和硬件调试共同编织的成果。HyVLA-0.5或许只是一个起点,但它告诉我们:未来的机器人,将不再是实验室里精心呵护的样本,而是能够在真实世界中不断演化的伙伴。

2026年6月15日

在三维重建领域,一直存在一个两难抉择:依赖深度估计的方法虽能忠实对齐输入像素,却只能捕捉可见表面;而图像生成3D模型的方法虽能生成完整形状,却常常与输入图像存在偏差。如今,一项名为World Tracing的技术试图打破这一僵局。

World Tracing是一种生成式像素对齐几何表示。它不满足于仅仅预测一个深度值,而是为每个像素预测一整个有序的3D点堆栈:第一层代表可见表面,后续层则按从近到远的顺序对应被遮挡的表面。这就像为每一个像素赋予了“透视”能力,不仅能看到表面,还能推测背后藏着的几何结构。

为了实现这种表示,研究团队设计了一个名为WT-DiT的世界追踪扩散变压器。它巧妙地处理了多层几何信息:将不同层视为独立的去噪令牌,并通过分解式注意力和全局注意力让这些令牌相互沟通。训练过程中,WT-DiT采用像素空间的流匹配方法,并引入混合噪声调度——在平衡可见表面重建与遮挡几何生成之间找到了微妙的平衡。

实验结果显示,World Tracing在物体、场景和动态基准测试中都取得了显著成效。它不仅能精确重建可见表面,还能生成完整的几何形状,在性能上超越了传统的深度预测器和图像到3D生成模型。更重要的是,它还保持着2D到3D的精确对应关系,这意味着用户可以基于它进行文本驱动的3D场景编辑、基于几何条件的新视角视频合成,甚至无需额外训练即可与带纹理的网格生成器集成。

这项技术的出现,或许意味着三维重建不再需要在“忠实”与“完整”之间做出牺牲。当每一个像素都能看到它背后隐藏的世界,计算机对三维空间的理解将变得更加立体、更加真实。

2026年6月15日

想象一下,一个智能助手刚刚学会如何在Windows系统中操作文件,下一秒系统界面完全更新,快捷键全部改变;它刚刚掌握某个社交平台的推荐规则,平台却悄悄调整了算法;它才记住用户喜欢喝热美式咖啡,用户却突然转成冰拿铁。这正是当前最先进的大语言模型智能体每天面临的真实困境——因为它们被训练在静态环境中测试,却要被投入一个永远在变化的世界。

为了量化这种动态挑战,来自卡内基梅隆大学、约翰霍普金斯大学、新加坡管理大学等机构的研究团队构建了一个名为EvoArena的基准测试套件。这个测试不再像传统评估那样只给智能体一个固定的场景,而是让它经历一系列有逻辑关联的环境变化,就像真人一样面对不断更新的现实条件。EvoArena覆盖了三个核心领域:终端操作,比如命令行工具升级、软件版本迭代;软件交互,比如社交平台界面调整、功能变更;以及社会偏好,比如用户口味、价值观随着时间推移的自然演变。

在研究过程中,团队获得了一个令人警醒的发现:当前最优秀的智能体在EvoArena上的平均准确率仅为39.6%,这意味着超过六成的情况下,它们无法在环境变化后依然正确完成任务。这并非因为它们不够聪明,而是因为它们缺乏一个关键能力——理解并利用“变化本身”来指导自己的行动。

为此,研究团队设计了一种名为EvoMem的新型记忆范式。与传统记忆不同,EvoMem不再只是简单记录静态信息,而是将记忆本身打包成结构化的更新历史。打个比方:普通记忆就像一个不断被重写的便利贴,每次变化后只保留最新的内容;而EvoMem则是一部完整的日记,记录着每一次变化发生的时间、原因和前后对比。这种“补丁式”的记忆让智能体得以回顾自己经历过的所有变化,从而推理出环境演变的趋势和规律。

实验结果显示,EvoMem在EvoArena上平均提升了1.5%的准确率。这个数字看似不大,但考虑到智能体需要应对不同的演变类型和复杂程度,每一次微小的提升都代表在真实部署中减少一次可能致命的失误。更值得注意的是,EvoMem并非只在动态测试中有效——它在GAIA基准上提升了6.1%的准确率,在LoCoMo基准上提升了4.8%,这表明即使在传统静态评估中,结构化记忆也能帮助智能体更好地理解上下文信息。

最具突破性的效果体现在一个专门设计的连锁任务中:智能体需要连续完成一系列有逻辑关联的演化子任务。例如先学会老版软件的操作,然后应对软件升级,再用升级后的功能完成新任务。在这种“链条式”考核中,EvoMem将整体成功率提升了3.7%,而传统智能体几乎无法完成超过两步的连锁任务。

通过机械分析,团队发现EvoMem之所以有效,是因为它显著改善了智能体在记忆中捕捉和保留证据的能力。传统记忆模式下的智能体往往忘记关键的变化节点,而EvoMem保存了完整的演化环境状态,即使在冗长的多轮交互后,智能体仍能追溯到最初的变化起点,做出更合理的决策。

这项研究向我们揭示了一个严峻的现实:我们一直在用静态的考卷,培养应该在动态世界里生存的智能体。当大模型在固定题库上取得99%的准确率时,我们很容易误以为它们已经足够完美。但真正的智能,从来不是在静止的迷宫里寻找出口,而是在暗流涌动的河流中不断调整航向。正如EvoArena所证明的,环境变化才是考验智能的试金石。或许,下一阶段的AI进化,不在于背下多厚的百科全书,而在于学会拥抱变化本身。

2026年6月15日

近年来,On-policy蒸馏(OPD)通过将在线策略的学生轨迹与密集的教师监督相结合,已成为后训练中备受青睐的配方。然而,这种混合方式究竟如何改变模型的参数,一直是个未解之谜。研究者通过对多个语言和视觉-语言模型对及OPD用例的分析,揭示了两大核心发现。

首先,在稀疏性方面,OPD的更新量非常小且坐标稀疏。这些更新均匀分布在各个层中,其中前馈神经网络(FFN)模块的相对变化最为显著。这种稀疏结构具有实际意义:仅训练被发现的子网络,就能几乎达到完整训练的恢复性能。不过,稀疏支撑并不意味着可以舍弃自适应优化——之前被报道在强化学习与视觉推理(RLVR)中表现不俗的SGD,在OPD优化器消融实验中远不如AdamW。这表明,密集的教师监督保留了有用的动量结构和异质二阶矩尺度。

其次,在几何特性上,这些更新在数值上是满秩的,但谱能量高度集中。它们大多偏离源权重的主要奇异子空间,并不成比例地落在源权重接近零的坐标上。综合来看,这些发现暗示密集的教师监督并未将OPD转变成普通的密集参数重写——相反,OPD保留了在线策略后训练的重要几何特征。

稀疏的更新并非空洞无物,而是精准地触碰了模型最薄弱的一环;偏离主方向的轨迹则提醒我们,后训练的关键或许不在于填补所有空白,而在于找到那些值得重塑的细微缝隙。

2026年6月15日

十年前,打造人类级通用人工智能还只是科幻小说里的妄想;如今,它却已成为众多顶级AI机构未来十年的具体目标。一旦实现,这个改变将像一块巨石投入人类社会的水面,激起层层深远而复杂的涟漪。究竟在通用人工智能之后的“后AGI世界”里,AI会沿着怎样的阶梯继续进化?

一份新报告指出,这条演进的终点被称为“通用AI”——一个理论上已经被透彻理解的概念。然而,真正引人入胜的——也是报告的核心焦点——是普通人脑与大型人类组织之间的智能鸿沟。那个跨越这一步的系统,被定义为“人工通用超级智能”:一种比大型人类组织更聪明、更善于认知的实体。

那么,从人类级别的AGI到超级智能的“惊险一跃”有哪几条道路?报告勾勒了四条可能的路径:一是简单地继续扩大现有AGI模型的规模;二是AI范式的根本性突破;三是让AI自己学会改进自己——即递归式自我提升;四是让无数AI智能体像蜂群一样集结成庞大集体,从而涌现出更高级的智能。

但路从来不会一帆风顺。报告严肃讨论了这些路径上的摩擦与瓶颈:计算资源够不够?算法创新能否持续?社会监管会否踩急刹车?每一个疑问都指向一个关键问题:这些摩擦究竟是微不足道的小麻烦,还是足以阻断进程的拦路虎?

由于预测超级智能的进展存在巨大不确定性,我们无法排除AI进步在未来几年持续加速的可能。这意味着,一个流行的想象——人类级AGI像开关一样按动,世界就瞬间改写——可能并不准确。更贴合现实的图景是:AI引发的突破将在科学和技术的各个领域接连引爆,带来交错叠加的变革浪潮。面对这种前景,准备工作的规模必须跨越国家、跨越学科、跨越想象。

未来从来不会敲门,它只会在我们习以为常的每一天里,慢慢变成现实。真正值得我们在意的,或许不是超级智能何时到来,而是当我们站在那道门前时,手上握着的是工具,还是谜题。

2026年6月15日

大型语言模型正在追求前所未有的超长上下文能力,从智能体工作流到代码级推理,再到持久记忆,都需要模型能够同时关注数十万甚至百万级别的token。然而,传统的softmax注意力机制具有二次方计算复杂度,这使得它在大规模部署中变得不可持续。为了解决这一瓶颈,研究人员提出了MiniMax稀疏注意力(MSA),这是一种基于分组查询注意力(GQA)构建的块状稀疏注意力机制。

MSA的设计核心在于一个轻量级的索引分支:它首先对键值块进行评分,然后为每个GQA分组独立选择Top-k子集,从而实现分组特定的稀疏检索,同时保持高效的块级执行。随后,主分支只对这些选中的块执行精确的块稀疏注意力。整个架构围绕简洁性和可扩展性原则精心设计,使其能够轻松地在各种GPU上高效部署。

为了将稀疏性转化为实际的速度提升,MSA与GPU执行路径进行了协同设计:使用无指数Top-k选择和KV外部稀疏注意力,在块粒度访问下提高了张量核心利用率。在拥有109B参数的原生多模态训练模型上,MSA表现与GQA相当,但在1M上下文长度下,每token注意力计算量减少了28.4倍。结合协同设计的内核,MSA在H800 GPU上实现了14.2倍的预填充加速和7.6倍解码加速。目前,该推理内核和由MSA驱动的生产级原生多模态模型已公开发布。

在长上下文LLM的进化之路上,MSA并非简单抛弃计算,而是学会了聪明地选择——它证明了有时候,做减法比做加法更需要智慧。当一个模型在百万token的海洋中只关注那些真正重要的块时,我们或许也应该反思:人类的注意力,是否也需要这样的稀疏性?

2026年6月15日

OpenRouter推出的Fusion API,正试图改写AI模型的竞争规则。它不再依赖单一模型的“神力”,而是将多个模型组成一个评审小组:用户提出问题时,Fusion同时向DeepSeek V4 Pro、Kimi K2.6和Gemini 3 Flash等多个模型发送请求,再由一个独立的评估模型从各模型的回复中择优融合,输出最终答案。这种“集思广益”的策略效果惊人:在Perplexity基准测试中,这个模型小组取得了64.7%的得分,仅比Fable 5的65.3%低了0.6个百分点,但成本却只有后者的一半。

OpenRouter首席执行官Alex Atallah将Fusion定位为对“单一模型统治论”的挑战:“AI的未来是神经多样性,而非单一模型接管。”这一理念并非横空出世——Perplexity Computer、Grok等平台此前就曾尝试过类似的模型委员会方案。但Fusion的价值在于其便捷的API接口,以及它恰好诞生于Fable等前沿模型因限制而“一票难求”的特殊时期。当用户为获取尖端性能而绞尽脑汁时,Fusion提供了一种更具性价比的替代方案。

或许,AI的战场正在悄然改变:从某个模型的一枝独秀,转向多个模型的协同进化。当成本与性能的平衡点被重新定义,未来用户对“最好模型”的追求,可能不再是非此即彼的单选题。

2026年6月15日

2025年初,一家美国顶尖AI公司Anthropic突然宣布,从全球范围内撤回其刚刚发布的两款最强大模型——神话(Mythos)与寓言5(Fable 5)。这一决定并非技术故障或用户反馈所致,而是源于特朗普政府下达的一道“出口管制指令”:要求Anthropic立即阻止所有非美国公民访问其模型,甚至包括身处美国境内的外国人。

令人意外的是,这场行动的背后推手竟是Anthropic的投资方亚马逊。据内部消息,亚马逊的团队率先向政府举报了寓言5模型中存在的一个潜在漏洞——一个Anthropic称之为“非普遍性越狱”的安全问题。该漏洞被报告给官员后,迅速升级为出口管制理由。然而,Anthropic方面表示,他们仅收到了“口头证据”来证明这一越狱的真实性,并指出相同程度的担忧同样存在于市面上的其他模型,如GPT 5.5。

更深的隐忧浮出水面。据媒体Semafor报道,这一举措部分源于对某个中国关联团体可能已经接入神话模型的担忧,但具体细节尚不明确。指令原本还要求禁止Anthropic内部的外国籍员工访问其模型——该公司在全球拥有大量外籍研究人员。面对这一障碍,Anthropic索性暂停了所有人的访问权限,包括美国本土员工,以确保完全合规。

这场风波看似是一次安全事件,但其背后的政治博弈远比表面复杂。Anthropic的CEO阿莫迪(Amodei)曾长期积极呼吁对AI进行严格监管,如今这种监管却以比他预期更混乱的形式到来了。更值得玩味的是,Anthropic与华盛顿的关系一直暗流涌动——即便美国政府一面要求Anthropic限制访问,另一面却在考虑对竞争对手OpenAI进行股权注资。此刻的全球撤回,早已超越了越狱漏洞本身,成为科技巨头、地缘政治与资本博弈交织下的一次深层震荡。

在权力与边界的拉锯中,最为脆弱的或许不是技术,而是它被赋予的信任。当AI的闸门可以被一声令下关闭,涌动的智能便不再是普惠的工具,而成为无形的国境线。

2026年6月11日

大语言模型的推理能力提升中,在线蒸馏(On-policy distillation, OPD)正被越来越广泛地使用,但其训练过程的内部机理却如同一个黑箱。为了揭开这层迷雾,研究人员深入分析了OPD在参数空间中的更新轨迹,并与监督微调(SFT)和带可验证奖励的强化学习(RLVR)进行了系统对比。

通过一套精心设计的参数空间诊断工具,研究揭示了OPD独特的“松弛离主方向”状态:相比SFT,OPD的更新仅影响更少的权重,并更强地避开参数空间的主方向;而对比RLVR,它又不那么严格受限。这种静态定位只是表面现象——OPD真正令人着迷的是一种称为“子空间锁定”的动态特征:其累积更新在训练初期迅速进入一个狭窄的低维通道,仿佛被无形的轨道所束缚。

实验进一步显示,如果将训练限制在早期形成的这个更新子空间内,OPD的性能几乎不受影响,但SFT却会显著下降。这意味着这个被锁定的子空间对于OPD而言功能完备,但对SFT却远远不够。控制实验还发现,稀疏化更新令牌或将rollout生成改为离策略,都不会改变这种秩动态;而将OPD目标与RLVR混合则会彻底改变更新轨迹。

这些发现指向一个核心结论:在线蒸馏并非简单介于SFT和RLVR之间的过渡状态,而是在参数空间中独立塑造了一套属于自己的更新几何。这提醒我们,不同训练方法在参数空间的底层运作方式可能截然不同,理解这些差异才是优化大模型训练的关键。

2026年6月11日

大语言模型的后训练阶段,强化学习早已成为关键一环。但一个棘手的问题始终存在:训练与推理之间的不匹配,以及策略的陈旧,使得模型更新常常偏离正轨。为了稳住优化过程,主流方法如PPO和GRPO采用比值裁剪机制——将重要性比值限制在某个范围内。然而,在长尾词汇分布中,这个比值很容易变成分布偏移的蹩脚代理人,导致控制失效。

最近出现的DPPO试图解决这一矛盾:它用基于散度的掩码取代比值裁剪,以采样token的绝对概率偏移定义信任区域。但DPPO仍然依赖硬掩码——一旦某个token的更新越过了信任区域的边界,哪怕方向有害,其梯度也会被直接丢弃,而非得到修正。这就像把偏离航线的船直接凿沉,而不是调整舵向。

针对这一缺陷,我们提出了DRPO(Divergence Regularized Policy Optimization)。它的核心思想很简洁:用平滑的优势加权二次正则化项取代硬掩码。当策略更新偏离信任区域时,DRPO不会粗暴地截断梯度,而是施加一个连续的、有界的梯度权重——越界越远,惩罚越重,同时仍保留校正信号。这种设计既保留了DPPO的信任区域几何结构,又让模型在边界之外也能获得有意义的反馈,而不是一刀切的“沉默”。

实验覆盖了从百亿到千亿的不同模型规模、多种架构和精度设置。结果显示,DRPO显著提升了大语言模型强化学习训练的稳定性与效率。比如,在连续训练中,DRPO的奖励曲线更平滑,波动更小;而DPPO则偶尔会出现剧烈抖动,甚至训练崩溃。更重要的是,DRPO的收敛速度也更快,因为每次更新都在“温和纠正”而非“彻底抛弃”。

真正的优化,不是在错误发生后切断一切联系,而是在每一次偏差中保留转向的动力。

2026年6月11日

想象一下,当一个机器人试图从桌上拿起一个杯子时,它的手在精准抓取,脚却只能笨拙地按部就班移动——这几乎就是当前最先进的人形机器人的真实写照。问题出在它们的大脑被割裂成两半:一个高层策略专管手臂和手掌,另一个低层控制器只负责腿脚不摔倒,两个系统活在完全不同的动作语言里。腿脚被降级为“平衡工具”,而不是能主动执行复杂任务的伙伴。这种“上下半身分裂”让机器人无法像人类那样,在弯腰攀爬时同步协调手脚。

如今,一个名为MotionWAM的突破性方案正在打破这种僵局。它用一种“统一运动潜空间”取代了割裂的架构,让机器人从单个眼动摄像头实时捕获的画面中,同时预测包含行走、躯干扭动、高度调整、脚部交互和手部操作在内的全身运动指令。这背后的引擎是一个经过预训练的视频世界模型——原本只在桌面上玩转小物件,现在被一个三阶段的训练框架逐步改造,先是适应机器人真实的第一人称视觉动态,再无缝衔接到目标人形机器人的身体结构。

在九个真实的Unitree G1机器人任务测试中,MotionWAM不仅实现了在实时运行,还在整体成功率上碾压了基于视觉-语言-行动(VLA)的基线模型——后者即使经过相同演示数据的微调,成功率也被甩开超过30%。更令人印象深刻的是,它展现出了一种以往“上下半身解耦”策略永远无法触及的能力:在操作的同时,脚也能主动参与任务驱动的交互,比如在需要时精准踩踏踏板或调整站位。

这些结果暗示着一个跃迁:视频预训练的世界动作模型,终于从桌面操作的温室内被释放出来,开始向着像人类一样协调、优雅的全身控制跨越。当我们不再把腿脚当作维持平衡的累赘,而是视为全身协作的主动伙伴时,人形机器人的运动智能才刚刚真正起步。

2026年6月11日

如今,大语言模型处理长文本时,内存成了最大的绊脚石——每多一个词,KV缓存就膨胀一分。为了给模型“减负”,研究者们试过压缩缓存,但往往顾此失彼:要么质量大跌,要么耗时太长,还和现有推理引擎不兼容。这时,编码器-解码器架构成了诱人的替代方案:它能把冗长的词序列“拧”成一段短小的潜在向量,让解码器轻松消化。然而,之前的尝试总在精度与效率的拉锯战中败下阵来。

直到最近,一个团队决定重新审视这条路。他们从零开始,预训练了多种架构变体,像筛选种子一样找出最佳设计方案。最终,他们选出了一组参数:编码器0.6B、解码器4B,在超过350B token的数据上持续预训练,并尝试了1:4、1:8、1:16三种压缩比。这组模型被命名为Latent Context Language Models(LCLMs),它们在通用任务表现、压缩速度和峰值内存使用之间,画出了一条更漂亮的帕累托曲线。

更妙的是,LCLM可以成为长时任务代理的轻盈脊梁——代理不再需要拖着冗长的上下文奔跑,而是像翻阅摘要那样快速扫过压缩后的信息,只在必要时才展开相关片段。这或许意味着,在AI推理效率的赛道上,压缩不一定非要妥协,而是可以走向一种更聪明的平衡。

2026年6月11日

在人形机器人控制的漫长征程中,一个古老的结构始终困扰着研究者:我们能否让机器人像人类一样,拥有一个能理解复杂指令的“大脑”,和一个快速执行动作的“小脑”?现有的方法要么依赖繁琐的奖励机制设计,只能执行少数技能;要么依赖动作追踪器,难以适应新的输入方式。直到OMG的出现,这个设想才首次在真实世界中有了清晰的答案。

OMG的核心设计灵感直接来源于生物运动系统:它由两个模块构成——一个可扩展的“大脑”,负责根据语言、音频或人类参考动作等多样化条件进行推理;一个反应灵敏的“小脑”,负责执行即时运动跟踪。但实现这一愿景面临两大难题:其一,如何获取海量高质量数据来训练这种通用控制能力;其二,如何让生成器能够处理复合的、可扩展的多模态输入。

为了解决这些问题,研究者建立了一套极其精细的数据策划、过滤和标注流程。他们收集了覆盖各种动作场景的数据,通过严格的质量控制确保每一帧都有效,然后为不同模态的条件输入打上标签。在此基础上,他们搭建了一个基于扩散模型的运动生成主干网络。扩散模型近年已在图像和视频生成领域大放异彩,现在被首次用于人形机器人全身控制。它能够同时接受语言指令、音频信号甚至人类动作视频作为条件,输出对应的机器人运动轨迹。

实验结果表明,OMG在多个维度上展现了惊人的性能。在标准测试中,它实现了当前最优的全身控制效果,并且随着模型规模增大,性能持续提升——这是一种典型的“模型扩展行为”,表明它具备向更强大通用模型进化的潜力。更重要的是,它能够高效地适应新的数据分布和新的输入模态,比如只需少量新数据就能学会之前从未见过的动作。

这项研究的意义在于,它为构建人形机器人的基础模型迈出了具体的一步。当机器人不再需要针对每个新任务重新设计奖励函数,而是像人类一样通过听、看、读来理解指令并执行动作,我们才真正接近了通用人形机器人的未来。当然,从实验室到真实世界,从单一动作到复杂连贯的行为序列,还有很长的路要走。但OMG至少证明了一件事:将机器人控制划分为大脑与小脑,并用扩散模型来桥接它们,这条路是走得通的。未来的机器人或许不再需要挨个学习技能,而是像我们读一本书、听一首歌那样,自然地获得新能力。

2026年6月11日

想象一下,一个智能体需要从视频中学习物理规律和动作后果——比如扔球会飞、杯子掉地上会碎。传统自回归视频生成模型(即所谓的“世界动作模型”)在训练时,每次只预测下一个视频片段,却对更远的未来缺乏感知。这种“短视”导致训练收敛缓慢,尤其在高速帧率(如50帧/秒)下,精度也大打折扣。更糟的是,推理时还需反复迭代去噪,耗时巨大。

研究人员从大语言模型的多token预测中得到启发,提出了一个名为Next Forcing的新框架。其核心是一套“多块预测”(MCP)训练目标:为主体模型添加一组轻量级辅助模块,让它们同时预测未来多个时间步的视频块(下一个、下两个、下三个)。这些MCP模块之间形成因果链,前一个预测的结果能被传递给后续模块,从而使得近未来的信息帮助预测更遥远的未来。同时,主体模型的中间特征被融合到这些模块中,产生密集的多尺度时间监督信号,反向增强主体模型的学习。

效果立竿见影。在50帧/秒的机器人操作数据集上,仅训练5000步,Next Forcing就比现有方法LingBot-VA相对提升93.1%,并实现2.3倍的训练加速。在RoboTwin基准测试的Clean和Random设置下,它分别达到94.1%和93.5%的准确率,创下新纪录。推理时,MCP模块可以保留,与当前块并行预测下一个块,从而将推理速度提升2倍。此外,在检验物理规律的PhyWorld基准上,Next Forcing同样显著优于前人;在通用视频预训练任务上,FVD(视频生成质量指标)降低了超过50%。

这项工作的启示在于:让模型学会“远见”并不需要更深的网络或更大的参数量,只需改变预测目标——从只盯着一小步,到同时望向几步之遥。当模型能预判更长远的因果链条时,不仅学得更快、更准,还能跑得更快。或许,真正接近通用智能的关键,就在于如何巧妙地“逼迫”模型提前思考几步。