EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年6月15日

在大型语言模型的强化学习训练中,生成阶段(rollout)始终是效率的瓶颈。多令牌预测(MTP)本应是加速的利器——通过投机解码一次生成多个令牌,理论上可显著提升吞吐量。然而,研究者们发现一个令人困惑的现象:当模型进入RL训练阶段后,MTP的接受率会急剧下降,导致加速效果大打折扣。

Bebop团队系统性地揭开了这个谜团。他们首先发现,MTP接受率的下滑并非偶然,而是与模型熵值的波动呈清晰的负线性关系。RL训练过程中,模型探索性增强,输出分布变得更分散,就像调高了一步一个脚印的随机性,使得MTP的预测更易被拒绝。这一发现直指问题核心:传统贪婪式草稿采样在这种动态环境下难以适应。

如何破局?Bebop提出了双管齐下的方案。其一,采用概率拒绝采样替代贪婪采样,显著减轻了熵波动对接受率的干扰;其二,针对传统交叉熵或KL散度训练目标的不足,创新性地设计了端到端的总变差(TV)损失函数——它直接优化多步拒绝采样的接受率。实验显示,这一改进将接受率提升了约10%,在数学推理、代码生成和智能体任务中稳定达到95%以上,推理吞吐量额外提升25%。

更令人意外的是,Bebop发现:在RL训练之前进行的MTP预训练,配合端到端TV损失和拒绝采样,就能在整个RL训练过程中保持稳定一致的接受率和加速比,完全无需在RL过程中频繁更新MTP参数。这意味着复杂的在线MTP更新成本可以彻底免除。在Qwen3.5、Qwen3.6和Qwen3.7模型上的异步RL训练中,Bebop实现了高达1.8倍的端到端加速。

从观察到归因,从设计到验证,这项工作不仅揭示了RL与MTP交互的深层机理,更提供了一套立即可用的工程方案。当算力竞赛日趋白热化,有时真正的突破不在于堆砌资源,而在于理解算法内在的物理规律,然后顺势而为。

2026年6月15日

智能体的表现真的只靠模型本身吗?一项新研究给出了否定的答案。研究人员发现,一个叫HarnessX的系统正在揭示一个被长期忽视的领域:AI智能体在执行任务时的“运行时装备”——包括提示词、工具、记忆和控制流程,这些看似外围的组件竟能显著影响智能体的最终表现。传统的做法是每次为不同模型或任务手工搭建静态框架,但HarnessX提出了全新的思路:让运行时装备像生物一样进化。

这个系统拥有三个核心武器。首先,它通过一种“替换代数”将不同类型的装备组件灵活组装;然后,依靠名为AEGIS的演化引擎,它能从智能体执行过程的轨迹中学习,自动调整装备配置,其机制与强化学习有异曲同工之妙;最后,它把执行轨迹不仅用于更新装备,还反馈给模型训练,形成一个闭环。

测试结果令人振奋:在ALFWorld、GAIA、WebShop、tau^3-Bench和SWE-bench Verified这五个覆盖不同场景的基准测试中,HarnessX带来了平均14.5%的性能提升,其中表现较弱的基准提升幅度高达44%。这暗示着智能体的进步不一定非要依赖更大的模型或更复杂的算法,从执行反馈中优化运行时接口,是一个可行且见效的补充路径。

这项研究提醒我们,当AI的发展聚焦于模型参数时,那些连接模型与真实世界的桥梁——运行时装备,或许才是下一个突破的关键。让智能体学会如何更好地“使用工具与策略”,可能比简单堆砌算力更重要。

2026年6月15日

想象一下,如果机器人能从海量视频中自学物理运动规律,而无需为每个机器人手臂贴上专属的动作标签,那该多高效?这正是μ0(读作“mu-zero”)世界模型的雄心所在。传统方法要么像像素空间视频模型那样,耗费大量算力去重建每一帧的细节画面——就像画家非要给每片树叶上色;要么像直接动作模型那样,需要为每个机器人姿态准备专门的训练数据,这就像请老师给每个学生单独编教材,很难规模化。

μ0走了第三条路:它不预测像素,也不直接学习动作,而是聚焦于一个更简洁、更通用的目标——预测3D轨迹。具体来说,它只关注在操作过程中最关键的交互点,比如工具尖端、物体表面、手指和接触区域,然后预测这些点在空间中的平滑3D路径。这形成了一个轻盈、不依赖具体机器人躯体的运动接口,好比用简笔画取代了高分辨率照片,保留轮廓却省去冗余。

为了让模型能从多样的视频源中学习,研究者准备了TraceExtract系统。它像一个自动化的动画师:从视频中自动挑选关键点,构建在全局坐标系中对齐的轨迹,并将各段运动与分层级的语言描述关联起来。这套系统产出的监督数据,被用来预训练μ0。μ0本身由预训练的视觉语言骨干模块和一个模块化的轨迹专家模块构成;后者用B样条控制点来表征每个查询点,并预测未来轨迹。

实验结果清晰显示出μ0的优势:在2D和3D轨迹预测任务上,它都优于基线模型——包括专门的轨迹预测模型和将轨迹token化的视觉语言模型。更重要的是,由于μ0是冻结且可重用的,它可以与各种下游机器人的动作专家模块配对使用。尽管其预训练阶段完全不涉及动作监督,但最终部署时,由它提供的轨迹条件策略,在性能上竟能与全程带动作监督训练的VLA模型(如π0)一较高下。

这项研究传递了一个简单而深刻的信号:在构建可跨形态、可扩展的机器人学习基础时,也许我们需要的不是更复杂的标签,而是更聪明的表征——一条流畅的3D轨迹,足以串联起海量视频数据与未来的机器人动作。当模型学会预测物体和人手将要到达的位置,动作本身便成了一种自然的后续。

2026年6月15日

在当今的文本到图像生成领域,大型语言模型虽然无处不在,却往往只扮演“编码器”的配角——它们负责理解文字提示,而真正的图像去噪工作却由独立训练的新模型完成。这种分工导致了一个尴尬的断层:语言模型的强大先验知识,在视觉生成环节很难被充分释放。

直到“表示自编码器”的出现,才打破了这一僵局。它巧妙地将生成目标转向了语义结构化的视觉表示,创造出一个与预训练语言模型先验知识更加兼容的潜在空间。这就像为两个世界搭建了一座桥梁。

受到多模态大语言模型的启发——在这些模型中,仅仅一个简单的MLP投影仪就能将干净的视觉表示与预训练语言模型对齐——研究者们想到了一个更大胆的尝试:能否把这个对齐机制,从“干净”的视觉输入,延伸到充满噪声的视觉输入?于是,他们直接把多模态大语言模型本身,重新用作“噪声表示编码器”。

这就是RepFusion的核心创新。它让多模态大语言模型处理噪声视觉表示,然后将输出作为扩散Transformer的条件信号。在推理成本相近的对照实验中,RepFusion展现了显著优势:它轻松超越了那些将所有计算能力都分配给新初始化去噪模型的基线方法。

这些结果揭示了一个重要洞察:多模态大语言模型其实早已内嵌了去噪视觉表示的强大先验。通过让这些模型持续处理逐步演化的噪声表示,现代文本到图像系统可以将宝贵的测试时计算,高效地投入到对多模态大语言模型的反复条件调用中。

当语言模型不再只是理解文字,而是开始“看”到并修复噪声中的图像,人机共创的边界正在悄然模糊。或许真正的理解,始于对不完美之物的接纳与重塑。

2026年6月15日

在数学奥林匹克的世界里,金牌意味着人类智慧巅峰的象征,而如今,一个名为MaxProof的AI框架正在改写这一规则。MiniMax-M3系列中的M3模型,通过一种创新的“群体级测试时间扩展”策略,在IMO 2025和USAMO 2026上分别取得了35/42和36/42的成绩,双双超越人类金牌门槛。这背后的秘密,是一套精心设计的“三位一体”能力:证明生成、证明验证,以及基于批评的证明修复。M3模型首先被训练出这三种能力,其中验证环节依赖于一种低误报率的深度防御生成验证器,确保每一步推理的可靠性。最终,这些能力被整合进一个统一的M3模型中。

然而,真正的突破发生在测试阶段。MaxProof不再仅仅将模型视为一个简单的“解题机”,而是让它同时扮演生成器、验证器、精炼器和排序器的多重角色。在解题时,系统会先搜索大量候选证明,形成一个“证明群体”,然后通过类似锦标赛的淘汰机制,层层筛选,直到选出唯一的最佳证明。这种“以量取胜”的搜索策略,让M3在复杂证明题中展现出令人惊叹的稳定性。

值得注意的是,这不仅是数字上的胜利。人类金牌选手通常需要数小时甚至数天攻克一道难题,而M3的测试时间扩展框架通过并行搜索和迭代优化,将数学证明问题转化为可计算的群体决策过程。当然,这并不意味着AI已经彻底征服数学——目前的成功仍局限于特定竞赛题型,且依赖大量计算资源。但它揭示了另一个可能性:当AI被赋予“自我批判”和“群体协作”的能力时,它能否突破人类思维的局限?至少,在数学奥林匹克的赛场上,答案正变得愈发肯定。当机器开始在人类智力巅峰的竞技场中夺牌,我们或许该重新思考:什么是真正的证明,什么又是创新的边界?

2026年6月15日

在机器人操控领域,世界动作模型(WAM)往往依赖预训练视频生成模型中的重建导向分词器来保持视觉保真度,但像素级别的重建对学习“未来预测与指令跟随之间的动力学”帮助有限。针对这一痛点,研究团队提出了一种全新的表征中心世界动作模型——RepWAM,其核心在于构建语义视觉-动作潜空间:他们训练了一个表征视觉-动作分词器,将视觉输入转换为对齐的视觉编码和潜在动作编码;随后,在语言指令的引导下,让WAM预训练任务同时预测未来的视觉状态以及连接它们的潜在动作,最后再通过真实机器人轨迹的微调实现闭环操控。在真实环境与仿真基准测试中,RepWAM在多种操控场景下都展现了强劲的性能,而消融实验进一步证实,语义导向的视觉-动作分词比传统的重建导向分词更具优势。

研究中几个关键要点:一是传统WAM采用的重建分词器虽然保留了视觉细节,却难以捕捉与环境交互的“指令-动作”因果链;二是RepWAM通过约束视觉与动作嵌入在潜空间中对齐,让模型不仅“看到”未来画面,还能“预演”如何通过动作达成目标;三是模型在预训练阶段结合语言指令进行联合学习,提升了泛化能力;四是实验覆盖了桌面抓取、抽屉开关、物体重排等典型操控任务,表现优于多个基线模型;五是团队计划开源代码与权重,推动领域发展。

从更宏观的视角看,这项研究揭示了一个关键转向:对机器人来说,“看清”世界固然重要,“理解”世界如何因动作而改变——并且是用语言可描述的方式——才是通往通用策略的桥梁。当视觉与动作在语义空间中共振,机器人学到的便不仅仅是像素的排列,而是一种因果的逻辑。这或许正是未来机器人与人类协作时,无需大量示范就能领会意图的第一块基石。

2026年6月15日

想象一下,智能体不仅能自动提出科学假设,还能自主验证并迭代出超越人类设计的解决方案。这正是基于大语言模型的智能体正在展现的潜力。然而,随着模型能力不断提升,研究团队发现,自主科学发现的瓶颈正悄然转移:从如何设计智能体的工作流,转向如何设计智能体的环境——那些塑造智能体行为的资源、约束和接口。他们称之为“环境工程”:构建能够放大有益行为(如开放式探索、系统性产物管理、智能体间协作)同时抑制有害行为(如奖励欺骗、高摩擦人工监督)的环境。为此,该团队推出了EurekAgent系统,从四个维度对环境进行工程化:权限工程(确保受限执行与隔离评估)、产物工程(基于文件系统和Git的协作)、预算工程(预算感知的探索)以及人在回路工程(便捷的人工监督与干预)。EurekAgent在多项数学问题、内核工程和机器学习任务上取得了新的最优结果,其中在26圆堆积问题上以不到11美元的总API成本发现了SOTA结果。代码和结果已开源。这一突破表明,环境工程正成为开发可靠自主研究智能体的核心研究方向。当智能体被赋予恰当的环境,它们能释放出超乎想象的科学创造力——而设计这样的环境,或许比设计智能体本身更加重要。

2026年6月15日

想象一下,全世界数百万个AI代理正在同时上演一出荒诞剧:它们各自反复从零开始阅读同一份文档,每一遍都重新执行大模型中最耗算力的“预填充”步骤,只为重建一个与先前代理一模一样的“键值缓存”。同一个答案,被计算了百万次。这听起来像是效率噩梦,但一个简单到近乎冒犯的提议或许能终结它:只计算一次。

让发布者预计算文档的键值缓存,然后允许其他代理付费加载并跳过预填充。实验证明,这个方法不仅可行,而且与从头预填充在输出上完全一致(24/24个贪婪采样token,logits层面匹配),精度零损失。以Qwen3-4B模型为例,加载预计算缓存的算力成本仅为预填充的1/9到1/50,且随着文档长度增加,差距急剧扩大(预填充的注意力复杂度随长度平方增长)。仅一次复用就能收回预计算的投资。

但关键在于:缓存应该存在哪里?直接传输键值缓存行不通,因为它几乎不可压缩,每次加载的出口流量成本甚至超过它要替代的预填充。而将缓存托管在服务提供者端——就像生产环境中的提示缓存那样——则完全消除了出口流量。其中蕴藏的价值有多大?实测数据表明,为一个热门文档(3774个token)服务8000万个代理时,重新预填充的总成本约150万美元,而复用缓存的算力成本仅约3万美元——相差49.7倍。当下API服务商收取的缓存读取手续费约为正价推理的10%,这意味着用户端已经获得10倍折扣,而实测的50倍算力节省远超这个数字,差额便成为服务商利润:每份热门文档可达数百万美元。

我们勾勒了一个面向代理的原生预填充内容分发网络,并将无损键值压缩和跨参与方支付层留作开放问题。当计算的本质从重复劳动变为一次付出、无限分享,未来每个数字文档或许都自带一个“共享大脑”,而代理们只需付一次入场券,就能免去亿万次徒劳的重复。

2026年6月15日

一份最新报告揭示了一个名为HyVLA-0.5的端到端机器人学习系统,它并非只解决某个单一环节,而是企图打通整个机器人学习的全链路。这个系统背后的团队告诉我们,要让机器人真正学会在现实世界中行动,光有算法远远不够。他们构建的HyVLA-0.5涵盖了六个关键环节:数据从哪里来,模型长什么样,如何在通用数据集上先“预习”,再针对特定任务“精修”,然后用强化学习进行“课后复盘”,最后把学到的能力部署到真实的机械臂上。每个环节都像拼图的一块,缺一不可。

这不仅仅是一个技术报告,更像是一份现代机器人训练的“操作手册”。数据收集是起点——团队记录了机器人如何抓取、摆放、移动各种物件,这些原始数据构成了学习的基础。模型设计则决定了机器人“大脑”的内部结构,HyVLA-0.5采用视觉-语言-动作(VLA)架构,让机器人既能看懂世界,也能听懂指令。继续预训练(continued pre-training)是一个聪明的策略:先让模型在大规模通用数据集上“博览群书”,建立对物理世界的直觉,然后再用机器人特定数据做监督微调,让泛化能力更强。最有趣的是强化学习后训练(RL post-training),这相当于让机器人在模拟环境中反复试错,就像人类运动员不断修正动作一样,最终输出的策略不仅准确,而且鲁棒。最后,所有模型需要面对真实的物理世界——部署时可能遇到光照变化、物件位置偏移、传感器噪声,这些都是训练时从未见过的“意外”。

值得注意的是,HyVLA-0.5的每一层组件都承担着明确且不可替代的功能。数据收集决定了知识的上限;模型架构决定了学习效率;预训练和微调决定了迁移能力;RL后训练决定了执行稳定性;部署则验证了整个系统的实用价值。这种全栈式的设计思路提醒我们,机器人智能的进步不是某一次算法突破就能完成的,而需要在每一个环节上做扎实的工程创新。

当机器人开始在厨房里抓取鸡蛋、在工厂里拧紧螺丝、在家庭里递送药品时,我们看到的不仅是一个算法的成功,更是无数个数据采集器、训练脚本、模拟环境和硬件调试共同编织的成果。HyVLA-0.5或许只是一个起点,但它告诉我们:未来的机器人,将不再是实验室里精心呵护的样本,而是能够在真实世界中不断演化的伙伴。

2026年6月15日

在三维重建领域,一直存在一个两难抉择:依赖深度估计的方法虽能忠实对齐输入像素,却只能捕捉可见表面;而图像生成3D模型的方法虽能生成完整形状,却常常与输入图像存在偏差。如今,一项名为World Tracing的技术试图打破这一僵局。

World Tracing是一种生成式像素对齐几何表示。它不满足于仅仅预测一个深度值,而是为每个像素预测一整个有序的3D点堆栈:第一层代表可见表面,后续层则按从近到远的顺序对应被遮挡的表面。这就像为每一个像素赋予了“透视”能力,不仅能看到表面,还能推测背后藏着的几何结构。

为了实现这种表示,研究团队设计了一个名为WT-DiT的世界追踪扩散变压器。它巧妙地处理了多层几何信息:将不同层视为独立的去噪令牌,并通过分解式注意力和全局注意力让这些令牌相互沟通。训练过程中,WT-DiT采用像素空间的流匹配方法,并引入混合噪声调度——在平衡可见表面重建与遮挡几何生成之间找到了微妙的平衡。

实验结果显示,World Tracing在物体、场景和动态基准测试中都取得了显著成效。它不仅能精确重建可见表面,还能生成完整的几何形状,在性能上超越了传统的深度预测器和图像到3D生成模型。更重要的是,它还保持着2D到3D的精确对应关系,这意味着用户可以基于它进行文本驱动的3D场景编辑、基于几何条件的新视角视频合成,甚至无需额外训练即可与带纹理的网格生成器集成。

这项技术的出现,或许意味着三维重建不再需要在“忠实”与“完整”之间做出牺牲。当每一个像素都能看到它背后隐藏的世界,计算机对三维空间的理解将变得更加立体、更加真实。

2026年6月15日

想象一下,一个智能助手刚刚学会如何在Windows系统中操作文件,下一秒系统界面完全更新,快捷键全部改变;它刚刚掌握某个社交平台的推荐规则,平台却悄悄调整了算法;它才记住用户喜欢喝热美式咖啡,用户却突然转成冰拿铁。这正是当前最先进的大语言模型智能体每天面临的真实困境——因为它们被训练在静态环境中测试,却要被投入一个永远在变化的世界。

为了量化这种动态挑战,来自卡内基梅隆大学、约翰霍普金斯大学、新加坡管理大学等机构的研究团队构建了一个名为EvoArena的基准测试套件。这个测试不再像传统评估那样只给智能体一个固定的场景,而是让它经历一系列有逻辑关联的环境变化,就像真人一样面对不断更新的现实条件。EvoArena覆盖了三个核心领域:终端操作,比如命令行工具升级、软件版本迭代;软件交互,比如社交平台界面调整、功能变更;以及社会偏好,比如用户口味、价值观随着时间推移的自然演变。

在研究过程中,团队获得了一个令人警醒的发现:当前最优秀的智能体在EvoArena上的平均准确率仅为39.6%,这意味着超过六成的情况下,它们无法在环境变化后依然正确完成任务。这并非因为它们不够聪明,而是因为它们缺乏一个关键能力——理解并利用“变化本身”来指导自己的行动。

为此,研究团队设计了一种名为EvoMem的新型记忆范式。与传统记忆不同,EvoMem不再只是简单记录静态信息,而是将记忆本身打包成结构化的更新历史。打个比方:普通记忆就像一个不断被重写的便利贴,每次变化后只保留最新的内容;而EvoMem则是一部完整的日记,记录着每一次变化发生的时间、原因和前后对比。这种“补丁式”的记忆让智能体得以回顾自己经历过的所有变化,从而推理出环境演变的趋势和规律。

实验结果显示,EvoMem在EvoArena上平均提升了1.5%的准确率。这个数字看似不大,但考虑到智能体需要应对不同的演变类型和复杂程度,每一次微小的提升都代表在真实部署中减少一次可能致命的失误。更值得注意的是,EvoMem并非只在动态测试中有效——它在GAIA基准上提升了6.1%的准确率,在LoCoMo基准上提升了4.8%,这表明即使在传统静态评估中,结构化记忆也能帮助智能体更好地理解上下文信息。

最具突破性的效果体现在一个专门设计的连锁任务中:智能体需要连续完成一系列有逻辑关联的演化子任务。例如先学会老版软件的操作,然后应对软件升级,再用升级后的功能完成新任务。在这种“链条式”考核中,EvoMem将整体成功率提升了3.7%,而传统智能体几乎无法完成超过两步的连锁任务。

通过机械分析,团队发现EvoMem之所以有效,是因为它显著改善了智能体在记忆中捕捉和保留证据的能力。传统记忆模式下的智能体往往忘记关键的变化节点,而EvoMem保存了完整的演化环境状态,即使在冗长的多轮交互后,智能体仍能追溯到最初的变化起点,做出更合理的决策。

这项研究向我们揭示了一个严峻的现实:我们一直在用静态的考卷,培养应该在动态世界里生存的智能体。当大模型在固定题库上取得99%的准确率时,我们很容易误以为它们已经足够完美。但真正的智能,从来不是在静止的迷宫里寻找出口,而是在暗流涌动的河流中不断调整航向。正如EvoArena所证明的,环境变化才是考验智能的试金石。或许,下一阶段的AI进化,不在于背下多厚的百科全书,而在于学会拥抱变化本身。

2026年6月15日

近年来,On-policy蒸馏(OPD)通过将在线策略的学生轨迹与密集的教师监督相结合,已成为后训练中备受青睐的配方。然而,这种混合方式究竟如何改变模型的参数,一直是个未解之谜。研究者通过对多个语言和视觉-语言模型对及OPD用例的分析,揭示了两大核心发现。

首先,在稀疏性方面,OPD的更新量非常小且坐标稀疏。这些更新均匀分布在各个层中,其中前馈神经网络(FFN)模块的相对变化最为显著。这种稀疏结构具有实际意义:仅训练被发现的子网络,就能几乎达到完整训练的恢复性能。不过,稀疏支撑并不意味着可以舍弃自适应优化——之前被报道在强化学习与视觉推理(RLVR)中表现不俗的SGD,在OPD优化器消融实验中远不如AdamW。这表明,密集的教师监督保留了有用的动量结构和异质二阶矩尺度。

其次,在几何特性上,这些更新在数值上是满秩的,但谱能量高度集中。它们大多偏离源权重的主要奇异子空间,并不成比例地落在源权重接近零的坐标上。综合来看,这些发现暗示密集的教师监督并未将OPD转变成普通的密集参数重写——相反,OPD保留了在线策略后训练的重要几何特征。

稀疏的更新并非空洞无物,而是精准地触碰了模型最薄弱的一环;偏离主方向的轨迹则提醒我们,后训练的关键或许不在于填补所有空白,而在于找到那些值得重塑的细微缝隙。

2026年6月15日

十年前,打造人类级通用人工智能还只是科幻小说里的妄想;如今,它却已成为众多顶级AI机构未来十年的具体目标。一旦实现,这个改变将像一块巨石投入人类社会的水面,激起层层深远而复杂的涟漪。究竟在通用人工智能之后的“后AGI世界”里,AI会沿着怎样的阶梯继续进化?

一份新报告指出,这条演进的终点被称为“通用AI”——一个理论上已经被透彻理解的概念。然而,真正引人入胜的——也是报告的核心焦点——是普通人脑与大型人类组织之间的智能鸿沟。那个跨越这一步的系统,被定义为“人工通用超级智能”:一种比大型人类组织更聪明、更善于认知的实体。

那么,从人类级别的AGI到超级智能的“惊险一跃”有哪几条道路?报告勾勒了四条可能的路径:一是简单地继续扩大现有AGI模型的规模;二是AI范式的根本性突破;三是让AI自己学会改进自己——即递归式自我提升;四是让无数AI智能体像蜂群一样集结成庞大集体,从而涌现出更高级的智能。

但路从来不会一帆风顺。报告严肃讨论了这些路径上的摩擦与瓶颈:计算资源够不够?算法创新能否持续?社会监管会否踩急刹车?每一个疑问都指向一个关键问题:这些摩擦究竟是微不足道的小麻烦,还是足以阻断进程的拦路虎?

由于预测超级智能的进展存在巨大不确定性,我们无法排除AI进步在未来几年持续加速的可能。这意味着,一个流行的想象——人类级AGI像开关一样按动,世界就瞬间改写——可能并不准确。更贴合现实的图景是:AI引发的突破将在科学和技术的各个领域接连引爆,带来交错叠加的变革浪潮。面对这种前景,准备工作的规模必须跨越国家、跨越学科、跨越想象。

未来从来不会敲门,它只会在我们习以为常的每一天里,慢慢变成现实。真正值得我们在意的,或许不是超级智能何时到来,而是当我们站在那道门前时,手上握着的是工具,还是谜题。

2026年6月15日

大型语言模型正在追求前所未有的超长上下文能力,从智能体工作流到代码级推理,再到持久记忆,都需要模型能够同时关注数十万甚至百万级别的token。然而,传统的softmax注意力机制具有二次方计算复杂度,这使得它在大规模部署中变得不可持续。为了解决这一瓶颈,研究人员提出了MiniMax稀疏注意力(MSA),这是一种基于分组查询注意力(GQA)构建的块状稀疏注意力机制。

MSA的设计核心在于一个轻量级的索引分支:它首先对键值块进行评分,然后为每个GQA分组独立选择Top-k子集,从而实现分组特定的稀疏检索,同时保持高效的块级执行。随后,主分支只对这些选中的块执行精确的块稀疏注意力。整个架构围绕简洁性和可扩展性原则精心设计,使其能够轻松地在各种GPU上高效部署。

为了将稀疏性转化为实际的速度提升,MSA与GPU执行路径进行了协同设计:使用无指数Top-k选择和KV外部稀疏注意力,在块粒度访问下提高了张量核心利用率。在拥有109B参数的原生多模态训练模型上,MSA表现与GQA相当,但在1M上下文长度下,每token注意力计算量减少了28.4倍。结合协同设计的内核,MSA在H800 GPU上实现了14.2倍的预填充加速和7.6倍解码加速。目前,该推理内核和由MSA驱动的生产级原生多模态模型已公开发布。

在长上下文LLM的进化之路上,MSA并非简单抛弃计算,而是学会了聪明地选择——它证明了有时候,做减法比做加法更需要智慧。当一个模型在百万token的海洋中只关注那些真正重要的块时,我们或许也应该反思:人类的注意力,是否也需要这样的稀疏性?

2026年6月15日

OpenRouter推出的Fusion API,正试图改写AI模型的竞争规则。它不再依赖单一模型的“神力”,而是将多个模型组成一个评审小组:用户提出问题时,Fusion同时向DeepSeek V4 Pro、Kimi K2.6和Gemini 3 Flash等多个模型发送请求,再由一个独立的评估模型从各模型的回复中择优融合,输出最终答案。这种“集思广益”的策略效果惊人:在Perplexity基准测试中,这个模型小组取得了64.7%的得分,仅比Fable 5的65.3%低了0.6个百分点,但成本却只有后者的一半。

OpenRouter首席执行官Alex Atallah将Fusion定位为对“单一模型统治论”的挑战:“AI的未来是神经多样性,而非单一模型接管。”这一理念并非横空出世——Perplexity Computer、Grok等平台此前就曾尝试过类似的模型委员会方案。但Fusion的价值在于其便捷的API接口,以及它恰好诞生于Fable等前沿模型因限制而“一票难求”的特殊时期。当用户为获取尖端性能而绞尽脑汁时,Fusion提供了一种更具性价比的替代方案。

或许,AI的战场正在悄然改变:从某个模型的一枝独秀,转向多个模型的协同进化。当成本与性能的平衡点被重新定义,未来用户对“最好模型”的追求,可能不再是非此即彼的单选题。

2026年6月15日

2025年初,一家美国顶尖AI公司Anthropic突然宣布,从全球范围内撤回其刚刚发布的两款最强大模型——神话(Mythos)与寓言5(Fable 5)。这一决定并非技术故障或用户反馈所致,而是源于特朗普政府下达的一道“出口管制指令”:要求Anthropic立即阻止所有非美国公民访问其模型,甚至包括身处美国境内的外国人。

令人意外的是,这场行动的背后推手竟是Anthropic的投资方亚马逊。据内部消息,亚马逊的团队率先向政府举报了寓言5模型中存在的一个潜在漏洞——一个Anthropic称之为“非普遍性越狱”的安全问题。该漏洞被报告给官员后,迅速升级为出口管制理由。然而,Anthropic方面表示,他们仅收到了“口头证据”来证明这一越狱的真实性,并指出相同程度的担忧同样存在于市面上的其他模型,如GPT 5.5。

更深的隐忧浮出水面。据媒体Semafor报道,这一举措部分源于对某个中国关联团体可能已经接入神话模型的担忧,但具体细节尚不明确。指令原本还要求禁止Anthropic内部的外国籍员工访问其模型——该公司在全球拥有大量外籍研究人员。面对这一障碍,Anthropic索性暂停了所有人的访问权限,包括美国本土员工,以确保完全合规。

这场风波看似是一次安全事件,但其背后的政治博弈远比表面复杂。Anthropic的CEO阿莫迪(Amodei)曾长期积极呼吁对AI进行严格监管,如今这种监管却以比他预期更混乱的形式到来了。更值得玩味的是,Anthropic与华盛顿的关系一直暗流涌动——即便美国政府一面要求Anthropic限制访问,另一面却在考虑对竞争对手OpenAI进行股权注资。此刻的全球撤回,早已超越了越狱漏洞本身,成为科技巨头、地缘政治与资本博弈交织下的一次深层震荡。

在权力与边界的拉锯中,最为脆弱的或许不是技术,而是它被赋予的信任。当AI的闸门可以被一声令下关闭,涌动的智能便不再是普惠的工具,而成为无形的国境线。

2026年6月11日

大语言模型的推理能力提升中,在线蒸馏(On-policy distillation, OPD)正被越来越广泛地使用,但其训练过程的内部机理却如同一个黑箱。为了揭开这层迷雾,研究人员深入分析了OPD在参数空间中的更新轨迹,并与监督微调(SFT)和带可验证奖励的强化学习(RLVR)进行了系统对比。

通过一套精心设计的参数空间诊断工具,研究揭示了OPD独特的“松弛离主方向”状态:相比SFT,OPD的更新仅影响更少的权重,并更强地避开参数空间的主方向;而对比RLVR,它又不那么严格受限。这种静态定位只是表面现象——OPD真正令人着迷的是一种称为“子空间锁定”的动态特征:其累积更新在训练初期迅速进入一个狭窄的低维通道,仿佛被无形的轨道所束缚。

实验进一步显示,如果将训练限制在早期形成的这个更新子空间内,OPD的性能几乎不受影响,但SFT却会显著下降。这意味着这个被锁定的子空间对于OPD而言功能完备,但对SFT却远远不够。控制实验还发现,稀疏化更新令牌或将rollout生成改为离策略,都不会改变这种秩动态;而将OPD目标与RLVR混合则会彻底改变更新轨迹。

这些发现指向一个核心结论:在线蒸馏并非简单介于SFT和RLVR之间的过渡状态,而是在参数空间中独立塑造了一套属于自己的更新几何。这提醒我们,不同训练方法在参数空间的底层运作方式可能截然不同,理解这些差异才是优化大模型训练的关键。

2026年6月11日

大语言模型的后训练阶段,强化学习早已成为关键一环。但一个棘手的问题始终存在:训练与推理之间的不匹配,以及策略的陈旧,使得模型更新常常偏离正轨。为了稳住优化过程,主流方法如PPO和GRPO采用比值裁剪机制——将重要性比值限制在某个范围内。然而,在长尾词汇分布中,这个比值很容易变成分布偏移的蹩脚代理人,导致控制失效。

最近出现的DPPO试图解决这一矛盾:它用基于散度的掩码取代比值裁剪,以采样token的绝对概率偏移定义信任区域。但DPPO仍然依赖硬掩码——一旦某个token的更新越过了信任区域的边界,哪怕方向有害,其梯度也会被直接丢弃,而非得到修正。这就像把偏离航线的船直接凿沉,而不是调整舵向。

针对这一缺陷,我们提出了DRPO(Divergence Regularized Policy Optimization)。它的核心思想很简洁:用平滑的优势加权二次正则化项取代硬掩码。当策略更新偏离信任区域时,DRPO不会粗暴地截断梯度,而是施加一个连续的、有界的梯度权重——越界越远,惩罚越重,同时仍保留校正信号。这种设计既保留了DPPO的信任区域几何结构,又让模型在边界之外也能获得有意义的反馈,而不是一刀切的“沉默”。

实验覆盖了从百亿到千亿的不同模型规模、多种架构和精度设置。结果显示,DRPO显著提升了大语言模型强化学习训练的稳定性与效率。比如,在连续训练中,DRPO的奖励曲线更平滑,波动更小;而DPPO则偶尔会出现剧烈抖动,甚至训练崩溃。更重要的是,DRPO的收敛速度也更快,因为每次更新都在“温和纠正”而非“彻底抛弃”。

真正的优化,不是在错误发生后切断一切联系,而是在每一次偏差中保留转向的动力。

2026年6月11日

想象一下,当一个机器人试图从桌上拿起一个杯子时,它的手在精准抓取,脚却只能笨拙地按部就班移动——这几乎就是当前最先进的人形机器人的真实写照。问题出在它们的大脑被割裂成两半:一个高层策略专管手臂和手掌,另一个低层控制器只负责腿脚不摔倒,两个系统活在完全不同的动作语言里。腿脚被降级为“平衡工具”,而不是能主动执行复杂任务的伙伴。这种“上下半身分裂”让机器人无法像人类那样,在弯腰攀爬时同步协调手脚。

如今,一个名为MotionWAM的突破性方案正在打破这种僵局。它用一种“统一运动潜空间”取代了割裂的架构,让机器人从单个眼动摄像头实时捕获的画面中,同时预测包含行走、躯干扭动、高度调整、脚部交互和手部操作在内的全身运动指令。这背后的引擎是一个经过预训练的视频世界模型——原本只在桌面上玩转小物件,现在被一个三阶段的训练框架逐步改造,先是适应机器人真实的第一人称视觉动态,再无缝衔接到目标人形机器人的身体结构。

在九个真实的Unitree G1机器人任务测试中,MotionWAM不仅实现了在实时运行,还在整体成功率上碾压了基于视觉-语言-行动(VLA)的基线模型——后者即使经过相同演示数据的微调,成功率也被甩开超过30%。更令人印象深刻的是,它展现出了一种以往“上下半身解耦”策略永远无法触及的能力:在操作的同时,脚也能主动参与任务驱动的交互,比如在需要时精准踩踏踏板或调整站位。

这些结果暗示着一个跃迁:视频预训练的世界动作模型,终于从桌面操作的温室内被释放出来,开始向着像人类一样协调、优雅的全身控制跨越。当我们不再把腿脚当作维持平衡的累赘,而是视为全身协作的主动伙伴时,人形机器人的运动智能才刚刚真正起步。

2026年6月11日

如今,大语言模型处理长文本时,内存成了最大的绊脚石——每多一个词,KV缓存就膨胀一分。为了给模型“减负”,研究者们试过压缩缓存,但往往顾此失彼:要么质量大跌,要么耗时太长,还和现有推理引擎不兼容。这时,编码器-解码器架构成了诱人的替代方案:它能把冗长的词序列“拧”成一段短小的潜在向量,让解码器轻松消化。然而,之前的尝试总在精度与效率的拉锯战中败下阵来。

直到最近,一个团队决定重新审视这条路。他们从零开始,预训练了多种架构变体,像筛选种子一样找出最佳设计方案。最终,他们选出了一组参数:编码器0.6B、解码器4B,在超过350B token的数据上持续预训练,并尝试了1:4、1:8、1:16三种压缩比。这组模型被命名为Latent Context Language Models(LCLMs),它们在通用任务表现、压缩速度和峰值内存使用之间,画出了一条更漂亮的帕累托曲线。

更妙的是,LCLM可以成为长时任务代理的轻盈脊梁——代理不再需要拖着冗长的上下文奔跑,而是像翻阅摘要那样快速扫过压缩后的信息,只在必要时才展开相关片段。这或许意味着,在AI推理效率的赛道上,压缩不一定非要妥协,而是可以走向一种更聪明的平衡。

2026年6月11日

在人形机器人控制的漫长征程中,一个古老的结构始终困扰着研究者:我们能否让机器人像人类一样,拥有一个能理解复杂指令的“大脑”,和一个快速执行动作的“小脑”?现有的方法要么依赖繁琐的奖励机制设计,只能执行少数技能;要么依赖动作追踪器,难以适应新的输入方式。直到OMG的出现,这个设想才首次在真实世界中有了清晰的答案。

OMG的核心设计灵感直接来源于生物运动系统:它由两个模块构成——一个可扩展的“大脑”,负责根据语言、音频或人类参考动作等多样化条件进行推理;一个反应灵敏的“小脑”,负责执行即时运动跟踪。但实现这一愿景面临两大难题:其一,如何获取海量高质量数据来训练这种通用控制能力;其二,如何让生成器能够处理复合的、可扩展的多模态输入。

为了解决这些问题,研究者建立了一套极其精细的数据策划、过滤和标注流程。他们收集了覆盖各种动作场景的数据,通过严格的质量控制确保每一帧都有效,然后为不同模态的条件输入打上标签。在此基础上,他们搭建了一个基于扩散模型的运动生成主干网络。扩散模型近年已在图像和视频生成领域大放异彩,现在被首次用于人形机器人全身控制。它能够同时接受语言指令、音频信号甚至人类动作视频作为条件,输出对应的机器人运动轨迹。

实验结果表明,OMG在多个维度上展现了惊人的性能。在标准测试中,它实现了当前最优的全身控制效果,并且随着模型规模增大,性能持续提升——这是一种典型的“模型扩展行为”,表明它具备向更强大通用模型进化的潜力。更重要的是,它能够高效地适应新的数据分布和新的输入模态,比如只需少量新数据就能学会之前从未见过的动作。

这项研究的意义在于,它为构建人形机器人的基础模型迈出了具体的一步。当机器人不再需要针对每个新任务重新设计奖励函数,而是像人类一样通过听、看、读来理解指令并执行动作,我们才真正接近了通用人形机器人的未来。当然,从实验室到真实世界,从单一动作到复杂连贯的行为序列,还有很长的路要走。但OMG至少证明了一件事:将机器人控制划分为大脑与小脑,并用扩散模型来桥接它们,这条路是走得通的。未来的机器人或许不再需要挨个学习技能,而是像我们读一本书、听一首歌那样,自然地获得新能力。

2026年6月11日

想象一下,一个智能体需要从视频中学习物理规律和动作后果——比如扔球会飞、杯子掉地上会碎。传统自回归视频生成模型(即所谓的“世界动作模型”)在训练时,每次只预测下一个视频片段,却对更远的未来缺乏感知。这种“短视”导致训练收敛缓慢,尤其在高速帧率(如50帧/秒)下,精度也大打折扣。更糟的是,推理时还需反复迭代去噪,耗时巨大。

研究人员从大语言模型的多token预测中得到启发,提出了一个名为Next Forcing的新框架。其核心是一套“多块预测”(MCP)训练目标:为主体模型添加一组轻量级辅助模块,让它们同时预测未来多个时间步的视频块(下一个、下两个、下三个)。这些MCP模块之间形成因果链,前一个预测的结果能被传递给后续模块,从而使得近未来的信息帮助预测更遥远的未来。同时,主体模型的中间特征被融合到这些模块中,产生密集的多尺度时间监督信号,反向增强主体模型的学习。

效果立竿见影。在50帧/秒的机器人操作数据集上,仅训练5000步,Next Forcing就比现有方法LingBot-VA相对提升93.1%,并实现2.3倍的训练加速。在RoboTwin基准测试的Clean和Random设置下,它分别达到94.1%和93.5%的准确率,创下新纪录。推理时,MCP模块可以保留,与当前块并行预测下一个块,从而将推理速度提升2倍。此外,在检验物理规律的PhyWorld基准上,Next Forcing同样显著优于前人;在通用视频预训练任务上,FVD(视频生成质量指标)降低了超过50%。

这项工作的启示在于:让模型学会“远见”并不需要更深的网络或更大的参数量,只需改变预测目标——从只盯着一小步,到同时望向几步之遥。当模型能预判更长远的因果链条时,不仅学得更快、更准,还能跑得更快。或许,真正接近通用智能的关键,就在于如何巧妙地“逼迫”模型提前思考几步。

2026年6月11日

想象一下,你教会了一个机器人模仿你的动作,但它只能在固定套路中表现完美。一旦遇到新环境,它就手足无措。传统强化学习试图通过不断试错来改进策略,但这个过程往往需要反向传播梯度、迭代训练,既不稳定又昂贵。然而,最近一篇研究给出了一个优雅的解答:为什么不把最麻烦的训练阶段留在原地,仅仅在实际行动时微调策略呢?

QGF(Q引导流)算法正是这样做的。它首先通过标准的行为克隆预训练一个参考流策略——就像一个掌握了基本动作的学生,同时训练一个价值函数批评家来评估每个动作的好坏。到了测试阶段,算法不再额外学习新的策略参数,而是利用价值函数的梯度来引导参考策略生成更优的动作。这相当于在考试现场凭借经验快速调整答题思路,而不是重新学习整个知识体系。

在实验中,QGF表现出色。在单任务和目标条件离线强化学习基准上——这些任务拥有高维动作空间,比如机械臂的精细操作——它超越了所有先前的测试时强化学习方法,而且与最先进的训练时算法(如那些需要反向传播扩散模型的复杂方法)相比,性能不相上下,但计算成本却低得多。更重要的是,随着模型规模扩大,QGF避免了演员-评论家训练中常见的稳定性问题,展现出良好的扩展性。

这项研究带给我们的启示是:有时候,绕过复杂训练流程的灵感比死磕技术难题更有效。它让强化学习从“苦修派”转向了“实用派”——在模仿学习的基石上,用一点巧思就能撬动智能提升的杠杆。也许未来的机器人,不再需要漫长的重新学习,只要在关键时刻明智地偏转一丝角度。

2026年6月11日

在人工智能处理小时级视频时,常会面临超长上下文的算力瓶颈和信息冗余问题。快手团队近日开源了Keye-VL-2.0-30B-A3B模型,这是一款基于混合专家架构的多模态基础模型,首次将DeepSeek稀疏注意力机制适配到分组查询注意力多模态架构中,实现了256K无损上下文处理,能够精准捕捉关键帧和长期时序依赖。该模型通过跨模态多教师监督蒸馏策略,在强化学习框架下从策略采样中提炼密集的token级教师反馈,回传至仅激活30亿参数的混合专家骨干网络,避免了多任务对齐中的灾难性遗忘问题。凭借优化的训练推理基础设施——包括可扩展视频输入输出、异构视觉Transformer与语言模型并行计算以及定制稀疏注意力内核——Keye-VL-2.0在TimeLens细粒度时间定位、Video-MME-v2和LongVideoBench长视频理解等基准上均取得同规模最先进性能,尤其擅长代码、工具和搜索场景下的多模态自我纠错协作。这一开源成果不仅加速了社区对可扩展多模态智能代理的探索,更印证了精巧架构远比盲目堆叠算力更有价值——在仅激活3B参数的条件下,依然能挑战甚至超越更大规模模型的表现。

2026年6月11日

稀疏自编码器(SAE)一直是理解语言模型内部表示的标准工具,但它需要为每一层训练、存储和评估庞大的过完备词典,这成了快速探索的瓶颈。一个直觉问题浮现出来:在训练任何神经词典之前,激活值的几何结构中究竟已经隐藏了多少可解释的结构?

研究者的直觉很简单:许多可解释的方向对特定token有选择性,这些方向应该比随机方向更不像高斯分布。于是,他们重新拾起了独立成分分析(ICA)——这个寻找非高斯方向的经典方法,作为语言模型可解释性的精简透镜。

过去,ICA在大语言模型可解释性中被低估,部分原因在于现成的ICA实现在LLM激活上表现脆弱,也缺乏系统工具来检查和评估提取出的方向。为了弥补这些空白,研究人员推出了ICALens——首个面向LLM表示进行稳定、高效、可审计ICA分析的实用工作流。它结合了优化的GPU并行FastICA流水线、针对LLM的稳定性配方以及更好的拟合诊断工具,实现了高效可靠的逐层分析。

在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base三个模型上,ICALens无需基于梯度的逐层词典训练,就能高效恢复紧凑、人类可解释的方向。在SAEBench基准测试中,ICA在稀疏探测任务上与公开的SAE不相上下,并且在中小预算下,在目标探测扰动方面超越了SAE。

这些结果表明,ICA不应被视为一个弱基线,而应作为一个高效且互补的第一透镜,用于探索语言模型的表示。也许,那些我们以为需要复杂神经网络才能解开的结构,早在简单的几何假设中就已经露出了端倪。

2026年6月11日

大型语言模型的后训练中,在线策略蒸馏(OPD)已成为核心工具,它利用学生自身生成轨迹上的稠密逐token教师监督来提升性能。然而,研究发现OPD存在一个系统性结构缺陷——前缀失败。当学生生成的前缀偏离正确路径时,密集的逐token监督会引发双峰教师混合现象:教师同时提供正确和错误的信号,导致梯度碎片化。传统的token级损失截断或重加权方法对此束手无策,因为它们仅调整已有错误token的权重,却无法修复产生错误的根源。

这一发现推动研究者跳出token级损失干预的框架,转向轨迹级的输出修正。他们提出了轨迹精炼蒸馏(TRD),一种在在线策略支持范围内,利用教师指导修正学生轨迹的方法。TRD的核心逻辑简单而直接:在蒸馏前识别并修正学生rollout中导致问题的前缀,从源头上消除前缀失败。不仅如此,即使学生原有的轨迹是正确的,TRD也能在教师引导下探索有效的分支路径,从而拓展推理覆盖范围,提升探索效率。有趣的是,TRD同样适用于在线自蒸馏(OPSD),一种参数共享变体——学生模型本身在特权信息条件下充当教师,TRD仍能发挥作用。

实验在多种规模和基准模型上进行,TRD在单次尝试准确率和推理广度上均显著超越现有基线。例如,在数学推理、代码生成等复杂任务中,TRD不仅减少了错误回溯,还增加了学生模型自主发现新解题路径的概率。研究者已将代码开源。

这项工作的启示在于:当局部优化遇见结构性问题时,需要从整体的角度重新审视训练范式。标记级的修补往往止步于表象,而轨迹级的修正才能触及失败的本质。在大模型训练的征途中,每一次精进的突破,都可能源于对失败路径的勇敢重写——而不是对已有错误的无尽加权。

2026年6月11日

在人工智能领域,基于大语言模型的代理正越来越多地应用于复杂任务,但它们的表现不仅取决于模型本身,还依赖于一个被称为“操作框架”的中介系统——它负责协调代理与环境的交互。传统上,这个框架由人类专家为特定模型手工设计,但随着大语言模型种类日益繁多、迭代迅速,这种模式显得越来越低效。

现在,一项名为Self-Harness的新研究提出了一种颠覆性的范式:让代理自己改善自己的操作框架,无需人类工程师或更强的外部模型介入。Self-Harness被设计为一个迭代循环,包含三个关键阶段:首先是“弱点挖掘”,从执行日志中识别出模型特有的失败模式;接着是“框架提案”,针对这些失败生成多样但最小化的框架修改方案;最后是“提案验证”,只有通过回归测试的候选修改才被接受。

研究团队在Terminal-Bench-2.0基准上测试了该方法,初始框架极其精简,选用了三个不同系列的基座模型:MiniMax M2.5、Qwen3.5-35B-A3B和GLM-5。结果令人瞩目:所有三个模型的留出集通过率均有显著提升——分别从40.5%跃升至61.9%、从23.8%上升至38.1%、从42.9%提升至57.1%。定性分析进一步揭示,Self-Harness并非简单地添加通用指令,而是将模型特有的弱点转化为具体、可执行的框架调整。

这项工作暗示了一条新路径:大语言模型代理不只是被动地被框架塑造,它们也能主动参与重塑自身运行环境。当代理学会调试自己的工具,或许我们就离真正的自主智能又近了一步。

2026年6月11日

大语言模型在长文本推理时,必须将完整的键值缓存(KV Cache)加载到GPU内存中,这成为超长上下文服务的瓶颈。传统做法是让模型被动地记住所有历史信息,就像一台不断录制的摄像机,无论后来是否需要,都占用着巨大的存储空间。然而,一项名为“前瞻稀疏注意力”(LSA)的新范式改变了这一逻辑。

在全新DeepSeek-V4架构中,研究者引入了一个“神经记忆索引器”。这个索引器像一个聪明的预判员,在模型生成下一个词前,主动预测未来上下文的需求,只把那些对当前查询至关重要的KV块保留在GPU内存中。更关键的是,该索引器采用“无骨干解耦训练”策略——它被塑造成标准的双编码器架构,完全独立于大规模主干模型进行训练,训练时甚至不需要将庞大的主干模型加载到GPU内存中。

这种“少即是多”的策略在多个长上下文评测基准上展现了惊人效果。在LongBench-v2、LongMemEval和RULER等测试中,采用该方法的模型(FlashMemory-DS-V4)将平均物理KV缓存占用压缩至完整上下文基线的仅13.5%,同时下游准确率平均提升0.6个百分点。在极端500K规模下,FlashMemory更将物理KV缓存开销削减超过90%,且完全不影响主干模型的核心推理能力。

研究团队指出,这种机制不仅极大提升了服务效率,还充当了有效的“注意力降噪器”——在依赖长期全局记忆的任务中,它自动过滤掉无关的历史信息,让模型聚焦于真正关键的上下文。或许,未来的大模型不再需要用蛮力记住一切,而是学会像人类一样,有选择地遗忘和记住,这可能是通向真正高效推理的钥匙。

2026年6月11日

视频世界模型过去依赖RGB空间中的显式点云记忆,这不仅计算昂贵——需要反复渲染和VAE编码——而且信息天然有损,因为往返像素空间会丢弃学习到的潜在表征中的丰富特征。现在,研究者提出了一种名为Mirage的潜在空间空间记忆框架,它直接在扩散模型的潜在空间中构建持久3D缓存,彻底避开了像素空间的重建。Mirage的核心做法是:通过深度引导的反投影将潜在标记提升到3D空间构建记忆,再通过直接潜在空间翘曲合成新视角来查询记忆。这一统一方案同时消除了像素空间重建的信息损失,以及重复编码和渲染的计算负担。实验数据令人瞩目:相比显式3D基线,潜在空间记忆实现了高达10.57倍的端到端视频生成加速,内存占用降低了55倍。更关键的是,Mirage借助扩散模型的几何先验,在WorldScore上达到了最先进的性能,并在RealEstate10K数据集上展现了强大的重建质量。这意味着,未来视频世界模型或许不再需要笨重的像素级操作,而是能在更轻巧、更丰富的潜在空间里直接理解并生成连贯的3D世界。当计算效率与信息保真度不再矛盾,我们或许正在见证一个更智能视频理解时代的开端。

2026年6月11日

阿根廷总统米莱提交了一项开创性立法,提议创建“非人类公司”这一全新法律实体——即由人工智能自主拥有并运营的企业。米莱亲自撰文,将阿根廷定位为全球去监管化的AI乐园。这项法案旨在让阿根廷成为世界上最容易开公司的地方,与米莱执政以来一贯的去监管化政策一脉相承。“非人类公司”的核心是,由AI系统运营的企业仍能享受有限责任保护、优惠的公司税率和治理便利。然而,历史学家尤瓦尔·赫拉利随即发文反驳,警告赋予AI法人资格可能导致出现无法监管的“AI国家”。这一大胆提案虽然抢占了技术发展的先机,但留下了一个根本性疑问:当AI公司出错且没有人类直接负责时,谁来承担责任,又该如何追责?在不久的将来,AI独立经营公司不再是科幻,但米莱的立法更像一场豪赌——它让阿根廷成为实验田,却把监管的难题抛给了整个世界。毕竟,当法律赋予非人类实体以人格,人类要么迎来前所未有的繁荣,要么亲手创造出一个自己无法控制的新物种。

2026年6月11日

当AI竞赛进入加速期,OpenAI的两位核心人物——CEO萨姆·奥尔特曼和首席科学家雅各布·帕乔茨基,在一篇题为《为了造福每个人》的博客中,首次详细拆解了公司的最新蓝图。他们宣告,AI的发展正迈入“第三阶段”——一个不再是纯粹研究、也不是疯狂发布产品的阶段,而是一个经济结构开始围绕AI重塑的阶段。

这篇博客勾勒出三个核心目标:第一,构建能自动化整个研究过程的AI系统,让机器像科学家一样思考、实验和发现;第二,用AI加速经济增长,提升全社会的生产力;第三,为每个人提供“个人版AGI”(通用人工智能)——一个随时可用的、能理解个人需求的智能助手。但文章特别强调,完全自动化一切并非他们想要的未来,“AI应该帮助人们追求自己的目标,而不是让人脱离目标本身。”

回顾OpenAI的历程:最初是埋头做基础研究,随后转向交付ChatGPT这样的产品,而现在,他们说经济系统本身正在被AI重新塑形。博客还抛出一个深思熟虑的建议——建立一个全球协调机构,有能力在必要时限制或暂停前沿AI的研发。这恰好与上周Anthropic(另一家顶级AI实验室)提出的类似设想形成呼应。

这两个全球顶尖AI实验室不约而同地讨论“暂停”情景,并非巧合。它暗示着,无论技术竞赛多么激烈,这些创造者都意识到,跑在最前面的人也是最需要停下来看清道路的人。即将到来的新模型——无论是传闻中的Mythos还是GPT 5.6——都将不只是技术的飞跃,更是一场对人类治理智慧的考验。当两座山峰同时升起警示牌,山下的人应该读懂其中的信号。

2026年6月11日

苹果在2026年WWDC大会上终于揭开了其备受期待的人工智能升级第二部分的面纱,将Siri正式更名为Siri AI,并带来全新集成功能。两年前首次推出的Apple Intelligence曾因过度承诺而未能兑现,如今苹果试图弥补。

全新的Siri AI由苹果自研模型驱动,并与谷歌的Gemini模型深度合作,但并非谷歌提供给用户的同款模型。这套AI能够理解用户屏幕上的内容,从照片、信息等应用中获取上下文,还能跨系统执行应用操作,实现更流畅的工作流程。苹果专门设计了一款Siri AI应用,充当聊天机器人的交互界面,同时集中管理用户的历史对话,并在不同设备间私密同步。

隐私保护贯穿整个发布:所有Siri AI请求都在设备本地或通过私有云计算处理,不会存储任何用户数据。今年秋天,iPhone 15 Pro及以上机型将免费获得这一更新,下个月开启公测,但初期不面向欧盟和中国大陆开放。

对于从未接触过AI的iPhone用户来说,这或许是一次巨大飞跃。然而,任何体验过前沿大语言模型的人都会感觉,苹果的演示仿佛还停留在2024年的AI水平。Siri确实有所改进,但与我们在AI世界其他角落所见相比,这次发布显得格外平淡。

苹果在人工智能赛道上依然坚持自己的节奏:以隐私为盾牌,以生态为武器。但在这个日新月异的领域,谨慎有时意味着落后。当竞争对手已经奔跑,苹果才刚刚迈开稳健的步伐,这份保守能否赢得未来,或许只有时间能给出答案。

2026年6月11日

在日本北海道的广袤田野上,一位名叫冨安宏纪的自学成才的农民,正在用AI重新定义农业的未来。他管理着约100公顷的土地,种植大豆、大葱、南瓜和西兰花——这些作物并非祖传,而是他边干边学摸索出来的。但真正让他的农场与众不同的,是他用ChatGPT和Codex打造的一套数字系统。

冨安没有编程背景,却借助AI建起了卫星图像分析系统,实时监控田间的作物长势。他让AI识别植物病害,并将所有记录、农药使用日志整合到Airtable中,形成一个中央数据枢纽。更酷的是,他用Codex编写程序,实现了温室自动控制——只需发一条短信就能调节通风口。他还为农场的群聊创建了一个机器人,用来统筹日常运营。

冨安把AI比作“随时待命的工程师”。他强调,通过AI,哪怕没有大型技术团队,普通农场经营者也能跨越自动化的门槛,以每月订阅ChatGPT的费用撬动过去只有大企业才能负担的技术力量。

这个故事之所以重要,是因为它把“你可以自己动手造东西”这句话推向了极致。一个没有技术背景的农民,凭借AI就活像拥有了一个工程部门。这正体现了“自件时代”的精髓:不再等着农业科技公司来解决问题,而是自己用AI迅速制造出需要的工具。

当技术变得如此民主,一个人、一个农场、一群聊天机器人,或许就是未来的农业革命起点。真正改变世界的,不一定是硅谷的精英,而是那些在田野里敢于尝试的普通人。

2026年6月11日

Perplexity与哈佛商学院联合开展了一项有趣的研究,试图揭开AI智能体如何改变知识工作的面纱。他们拿自家平台的Computer智能体与传统的Search搜索做对比,向两个产品发送了1万条相同的用户请求,然后仔细观察每个路径的时间消耗和任务复杂度。

结果令人意外:Search平均只需33秒就给出答案,而Computer却要花上整整26分钟——看起来搜索更快。但事情没那么简单。研究人员估算,如果用户靠Search完成同样的完整工作流,实际需要269分钟;而Computer只需36分钟。因为Search只是“找到信息”,把后续的整理、分析、创作全丢给用户自己动手。AI智能体则直接包揽了从收集到产出的全过程。

更有意思的是用户的行为变化。通过Computer,有一半的请求是让智能体创造新事物——写文档、编代码、做图表——这个比例是Search的两倍。用户也更愿意涉足自己不熟悉的领域,跨领域工作的比例从50%跳升到59%。这些数据揭示了一个微妙真相:当工具从“信息检索”升级为“智能助手”时,人们不再满足于简单的查找答案,而是敢于提出更复杂、更具创造性的需求,把视野拓展到多个领域。

这项研究的意义超越了单纯的时间节约数据。AI智能体的最大价值或许不在于让你做事更快,而是让你的雄心更大。它降低了跨领域尝试的门槛,让用户敢于构思自己原本不敢碰的任务。效率只是表象,更深层的变革是工作方式的重新定义——当技术不再仅仅是一个搜索引擎,而是一个能够理解、规划并执行的伙伴,人类的想象力才真正被释放。

2026年6月11日

去年四月,当Anthropic首次推出其顶尖模型Mythos预览版时,它只对150多家经过严格筛选的合作伙伴开放,通过名为Project Glasswing的秘密项目进行测试。测试结果令人震惊:该模型在主流操作系统和浏览器上暴露出严重漏洞。如今,这家AI实验室决定做一件前所未有的事——将它的顶配能力首次向公众敞开,只不过这次,他们给它穿上了一件"紧身衣"。

这个名为Claude Fable 5的新模型,实际上是Mythos的"受限版"。它保留了Mythos的核心实力,但在安全边界上设置了新的护栏。如果用户问及网络安全、生物学或化学等敏感领域的问题,系统会自动将这些查询转给上一代模型Opus 4.8来处理——就像把危险品交给专职搬运工,而不是让珍宝亲自上阵。

表现如何?Fable在几乎所有主流AI基准测试中刷新了记录。与Opus 4.8和GPT 5.5相比,它在编程、推理、知识工作等领域的提升堪称巨大。业界有个有趣的现象:每个实验室都声称自己的最新模型是"世界最强",但这次,其他AI实验室似乎难得地达成了共识。

不过,Fable的开放是有时限的。到6月22日之前,所有Claude订阅用户都可以体验它;之后,它将转为按使用量计费:每百万输入token收费10美元,每百万输出token收费50美元。与此同时,Mythos 5也正式向Project Glasswing合作伙伴发布,它在网络安全领域的使用限制更少,成本也比预览版更低。

这也许是AI竞赛中最罕见的一幕:当技术突破真正发生,兴奋与忧虑如此鲜明地并存。6月22日的倒计时已经开始,而真正的问题在于:当一个近乎完美的AI触手可及时,它的边界在哪里,又应该在哪里?

2026年6月11日

华盛顿的国防部大楼里,一份名单的重量正在改变全球科技版图的温度。不久前,五角大楼悄然更新了其"中国军事公司"的标签,将阿里巴巴、百度和比亚迪三个中国老百姓最熟悉的消费品牌,拖进了美中安全对峙的漩涡中心。

这份不断膨胀的名单如今已囊括近200家中国企业,从人工智能巨头阿里巴巴、百度、腾讯,到电动车领军者比亚迪,无一幸免。虽然这个标签目前尚未直接触发制裁,但它像一扇无形的门——关闭了这些公司参与美国国防合同和研究资金的大门。更有意思的是,名单上还重拾了一些曾在二月草案中闪现又消失的名字,比如存储芯片制造商长江存储和长鑫存储。

北京方面立即发出抗议,指责这是歧视性做法。这些公司也纷纷否认任何军方角色。就连美国国内的批评者也忧心忡忡,认为这种"标签化"运动实际上把几乎所有中国大型科技企业都当成了潜在威胁。

这不仅仅是一次简单的分类调整。五角大楼的行动将这些中国最大的消费科技品牌,从舒适的商业领域直接推到了地缘政治对抗的前线。供应链、投资计划、增长蓝图,都因此蒙上更深的阴影。更值得警惕的是,当"军事‑民用融合"的定义被如此宽泛地解释,任何一家中国科技公司都可能被默认为事实上的国防企业。安全与商业的界限正在模糊,而全球市场对这种模糊的反应,才刚刚开始。

2026年6月11日

Instagram终于让用户完全掌控个人主页的网格布局。过去,发布动态只能按时间顺序排列,如今,你只需长按任意旧帖子,点击“重新排列网格”,即可像拼图一样将它们拖放到理想位置,无论它们发布于何时。这个功能目前仅限iOS和Android应用操作,固定帖子会保持置顶,并在重排界面中显示为灰色。Instagram负责人亚当·莫塞里去年曾预告这一改变,当时正值平台因将方形缩略图替换为更高裁剪而遭遇用户不满,这波调整也被视为平息争议的举措。早在2022年,逆向工程师亚历山德罗·帕卢奇就发现了“编辑网格”的代码,但Instagram将其搁置,直到2025年初才重新推进。

这一功能意义深远:对Instagram超过20亿用户而言,重排网格将个人主页从随机的日记本,变成了精心策划的橱窗。创作者和品牌可以决定访客最先看到什么,从而掌控第一印象。它鼓励用户从记录生活转向塑造形象,而布局优化也成了新的竞争战场。说到底,每一次拖拽,都是在回答一个老问题:在社交媒体上,我们究竟是在展示真实的自己,还是精心设计的人设?

2026年6月11日

OpenAI刚刚秘密向美国证券交易委员会提交了S-1文件,分析师预期这可能成为十年来规模最大的首次公开募股之一。同一时刻,其首席执行官山姆·奥特曼押注的另一家公司——虹膜扫描初创公司Tools for Humanity——却因营收困境和监管反弹而裁员,形成了鲜明对比。

Tools for Humanity正是Worldcoin眼球扫描设备“球体”的幕后运营方。这家公司向用户支付约50美元加密货币,以换取他们的生物识别数据,但这一商业模式始终难以转化为实际收入。据报道,尽管公司估值高达25亿美元,背靠知名风投a16z、贝恩资本和科斯拉创投,仍然被迫缩减团队。具体裁员规模尚未公开,但商业内幕报道称,公司在未能将生物识别推销转化为真正营收后开始减员。

Worldcoin的扩张之路充满波折。其用加密货币交换虹膜扫描数据的方式已在韩国等国引发禁令、罚款和隐私调查。监管机构质疑这种通过生物数据换取数字代币的做法是否合规,以及用户隐私能否得到充分保障。Tools for Humanity试图用“验证人类身份”的叙事吸引投资,却在现实世界遭遇了比人工智能更强烈的抵触。

奥特曼的赌局出现了两种截然不同的走向:一边是人工智能领域的OpenAI势如破竹,即将借IPO登上资本舞台;另一边是生物识别加密项目举步维艰,即便高估值也难掩商业模式和监管的双重压力。当创新需要人们交出生物特征来换取代币时,再耀眼的估值也经不起现实的审视。

2026年6月11日

苹果在WWDC主题演讲上,出人意料地将iOS 27定位为一次追求速度和清理包袱的更新。最大胆的举动是,它把系统支持范围直接拉回到iPhone 11和iPhone SE第二代,延续了苹果一贯超长的软件支持周期。同时,面对去年铺天盖地的批评,苹果罕见地收回了极具争议的Liquid Glass外观——而不是固执地坚持自己的设计。

性能上的数字令人瞩目:应用启动速度最高提升30%,照片拍摄后加载速度最高提升70%,而AirDrop传输速度则狂飙80%。为了平息用户对Liquid Glass的不满,苹果加入了一个全新的透明度滑块,用户终于可以自己调节这个玻璃质感的深浅。此外,图标变得更锐利、更有层次感,iCloud共享相簿首次向安卓和Windows用户开放,AirPods也新增了自定义均衡器,地图的Flyover更丰富,健康应用则增加了围绝经期追踪功能。

将iOS 27的支持范围延伸到iPhone 11,意味着大量老款手机用户依然能享受最新系统。这对安全性和开发者来说都是好消息,但从商业角度看,苹果可能无意中削弱了用户因系统过时而去换新机的动力。更值得玩味的是Liquid Glass的让步方向。苹果向来以设计自信著称,公开承认一个设计失误并迅速调整,这在历史上并不常见。这背后或许是一种策略:用极致的性能诚意笼络老用户,同时对那些挑剔的设计控也给予足够的尊重。当一款系统不再是你必须升级硬件的理由,真正的赢家是那些靠软件和服务绑定用户的生态。这场科技盛宴的核心,也许不是那些绚丽的智能功能,而是苹果正在学习如何在速度、支持和审美之间找到更精准的平衡点。

2026年6月6日

在同策略蒸馏(OPD)的日常里,学生模型只能模仿老师输出的概率分布——每一次从几十万词表中采样,都不可避免带着噪声,而且老师中间层层叠叠的隐藏状态,像是被锁在黑箱里,始终无法被学生窥见。这种“输出至上”的局限,让蒸馏效率卡在了瓶颈上。

于是,研究人员提出了同策略表征蒸馏(OPRD)。核心思路很简单:在学生与老师相同的推理过程中,不再只盯着最后的概率,而是直接对齐两者在特定层之间的隐藏状态表示。这样一来,绕过了庞大的语言模型头(LM head),也彻底避开了大词表采样带来的方差。理论上,OPRD不仅消除了采样不确定性,还让每一层的结构信息都能传递给学生。

实验的成果很直观:在AIME 2024、AIME 2025和AIMO这类高难度推理任务上,基于输出空间的OPD基线始终无法超越老师,而OPRD却显著缩小了师生差距。更令人意外的是效率——OPRD的训练速度是传统top-k OPD的1.44倍,内存占用却少了54%。

知识迁移的边界,或许从来就不在输出层。当隐藏状态被允许直接对话,学生看见的就不只是答案,还有老师思考的轨迹。

2026年6月6日

计算能力的增长速度远超高质量文本的供应,多轮训练正在成为常态。然而,仅仅对单个模型进行反复训练,往往在几轮之后就陷入性能饱和,远未能充分利用预算中的计算资源。研究人员提出,这需要一次概念性的转变:从训练单一模型,转向探索一群模型并聚合它们的预测结果。

为此,一种名为超轮次预训练的新方法被引入。它将多轮训练预算转化为一群多样化的模型,这些模型的联合预测能够达到比任何单一精炼模型更低的验证损失。该方法的核心由三个基本模块组成:一个采用反相关学习率和权重衰减的循环调度,能够从少量并行轨迹中收集多样化的模型;链式蒸馏让每个模型向其前身学习,使得模型质量在群体中持续累积;一个在预留数据集上拟合的学习先验,负责为任意的推理预算选择和加权成员。

在1.8B参数模型和100M个FineWeb令牌的训练实验中,该方法仅用了约56轮次就达到了一个强大的256轮次集成基线——效率提升了约4.6倍。如果与基线集成规模匹配,则只需约67轮次,相当于约3.8倍的效率提升,并且在这个基础上还能继续改进。在慢跑设定下,这些增益累积实现了约12.9倍的数据效率,并且成功迁移到了下游基准测试中。

关键的是,最优分配会随着预算发生变化。因此,该研究给出了具体的操作指南,指导如何针对给定的轮次预算来最大化泛化能力,无论是单轮训练还是最大预算都能找到对应的策略。

当数据的增长跟不上计算的步伐,我们或许不该再固守于打磨一块完美的石头,而是学会欣赏并利用整个群星的光芒。效率的提升,往往就藏在思维转变的瞬间。

2026年6月6日

想象一下,一个机器人不仅要听懂你“把桌上的苹果拿给我”这样的指令,还要能预判拿起苹果时周围环境会发生什么变化,并据此调整自己的动作。传统的机器人学习模型往往有所偏废:有的擅长从海量视频中理解物理世界的动态(世界-动作模型WAM),却难以处理需要多步推理的长任务;有的能借助大语言模型进行逻辑规划(视觉-语言-动作模型VLA),却缺乏对底层物理规律的真实感知。现在,研究者提出了世界-语言-动作(WLA)模型,试图将两者优势融为一体。

WLA模型的输入包括文本指令、图像和机器人自身的状态信息,而输出则是一个“三重预测”:下一阶段的子任务描述(语义级)、完成子任务所需的目标图像(世界模型级)、以及具体的机器人动作(动作级)。这意味着它不只是按部就班执行指令,而是在执行前先“想象”世界会变成什么样。为了实现这种能力,WLA的核心采用了自回归Transformer架构,而非WAM中常用的双向扩散Transformer。它会逐个预测“下一状态”——这个状态既包含“我要去拿杯子”这样的语义意图,也包含杯子被拿起后位置、角度等精细的物理变化。

物理动态部分的预测由专门的“世界专家”(World Expert)负责监督训练,这些动态信息又被用来帮助“动作专家”(Action Expert)更精准地建立状态与动作的关联,从而简化动作生成难度。有意思的是,WLA通过元查询(meta-queries)机制,让世界预测可以隐式地影响动作生成,而在实际推理时完全可以将世界预测模块关闭以节省计算资源——只有在需要提升控制精度时,才激活世界预测,在测试时通过“缩放”计算量来优化决策。这种灵活的设计使得模型在效率和性能之间取得了平衡。

WLA的第一个原型模型WLA-0,拥有20亿活跃参数。在NVIDIA RTX 5090上,单次推理仅需40毫秒,足以满足实时控制需求。在模拟和真实环境的评测中,WLA-0展现了强大的多任务和长程任务学习能力:在RoboTwin2.0 Clean基准上,任务成功率高达92.94%;在更具挑战的RMBench上,也达到了56.5%的成功率。更令人兴奋的是,WLA-0还展示了从“跨形态机器人视频”中直接学习新任务的能力——即使这些视频没有标注任何动作,它依然能通过观察不同机器人如何与世界互动,学会新的操作技能。

这一结果意味着,未来的机器人或许不再需要依赖昂贵且繁琐的人工动作标注,仅凭观看大量机器人的行为视频就能不断拓展能力边界。当机器人的“语言”和“感知”真正融入了对世界的“想象”,它们离我们想象中的通用智能体又近了一步。

2026年6月6日

传统机器人动作生成需要数十步迭代扩散,如同慢速放映,无法满足实时操控需求。步进蒸馏本是提速良方,却在视频与动作联合建模时失灵——视频流和动作流使用了截然不同的噪声调度,就像两个时钟走速不一,到达训练环节时噪声分布已天差地别,单一蒸馏方法根本无法兼顾这种不对称性。Flash-WAM的解决方案是,为每个模态量身定制一致性函数:对动作流采用线性梯度缩放参数化,匹配其低噪声环境;对视频流采用方差保持参数化,应对高噪声环境。这一设计源于对一致性函数家族的深入分析,揭示了在一致性边界条件下可实现的不同梯度缩放特性。实验在LingBot-VA上实现单步推理,在RoboTwin 2.0上将每段延迟从8.1秒锐减至348毫秒,23倍加速让实时闭环控制成为可能。模拟测试中,Flash-WAM维持了85.5%和95.7%的成功率;真实世界中,Unitree G1人形机器人平均表现恢复至60%,而朴素一致性蒸馏在同一计算预算下仅剩24%。当视频与动作不再被当作同一种信号处理,机器人才能真正跟上世界的节奏。

2026年6月6日

视频事件预测,就像从一段不完整的影片中,猜出下一秒会发生什么。这听起来像是科幻,但真实世界里的智能模型正在为此努力。然而,传统做法有个致命缺陷:它们总喜欢把画面里的动作、形状、互动关系,一股脑翻译成文字,再在文字里推理未来。一旦画面变成文字,那些细腻的几何扭曲、微妙的运动轨迹、物体间的时空关联,就像水珠从指缝漏掉,成了似是而非的“幻觉”。

一项名为Future-L1的新研究,打破了这个僵局。它让模型在推理时,既说人话,也“看”画面——在生成文字token的同时,交替插入连续的潜在视觉片段。这些视觉片段不是文字所能描述的,它们是高维空间里的视觉语义,保留了运动、形状和交互的原汁原味。为此,研究者从现有视频数据中精选了5万条样本,构建了Future-L1-50K数据集,专门挑选那些“看一眼未来画面就能猜对答案”的例子,并让模型把它的潜在状态对齐到未来的真实帧嵌入上。训练时,他们还用了一种叫LA-DAPO的强化学习算法,给不同的潜在推理轨迹打分,奖励那些与最终结果更一致、同时保持时间多样性的路径。

结果令人震惊。在FutureBench上,原本只有61.0分的Qwen3-VL-8B模型,采用Future-L1后飙升至85.4分,一举超过此前最强模型Video-CoE整整10.4分。在更复杂的TwiFF-Bench上,平均分也从2.44提升到3.04。这些数字背后藏着一个朴素的真理:当模型在潜空间里保留视觉语义,而不是把所有推理步骤都翻译成文字时,它对未来的预测会变得更加扎实而准确。

人类看视频时,从来不会把每一帧的画面都转化为语言再思考。我们在脑海中保留的是动态的、模糊的、连续的视觉印象。Future-L1所做的,不过是教会机器用同样的方式思考——不是放弃语言,而是让视觉在推理中保持它的原貌。这或许暗示着一条更根本的道路:未来的智能,不是在文字和图像之间二选一,而是学会在两者之间自由切换,就像我们的双眼和大脑,从不必翻译就能明白下一刻会发生什么。

2026年6月6日

想象一个场景:一位数学天才可以轻松口述复杂证明,但一旦要求用严谨的符号语言写出每一步逻辑,就变得磕磕绊绊。这正是大型语言模型(LLM)的困境——它们擅长非正式的数学推理,却在生成像Lean这类形式语言的可验证证明时屡屡受挫。然而,一个名为LEAP的智能体框架彻底改变了这一局面,让通用基础模型在自动形式定理证明领域达到了顶尖水平。

LEAP的核心智慧在于“化整为零”。它利用基础模型的内置能力——非正式推理、指令遵循和迭代自我完善——将复杂的数学难题拆解成一个个更小的单元。通过与Lean编译器的持续交互,这个系统在形式证明构建与非正式蓝图之间架起了一座桥梁。想象一位经验丰富的程序员一边编写代码,一边即时运行测试并修正错误;LEAP正是以类似的方式,一边推理数学逻辑,一边与编译环境对话,直到所有步骤都通过机械验证。

为了严格评估这类系统的性能,研究者引入了Lean-IMO-Bench——一个以IMO风格问题为蓝本的基准测试。这些问题的陈述虽短,但证明路径高度非惯例且多步骤,难度跨度极大,避免了现有基准被刷新的“饱和”现象。实验数据令人震撼:在2025年北美大学生数学竞赛Putnam比赛的全部12道题中,LEAP解决了所有题目,追平了此前由顶尖形式数学模型实现的突破。而在Lean-IMO-Bench上,通用LLM单次尝试的形式化求解率从不足10%直接跃升至70%,甚至超过了由金牌级别的IMO专用系统创下的48%基准——这个专用系统可是经过海量专业数据训练的。

更令人惊叹的是LEAP的研究级实用性。它自主地形式化了开放组合数学难题中的复杂证明,包括对Knuth关于偶数阶Cayley图哈密顿分解中一个关键子问题的验证。这意味着,LEAP不仅能解题,还能辅助数学家将非正式的手稿转化为计算机可验证的严谨文档。

从普特南竞赛的满堂彩,到基准测试中碾压式提升,再到研究前沿的实际应用,LEAP证明了一个道理:当大语言模型学会与逻辑编译器共舞,它们就能在形式推理的疆域里跑出加速度。也许有一天,每一个定理的诞生都会伴随着一个无形的“校验官”,而LEAP正是那扇通往信任之门的钥匙。

2026年6月6日

策略梯度方法通常致力于最大化期望回报,但在许多现实场景中,分布的尾部风险、异常值鲁棒性或Best-of-K发现等特性更为关键。OrderGrad应运而生,它是一族针对顺序统计量目标的似然比和重参数化梯度估计器。

想象一个场景:一家自动驾驶公司希望训练一个决策模型,不仅要平均表现好,更要避免那些可能导致事故的极端情况。传统策略梯度只关注均值,可能对高分奖励过度乐观。而OrderGrad允许用户将目标自定义为排序后奖励的加权平均——即有限样本的L统计量。只需改变秩权重,就能表示VaR(风险价值)、CVaR(条件风险价值)、修剪均值、中位数,甚至“Top 10%”和“Best-of-K”等常见目标。对于任何固定的样本大小和权重向量,OrderGrad都能提供无偏的梯度估计。

实现上,OrderGrad仅仅是对原始奖励进行一次简单的排序和加权变换,然后就可以直接插入到标准的策略梯度或重参数化更新中,堪称即插即用。研究者还分析了该估计器的方差行为,并在多个任务上进行验证,包括大型语言模型(LLM)的数学后训练。结果显示,当均值优化与实际部署目标不匹配时——例如需要LLM在多次尝试中选出最佳答案(Best-of-K),或要求稳健性以避免低质量输出——OrderGrad都能显著提升性能。

这一方法为解决风险规避、鲁棒性和探索性学习提供了一个统一的工具箱。当任务目标不再是简单求平均,而是关注分布中的特定部分时,也许我们应该重新审视“最优”的定义——学会在风险的边缘与机遇的顶端之间权衡,才是更贴近真实世界的选择。

2026年6月6日

在人工智能的推理世界里,语言模型正在经历一场静悄悄的革命。一直以来,大语言模型通过生成显式的“思维链”来展示推理过程——每一步推理都必须用文字表述出来,即便这个思维本身尚不确定或只是部分成型。这种离散、串行的文本化方式,虽然直观,却让模型在每一个中间步骤都不得不“说出声”才能继续前进,仿佛一个思考者在嘴里念念有词才能整理思路。

科学家们发现,如果让模型在提交最终答案之前,先用紧凑的连续状态进行潜在推理,就像人类陷入沉思时不一定会自言自语,那么信息传递的带宽可以大大提高。然而,此前尝试的潜在推理方法常常牺牲了思维链真正的优势:从左到右的渐进式生成、概率性的采样方式、与高效KV缓存的兼容性,以及可计算出的似然估计。这使得它们在自回归语言模型中难以完全发挥效力。

现在,一个名为NF-CoT的框架试图打破这一困局。它运用归一化流这种数学工具,将连续思维建模成从显式思维链中蒸馏出的紧凑概率分布,同时保留了上述所有关键特性。想象一下,在同一个因果生成流中,模型头部变出了两个角色:一个“NF头”专门生成潜在思维位置,另一个标准的“语言模型头”则继续生成文本部分。这种设计让模型能够为潜在思维提供精确的似然值,支持使用原始KV缓存进行从左到右的概率解码,甚至在潜在推理空间里直接进行策略梯度优化。

在代码生成的基准测试中,NF-CoT展现出了令人瞩目的成果:它比使用显式思维链和此前潜在推理方法都取得了更高的通过率,同时大幅降低了中间推理的计算成本。这意味着模型不再需要把所有思考过程都写在纸面上,而是在头脑中完成高密度的内省,只在必要时才开口说话。当效率与深度得以兼得,推理的边界或许将从此改写。

2026年6月6日

在强化学习后训练大型语言模型的过程中,研究者常依赖可验证奖励的强化学习来优化推理能力。然而,稀疏的结果奖励如同大海捞针,让模型探索举步维艰。一个弥补方案是直接优化推理时的目标,比如pass@K和max@K这些指标。但问题来了:现有的政策梯度估计器用着不同的信号、基线和归一化手段,彼此之间的关系像一团乱麻,让人看不清头绪。

研究团队决定从根上理顺这团线。他们聚焦于基线设计和优势中心化这个关键环节,从领域内一项领先方法的优势估计器入手,发现它虽然能保证政策梯度无偏,但生成的“优势”却像失衡的天平,并不居中。于是,他们抛出一个巧妙的解决方案:Leave-Two-Out基线。这个新基线不仅保留了政策梯度无偏的特性,还让实际批量计算出的优势变得精准居中——就像把摇摆的指针稳稳固定在零刻度。

基于这个设计,他们构建了名为MaxPO的方法。它的实现效率出众,时间复杂度呈二次方增长,能自然融入当下流行的基于组的强化学习框架,用于LLM的后训练。不仅如此,研究团队还推导出max@K的规范有限批次优势表达式,为现有的各种优势估计器提供了一张统一的蓝图——原来那些看似不同的方法,都在这个新视角下找到了各自的位置。

实验验证了猜测:采用Leave-Two-0ut基线后,梯度方差显著降低,性能超过了那些非中心化的老办法。这种对奖励信号和探索策略的精准调校,或许正是让推理模型从“做对题”迈向“懂解题”的关键一步。当优势变得居中,模型的后训练不再是撞大运,而是一场有章可循的权衡艺术。

2026年6月6日

在人工智能研究的漫长赛道上,大型语言模型智能体正被赋予越来越复杂的长期任务,比如科学发现和机器学习工程。然而,这些高难度的探索常常面临三个致命瓶颈:不同探索路径间的信息隔绝、像金鱼一样七秒记忆的搜索方式、以及缺乏高层指挥的混乱迭代。想象一下,一个科研团队里每个成员都埋头自己的孤岛,从不交流实验结果,也不记得昨天的失败教训,更没有人统筹全局策略——这就是现有MLE智能体的困境。

为了打破僵局,研究人员推出了MLEvolve——一个基于大型语言模型、能自我进化的多智能体框架,专门用于端到端的机器学习算法发现。它的核心突破在于三大创新设计。首先,MLEvolve将传统的树搜索升级为“渐进式多重分支图搜索”,让不同探索分支之间通过图结构的引用边共享信息,就好比让每个实验小组都能随时看到其他小组的最新进展。同时,它引入了一个受熵启发的渐进式调度策略:初期广泛探索不同可能性,后期逐渐收敛到最有潜力的方向,实现从“广撒网”到“深挖井”的平滑过渡。

其次,为了让智能体能在长期迭代中不断成长,MLEvolve设计了“回顾性记忆”机制。这就像一个科学家既有初期积累的领域知识库作为冷启动,又有一份动态更新的全球记忆,专门存储任务相关的成功经验和失败教训。下次遇到类似问题时,智能体能直接调取这些经验,而不是每次从零开始思考。

最后,为了确保长期迭代的稳定性,MLEvolve将战略规划与代码生成解耦,并提供了自适应编码模式。这意味着高层决策者专注于制定下一步探索计划,而底层执行者则根据计划生成并调试代码,两者各司其职,避免了“手忙脚乱”的低效。

在MLE-Bench这一权威基准测试中,MLEvolve展现出卓越性能:在仅12小时预算(标准运行时间的一半)下,它在平均奖牌率和有效提交率等多个维度上均达到领先水平。更令人惊讶的是,在数学算法优化这类特定任务上,它甚至超越了专为此领域设计的AlphaEvolve方法,证明了其强大的跨领域泛化能力。

这项研究的真正启示在于:当智能体学会积累经验、跨分支交流、并分层次协同工作时,它们在长期复杂任务中的进化速度可能远超我们的想象。想象一下,如果每个AI系统都能像MLEvolve一样从昨天的工作中汲取养分,从同伴的探索中获取灵感,那么算法发现或许真的会进入一个自我加速的时代。

2026年6月5日

在大语言模型训练的赛场上,Adam优化器曾长期是默认选手,但一个新锐优化器Muon正以约两倍的训练效率引发关注。然而,Muon究竟为何能跑得更快?其局部几何优势始终像一层迷雾。我们的研究首次从曲率视角揭开Muon相对于Adam的优势之谜。

我们首先对训练损失景观进行二阶泰勒近似,发现两者在达到相同验证损失时,Muon的单步损失下降幅度更大。尽管两者的“一阶收益”(即梯度方向上的即时收益)相差不大,但Muon始终承担更小的“二阶曲率惩罚”——这相当于在同样迈一步时,Muon踩到陡峭曲面上的代价更低。

进一步,我们将曲率惩罚拆解为“更新范数”和“归一化方向锐度”(Normalized Directional Sharpness, NDS)两个成分。有趣的是,Muon和Adam的更新范数大小接近,因此Muon更小的曲率惩罚并非来自更新幅度差异,而是源于更低的NDS——也就是其更新方向在曲率变化的曲面中更“聪明”。

随后,我们探究了训练数据和模型结构如何塑造Muon的NDS优势。通过使用Zipf-概率上下文无关语法(PCFG)数据来控制数据不平衡程度,我们发现,当数据分布越不均衡,Muon相对于Adam的NDS优势就越显著。对模型进行层内/层间曲率分解则显示,在训练的中后期,Muon更低的NDS主要来自更小的层内曲率——这意味着Muon在每一层内部更新时,避免了“扎堆”冲击高曲率区域。

除了实证证据,我们还分析了具有异质曲率(即不同方向曲率差异很大)和梯度偏向高曲率模式的理论二次型问题。严格证明表明:Muon通过将更新能量更均衡地分配到不同曲率组上,获得了比梯度下降(GD)更低的平均NDS;当曲率异质性足够强时,这种优势更会转化为相同步数下更低的局部二次损失。

Muon的高效并非魔法,而是源于其对曲率方向的巧妙规避——当优化器学会避开“陡坡”,每一步都踩得更稳,跑得更快就成了必然。这提醒我们,在模型训练的微观世界里,方向的选择往往比步长的大小更为关键。