EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年5月30日

近年来,前馈式3D重建Transformer的规模已膨胀至超过十亿参数,遵循着计算机视觉中模型容量不断增长的普遍趋势。然而,新兴证据表明,连续的Transformer层往往表现得像是重复应用相似的操作,而多视图重建Transformer会在解码器深度上逐步优化其预测。论文作者提出,模型深度在某种程度上是用迭代换来的,但这种迭代是以独特参数的低效为代价的——于是,他们决定把这种迭代显式地嵌入架构中。

他们的模型名为DéjàView,其核心思路出奇地简单:将一个单一的循环Transformer块反复应用于每视图特征,进行K步细化。训练只需一次,而K则成为了一个可以在推理时调节的“计算旋钮”。在涵盖室内、室外、物体中心和驾驶场景的五个重建基准上,DéjàView以更少的参数和相当或更低的计算量,匹配甚至超越了那些规模大得多的前馈基线。更关键的是,在相同的训练数据和计算预算下,这种循环块方案的表现优于一个拥有独立每步参数的完全相同的变体版本——这表明,显式的迭代不仅仅是一种用计算效率替代模型容量的手段,它为多视图3D重建提供了一种更强的归纳偏置。

在这个参数膨胀成风的研究领域,DéjàView用一个循环和一把旋钮,证明有时少即是多:真正的力量不在于堆叠更多的层,而在于学会如何聪明地重复利用已有的每一步。

2026年5月30日

生成式模型从扩散模型到大语言模型,虽然性能惊人,却代价不菲:它们需要比生物学习系统多出几个数量级的训练数据。与此同时,一种另类范式悄然兴起——让网络学习预测自身对相关视图或遮蔽区域生成的潜在表征,就像data2vec和JEPA所实践的那样。这一思路与大脑皮层中的预测编码理论不谋而合。尽管实证结果亮眼,但这些方法背后的理论根基依然模糊。几个核心问题悬而未决:预测潜在表征究竟能在多大程度上提升数据效率?将这些方法堆叠成多尺度层级结构,是否真有额外好处?一项新研究通过一种清晰可解的概率上下文无关文法——这种文法的生成过程恰好捕捉了自然语言和图像的组合结构——给出了回答。

在这种文法中,一串可见标记通过沿着深度为L的隐符号树递归应用生成规则而诞生。对于这类数据,无论是监督学习还是令牌级别的自监督学习,要想恢复那棵隐树,所需样本数量竟随L呈指数级增长。但研究团队证明:潜变量预测方法只需与L无关的样本量(仅与对数因子有关)就能达成目标。这一结论得到了三重验证:第一,一个层次聚类算法;第二,一个端到端神经网络,其中的预测-聚类模块在每一级通过梯度下降自行预测自己的潜在表征;第三,也是首次对data2vec进行样本复杂度分析——分析表明,data2vec本质上已在执行一种隐式的层次化潜变量预测。由此看来,像H-JEPA那样的显式堆叠机制,很大程度上是多余的。

学习效率的鸿沟不在于算力多寡,而在于能否学会在更抽象的层次上自我提问。当模型不再被动记忆每一个表皮符号,而是主动预言更深层的结构时,数据不再是燃料,而成了路标。

2026年5月30日

在人工智能的浪潮中,大型语言模型(LLM)已成为核心范式,但驱动其运作的注意力机制,其计算内核多年来始终未变。传统的Softmax注意力基于“局部常数估计”,如同用简单的平均来概括复杂关联。而“局部线性注意力”(Local Linear Attention, LLA)则引入“局部线性估计”,理论上能更精准地平衡偏差与方差,优化联想记忆。但这项技术此前因计算复杂度和数值稳定性问题,一直未能在大模型预训练中规模化应用——就像一台精密仪器始终停留在实验室。

如今,研究团队推出了“Parallax”——一种参数化的局部线性注意力机制,首次实现了在LLM中的可扩展部署。Parallax巧妙地去掉了LLA中复杂的数值求解器,转而学习一个类似query的投影器,用以探查键值协方差矩阵中的非线性关系。这一设计不仅稳定了训练,还允许它融入统一的注意力家族框架中,与带宽、投影构造和仿射结构等机制相连。

更关键的是,Parallax搭配了硬件感知的算法:它通过提高计算强度,使注意力操作从“内存瓶颈”转向“计算瓶颈”,从而能更充分地利用GPU的计算资源。在解码阶段的原型测试中,它的性能在不同批大小和上下文长度下,与FlashAttention 2/3持平甚至超越——这意味着在不牺牲效率的前提下,获得了更优越的注意力表达。

研究团队在0.6B和1.7B参数规模的模型上进行了预训练验证,结果令人振奋:Parallax在预训练全过程中持续保持更低的困惑度(perplexity),且这种优势在参数和计算量匹配的条件下依然稳固,并在下游任务基准上展现出一致的提升——这是典型的帕累托改进,即不增加成本却能提高性能。

一个意外的发现来自优化器部分:当使用Muon优化器时,Parallax的能力被显著“解锁”,性能跃升。这是学术界首次在注意力机制中观察到这种架构-优化器协同设计的实证效果,暗示未来模型优化不仅要考虑结构,还要考虑与训练算法的匹配。

Parallax不是对既有机制的修修补补,而是从统计学根基更新了注意力的基本假设。它证明了:当局部线性估计被正确参数化并配合硬件友好设计时,不仅能在理论上更优,还能在实践中大规模落地。这或许预示着,我们熟悉的注意力机制,即将迎来一场从“常数”到“线性”的静默革命。

2026年5月30日

想象一下,你的私人助理不仅记得你交代的每一件事,还能自动修补遗漏、剔除冗余,甚至把重复的成功模式提炼成可复用的“快捷方式”——这听起来像是科幻小说里的设定,但一种名为FluxMem的新型记忆框架正试图让大语言模型代理具备这种动态适应能力。

传统记忆增强型代理往往把记忆视为静态仓库,预定义好存储结构和检索流程。这在真实环境中非常脆弱:代理在交互中不断收到新反馈、任务目标变化、信号来源五花八门,记忆该记住什么、该如何彼此关联,时刻在变化。FluxMem的核心创新在于把记忆建模成一个异构图,并通过三个发展阶段持续优化其拓扑结构:初始连接建立阶段,它先为信息搭建原始网络;反馈驱动的精炼阶段,根据后续交互结果修补缺失的关联、剪除干扰连接、统一不同信息的抽象层级;最后进入长期巩固阶段,把反复出现的成功路径蒸馏成可复用的“程序回路”。整个过程由一个衡量记忆通用性和进化成熟度的指标引导。

在三个截然不同的基准测试上——涵盖长程对话理解的LoCoMo、网页任务执行的Mind2Web以及通用问题求解的GAIA——FluxMem都取得了稳定最优的结果,展现出在复杂代理环境中的强大适应与泛化能力。这种将记忆视为需要持续进化的活组织而非死存储库的思路,或许正是让AI代理真正学会“在经验中成长”的关键一步。记忆不再是过去的翻版,而是未来行动的蓝图。

2026年5月30日

人类是AI构建与改进的最大瓶颈——无论是模型还是包裹其的智能体,皆需人力编写、调优与修正。长期以来,让AI自主实现自我提升的愿景始终悬而未决。两大研究流派各自为战:一是“脚手架更新派”,让元代理重写任务专属智能体的工具、提示词、重试逻辑与搜索流程,但模型权重保持不变;二是“测试时训练派”,通过手工设计的强化学习流程,依据任务反馈更新模型权重,但脚手架固定不动。两派互不往来。

如今,一种名为SIA的自我改进循环横空出世。它让一个语言模型代理——即“反馈代理”——同时更新任务智能体的脚手架与权重。研究者在三个截然不同的领域进行了验证:中文法律罪名分类、底层GPU内核优化,以及单细胞RNA去噪。结果令人瞩目:当双管齐下时,效果远胜于仅改进脚手架。在LawBench上,SIA-W+H比此前最先进方法提升了25.1%;GPU内核速度提升了12.4%(从1161微秒降至1017微秒);去噪任务则提升了20.4%。脚手架更新赋予了智能体自主性,塑造其搜索与行动的方式;而权重更新则构建了任何提示词或脚手架都无法灌输的领域直觉。

这告诉我们,AI的自我进化并非遥不可及。当两种看似对立的策略握手联合,瓶颈就不再是终点,而是新起点。也许,未来的AI将不再依赖人类的每一次修正,而是在为自己“打磨工具箱”的同时,也悄然重塑内在的思维方式。

2026年5月30日

近年来,视频扩散基础模型在高质量视频生成上突飞猛进,但如何让它们变成能实时交互的视频世界模型,依然是个硬骨头。交互式世界模型需要可控、因果、低延迟的滚动生成,这背后是一整套流程:从数据构建、可控微调、自回归训练,到少步蒸馏和流式推理。现在,有一个名为minWM的全栈开源框架,试图把这个复杂链条打包成一条端到端的生产线,让现有的双向文本到视频或图像到视频基础模型,摇身一变成为支持摄像机控制的少步自回归世界模型。

minWM的做法很清晰:首先,用摄像机控制信号对双向视频扩散模型进行微调,让它学会根据摄像机轨迹生成画面。接着,通过一个被称为“因果强制”或“因果强制++”的管道,进行自回归扩散训练、因果常微分方程或因果一致性蒸馏,以及不对称分布匹配蒸馏,最终将模型蒸馏成一个只需几步生成的自回归生成器,从而实现低延迟的滚动输出。这套框架不仅模块化,而且架构可扩展——研究者在两个代表性的开源骨架上做了实例化:Wan2.1-T2V-1.3B(基于交叉注意力条件注入)和HY1.5-TI2V-8B(采用MMDiT架构),证明了框架的通用性。

更实用的地方在于,minWM还能适配已有的视频世界模型,比如HY-WorldPlay,将其移植到新的数据分布、训练配方和不同延迟目标上。除了发布可直接运行的脚本、模型检查点、文档和推理代码外,团队还提供了关于摄像机轨迹质量、可控性训练步数、最小批大小要求等实际消融实验,让后来者能照方抓药。这个框架的意义在于,它为构建和适配实时交互视频世界模型提供了一份可复现、可扩展的实操指南,把从理论到落地之间的鸿沟缩窄了一大步。当生成模型不再只是静默地输出,而是能实时响应你的视角指令,或许我们正站在下一代交互体验的起点上。

2026年5月29日

同一天,Anthropic甩出了两颗重磅炸弹——新模型Claude Opus 4.8几乎碾压所有主流基准测试,同时一笔巨额融资让这家AI实验室成为全球估值最高的AI公司,高达9650亿美元,一举超越OpenAI。

Opus 4.8的定价与上一代4.7保持一致,但在智能体编程、计算机使用、金融分析和“人类最后的考试”等项目中,击败了GPT-5.5和Gemini 3.1 Pro。与以往版本相比,4.8被认为是Anthropic所有模型中最不“偷懒”的,它更加诚实——当遇到不确定的信息时,更倾向于标注不确定性,而不是编造未经核实的答案。此外,它的快速模式价格便宜了3倍,claude.ai新增了effort control功能,而Claude Code也支持并行子代理,可以处理复杂、长时间运行的任务。

在模型发布的同时,Anthropic完成了650亿美元的融资,估值飙升至9650亿美元,成为全球最贵的AI实验室。公司还承诺,将在“未来几周”内推出被称为“神话级”的下一代AI。

尽管这场AI竞赛远未结束,但Anthropic已经跨过了两年前几乎无法想象的里程碑——估值高于OpenAI,模型在几乎所有基准上领先。显然,它“安全优先”的策略正在商业上获得巨大回报,尽管OpenAI的Sam Altman曾将这种策略称为“恐惧营销”。

在这个技术与资本高速狂奔的时代,安全与速度的博弈从未如此激烈。而市场的选择,或许正在告诉我们答案:用户更愿意为一个可靠的思考者买单,而不是一个只追求快速的答案机器。

2026年5月29日

面对一张卧室照片,人类能轻易推断出另一角度看到的景象,但视觉语言模型(VLM)却常常迷失在语言的迷宫里。它们能用华丽辞藻描述场景,却丢失了支撑空间推理的精细几何细节——这就像一位建筑师只会背诵设计说明,却画不出平面图。

为了弥补这一缺陷,研究者曾尝试让模型在回答前先生成一张“思考图像”:一张中间视角的示意图,期望它能作为可视化的思维轨迹。然而讽刺的是,模型生成这些图像时往往只是走个过场,回答时依旧依赖原始文字信息,彻底无视了自己刚刚绘制的“视觉笔记”。

问题摆在眼前:如何让视觉思考真正影响模型的决策?哪种形式的视觉思考最有效?答案藏在一项名为“视图脱落”(View Dropout)的训练技巧中。在统一多模态模型(UMM)训练时,研究人员故意将其中一个输入视图的部分区域从“答案生成区间”中隐藏,但保留这些区域对“思考图像生成区间”的可见性。这迫使模型在回答时无法直接引用隐藏的像素,必须依赖自己生成的思考图像来填补信息缺口——就像一场视觉拼图游戏,让模型不得不把思考图像当作必须使用的线索。

那么,一旦模型被迫依赖思考图像,哪种类型的视觉思考最强大?研究将其归结为“可学习性”与“信息量”之间的博弈:过于复杂的思考图像虽然信息丰富,但模型难以学会生成;过于简单的则提供不了足够线索。三种候选方案浮出水面:自上而下的俯视图、全景展开图、以及基于关键点匹配的渲染图。

在合成场景上训练后,模型在五个真实世界的跨领域基准上接受检验。结果令人意外:只有全景视觉思考搭配视图脱落才能鱼与熊掌兼得——它既能被模型稳定学习并生成,又携带了足够丰富的空间信息。自上而下视图信息量不足,点匹配渲染则难以学习。而视图脱落这一关键干预,让全景思考图像成为模型决策中不可或缺的证据。

或许,真正的智能不在于能画出图像,而在于当其他信息被遮蔽时,仍能凭借自己的创造物找到出路。我们总以为视觉推理是“看见”的过程,却在无意中训练了“盲说”的模型。全景思考加上一点刻意的“失明”,才让机器学会了真正看见。

2026年5月29日

想象一位走钢丝的杂技演员,每一步都必须在探索新姿势和稳定重心之间找到微妙平衡。大语言模型的在线强化学习(RL)同样面临这样的挑战——它们要在复杂推理任务中既要大胆尝试新策略(探索),又要牢牢锁定正确答案(利用)。但多数方法像抽风一样左右摇摆,最终跌跌撞撞,距离理想成绩总差一步。最近,研究者提出了一项名为IB-Score的新指标,它像一把精准的尺子,衡量这种探索与利用的平衡度。这把尺子的灵感来自信息瓶颈理论,通过计算每一步推理的多样性(即随机性)与正确答案之间共享的信息量,量化策略是在“瞎蒙”还是“死记硬背”。

用IB-Score审视时,问题现形了:流行的在线RL方法如GRPO(Group Relative Policy Optimization),即便配合常见的正则化手段,在训练中也无法稳定保持理想平衡。它们要么过早收敛陷入局部最优,要么漫无目的地乱逛,最终成绩止步不前。为了破解这个困局,研究者们设计了一套名为IB-TPO(Information Bottleneck-driven Tree-based Policy Optimization)的框架。这套框架把IB-Score直接揉进了优化目标——不是等训练完了再回头打分,而是让它像贴身教练一样,实时指导模型该什么时候多探索、什么时候多利用。

更巧妙的是,IB-TPO还搭配了一种新颖的树状采样策略。想象一棵倒生树:树根是当前步,每个分叉代表不同的推理路径。传统算法只摘一片叶子就匆匆回头,而IB-TPO用“信息瓶颈”当指南针,引导采样器优先探索那些既有潜力又不太盲目的分支。结果同样预算下,它能多拿到50%的轨迹数量,还不浪费算力。这些树状结构还被用来做蒙特卡洛估计,更准确地计算出每个步骤的IB-Score,形成良性循环。

在一系列标准基准测试中,IB-TPO交出了亮眼答卷:比GRPO基线性能提升2.9%到3.6%,也全面超越了其他前沿在线RL方法。这不仅仅是数字的胜利——它揭示了一个更朴素的道理:在复杂智能系统中,平衡从来不是靠瞎蒙撞出来的,而是需要一套能同时看清“广度”和“深度”的度量衡。当模型终于不再纠结于“该不该多试几种解法”,而是让每一步的推理都自带平衡坐标时,真正的推理能力才会悄然生根。毕竟,真正的智慧不是走最快的路,而是走最稳的那条。

2026年5月29日

想象一下,一个语言模型试图通过自我反思变得更强。它反复生成回答,再从中挑选最好的——这就是大名鼎鼎的“最佳N选一”或“树搜索”。然而,研究者们逐渐发现这种自我改进存在两个隐秘的“死穴”。第一,验证信号过于稀疏,模型只知道最终答案对不对,却不知道错在哪一步。第二,所有候选回答都来自模型自己一步接一步地生成,这就像一个人总在熟悉的街区里打转,永远走不出习惯的路径。论文提出的BES(双向进化搜索)正是要打破这两种束缚。

BES的解法很巧妙:它让搜索不再“单向”进行,而是同时开启“前向进化”和“后向分解”两条路。在前向搜索中,BES不仅仅让模型一步步生成新答案,还引入类似生物进化的“重组”操作——把两个中途产生的部分轨迹像拼图一样拼接起来。这样的操作能产生单纯靠模型自己生成的“下一代”不可能出现的候选方案,好比把鸟的翅膀和鱼的鳍组合成一种全新生存方式。与此同时,后向搜索则将原始任务层层拆解成可验证的小目标。举个例子,如果任务是“证明一个数学定理”,后向搜索会将证明过程分解成几个需要验证的引理,每个引理的正确性都能单独检查,从而给前向搜索提供源源不断的中间反馈,而非只到最后才看到一句“对或错”。

理论分析给出了更震撼的佐证:只用扩展生成的候选,都局限于一个狭窄的“熵壳”里,而进化操作能一举跳出这个壳;后向搜索则能把找到正确回答所需的样本数量从指数级削减为多项式级。实验数据印证了这些预言。在那些主流后训练算法(例如常规强化学习微调)都失效的挑战性任务上,BES竟然还能持续提升模型表现。而在推理阶段测试的三个开放问题求解基准中,BES在平均性能和最佳性能两个维度上都全面超越了现有开源框架。

从本质上讲,BES揭示了自我改进的再一步跃迁:不是更用力地生成,而是更聪明地寻找。进化操作带来了多样性,任务分解带来了可检查性,两者结合才让搜索真正有了深度。当一个语言模型既能借助“异类”路径探索未知,又能把长期目标拆解成当下可验证的小步骤,它的自我进化就不会再是原地旋转。这或许提醒我们,限制进步的往往不是能力不足,而是对“搜索”本身的理解还不够立体。

2026年5月29日

在锂矿开采的灰色世界里,一场静默的革命正在麻省理工学院的实验室里酝酿。传统硬岩提锂的过程,如同一场高温与毒性的野蛮舞蹈——矿石被数百摄氏度的高温焙烧,浸入强酸,留下成堆的有毒污泥和令人窒息的碳排放。全球锂供应正被电动车和储能电池的狂潮裹挟,价格如过山车般震荡,而中国牢牢掌控着全球近60%的锂精炼环节,让西方电池制造商如履薄冰。

但MIT的研究人员突然宣布,他们找到了一条截然不同的路径。这个名为“氟化铵工艺”的方法,不再用酸和高温去“强攻”锂辉石,而是用一种温和的化学溶剂,悄然溶解矿石中的硅酸盐骨架。在实验室测试中,超过95%的锂被成功提取出来,同时分离出的铝和硅也纯净到可以直接投入工业生产。更令人惊叹的是,那瓶关键的氟化铵试剂完成使命后,没有被废弃,而是被一套循环系统回收再利用,实现近乎零的废物排放。整个过程在远低于传统焙烧的温度下运行,省去了那段最耗能、最碳密集的工序。

这项技术已经催生出一家名为Rock Zero的初创公司,他们甚至敢放言:这是从任何天然矿石中提取锂的最便宜的方式。想象一下,如果这个工艺能从实验室的烧杯走向万吨级的反应釜,它意味着加拿大、澳大利亚、美国的偏远矿区,可能不再需要为昂贵的能源和繁复的废料处理发愁。那些被中国冶炼厂卡住的脖子,也许能获得一道新的呼吸通道。

当然,从实验室幻梦到工业现实,中间横亘着无数工程和成本考验。但MIT的发现已经撕开一道裂缝:锂,这个驱动未来能源转型的关键元素,不一定非要以污染和集中化炼狱为代价。也许未来的电池,会从一个更洁净、更分散的起点开始奔跑。而我们注视着那列火车是否真的会准时到站——毕竟,当自然赐予我们石头,人类总在寻找从石头里挤出阳光的方法。

2026年5月29日

夜幕中的卡纳维拉尔角,一声巨响划破了佛罗里达的寂静。Blue Origin的新格伦火箭在静态点火测试中轰然爆炸,火光映红了测试台。公司原本希望通过这次“绿色运行”地面点火,为第四次飞行——搭载亚马逊“柯伊伯计划”卫星做准备——结果却变成了一场灾难性的停顿。幸运的是,Blue Origin确认无人受伤,美国联邦航空管理局也表示空域未受干扰,但新格伦火箭已被迫无限期停飞。

这并非Blue Origin第一次摔跟头。今年4月,新格伦火箭的一次发射任务就曾遭遇挫折——上面级未能将AST SpaceMobile的卫星送入预定轨道。而这次的爆炸,发生在公司试图重新证明自己的关键时刻。两起事故的叠加,让这项原本被寄予厚望的重型火箭计划陷入更深的窘境。

爆炸的影响远不止于公司内部。新格伦火箭被设计为可重复使用的重型发射工具,是少数能真正挑战SpaceX在重型轨道发射领域主导地位的角色。当它被迫停飞,美国可用的重型发射选项变得更加稀缺。NASA计划中的阿尔忒弥斯任务载荷、五角大楼的关键国防卫星,原本都对新格伦的运载能力抱有期待——现在这些任务都悬在了半空。

每一次失败,都是航天工业在风险与突破之间博弈的缩影。对于NASA和五角大楼来说,这次爆炸再次提醒所有人:当你是天平上少数几个砝码之一时,任何一个砝码的碎裂都会摇晃整个天平。空间探索从来不是一场速胜的竞赛,而是一场需要时时面对不确定性的马拉松——每一次失败,既是对耐心的考验,也是对决策者决心的一次敲打。

2026年5月29日

清晨,你从睡梦中醒来,手指上那枚精致钛合金戒指不再只是装饰。它比前代薄了整整40%,却藏着前所未有的健康智慧——从追踪血压波动趋势到直接连接真实医生,Oura第五代智能戒指正在重新定义可穿戴设备。

这款名为Ring 5的戒指从6月4日起全球发货,银色和黑色版售价399美元,金色、隐形黑、拉丝银和深玫瑰金版则要499美元。它用医疗级钛合金打造,比上一代缩小近一半体积,但健康监测能力却大幅跃升。全新的Health Radar软件新增了血压模式信号和夜间呼吸监测功能,利用生物特征数据揭示长期健康规律——比如你睡眠中呼吸平稳性的微妙变化,或是血压随情绪、活动波动的周期模式。

更引人注目的是,Oura通过Counsel Health推出了AI医疗护理功能。美国43个州的合格会员可以直接在应用程序内联系持牌医疗提供者,开启智能硬件与真实医疗服务结合的新篇章。不过,要解锁这些深度健康洞察,你需要每月支付5.99美元或每年69.99美元的会员费。

这背后是一场激烈的智能戒指争霸战。三星、RingConn和Ultrahuman正虎视眈眈,它们最大的武器是免订阅费模式。而Oura反其道而行之,秘密申请IPO估值近110亿美元,同时用专利保护和临床级功能让Ring 5难以复制。它赌的是消费者愿意为真正的健康价值付费,而不是被免费订阅的市场策略绑架。

当一枚戒指比你的手表更懂你的身体,当AI医生住在你指尖,这种便利是否值得每月一杯咖啡的价格?可穿戴设备正在从健身追踪器进化为健康搭档,而这场竞赛的赢家,或许永远是那些把用户真实健康放在第一位的公司。

2026年5月29日

Meta正式在全球推出Instagram、Facebook和WhatsApp的付费层级,统一打包在全新Meta One品牌下,将核心社交应用变成分层菜单的增值服务。Instagram Plus和Facebook Plus每月3.99美元,WhatsApp Plus每月2.99美元,提供自定义主题和深度故事分析等额外功能。针对Meta AI,公司正在测试两个付费层级:Meta One Plus每月7.99美元和Premium每月19.99美元,其中Premium提供更快的“思考模式”响应。Meta还在测试创作者和企业订阅,捆绑类似验证的保护、扩展链接和推广工具以及分析功能。公司表示Plus订阅与现有的Meta Verified项目并行而非取代。

这些动作背后是一场巨大的财务博弈——Meta的广告业务在2025年达到2010亿美元,但公司烧钱速度同样惊人,仅在2026年就承诺向AI基础设施投入高达1450亿美元。就在推出订阅的同时,Meta裁减了8000个工作岗位以抵消AI支出。付费订阅被视为多元化收入的赌注,仿佛一艘巨轮在狂风暴雨中调整航向,一边削减成本,一边开辟新的收入航线。当用户习惯了免费社交服务的丰饶,付费墙的升起将如何改变我们与这些平台的关系?或许,当算法背后的算力账单越来越沉重,那些曾经以为永远免费的东西,终将标上价格。

2026年5月29日

想象一下,一个普通程序员在2023年初,每周只能敲出3600行代码;而仅仅18个月后,这个数字变成了8600行——翻了一倍多。这听起来像是个效率神话,但Cursor最新发布的《开发者习惯报告》却揭示了一个更复杂的故事:AI正在改变编码工作,但它的馈赠并不均匀。

报告基于Cursor自身的产品和工程数据,描绘了一幅“效率分化”的画面。最引人注目的数据是:每周每名开发者新增的代码行数从3.6K跃升至8.6K,大型PR(改动超过1000行代码的合并请求)变得越来越普遍。与此同时,AI代理正在承担更多端到端的工作:工具调用量在短短两个月内增长了30%,而由AI直接生成、未经人工审查就进入代码库的变更数量,更是暴增了5倍。

但数字背后藏着另一层真相——这些效率提升并非人人享有。报告明确指出,前1%的顶级开发者产出的代码量,是普通活跃用户(中位数用户)的46倍,而且这个差距每个月都在扩大。换句话说,AI成为了一把放大镜,放大了原本就存在的生产力差距:高手借助AI如虎添翼,而多数人只是勉强跟上。

更讽刺的是,效率的提升还伴随着成本的选择。不同AI模型的每次代理请求成本相差高达9倍:最贵的Opus 4.7,与最便宜的模型相比,完成同一个工作流的花费可能天差地别。许多团队可能在不自知的情况下,为同等效能支付了高昂的溢价。

这份报告没有道德评判,但它抛出了一个务实的问题:AI的深度融入正在重塑软件开发的面貌——代码写得更多、更快,自动化程度更高,但并非所有人都能抓住这班快车。当技术红利向少数人倾斜时,团队和个人的策略选择,可能比单纯拥抱AI本身更重要。

技术的浪潮从未均匀地拍打每个人。当一部分人在浪尖上乘风破浪时,另一部分人或许该问问自己:我是在选择最适合自己的工具,还是仅仅被浪潮推着走?效率翻倍的时代,真正的门槛不再是工具,而是如何用它。

2026年5月29日

苹果的Siri终于要迎来重大更新了。据彭博社爆料,这个长期被吐槽的语音助手正在被彻底重建,基于谷歌的Gemini模型,将拥有类似ChatGPT的专属应用,并支持第三方AI代理。想象一下,未来的Siri会住在灵动岛里,你只需向下滑一下,就能进行AI搜索、聊天或者完成iOS任务——它还能调用设备本地数据、屏幕内容和网页信息。这种AI驱动的网页搜索类似Perplexity,答案会以精美卡片的形式浮现在灵动岛中。如果你继续向下滑动卡片,就会打开一个专属的ChatGPT风格Siri应用,用户还可以选择将查询路由到外部AI模型。不仅如此,改造后的Siri还会出现在相机应用中,高级AI照片编辑、壁纸生成和自然语言创建快捷方式等功能也在路上。

苹果在AI竞赛中确实掉队了,2024年承诺的功能至今未兑现,而OpenAI和Google已经遥遥领先。如果这次大翻新能成功落地,苹果超过10亿的iPhone用户将能在他们日常使用的手机上体验到AI。但如果再次跳票,即将上任的新CEO John Ternus将面临巨大压力。

这不仅是技术升级,更是苹果在AI时代的一次关键翻身仗。成败与否,将决定未来几年用户体验的方向。

2026年5月29日

科学研究是一场永不停息的迭代循环:提出假设、设计实验、执行、修正。过去,AI代理能够自动化部分流程,但它们通常沿着单一轨迹前进,或依赖一个固定目标的中央规划者。结果,当实验证据变化时,它们难以维持并行探索,也无法在漫长实验中保留那些失败方向的教训。现在,一支由AI代理组成的“分散式团队”——AutoScientists——正试图打破这一僵局。

想象一下,一群科学家同时协作:他们解读共享的实验状态,围绕最有希望的假设自动形成小组,在动用昂贵的计算资源之前互相批评提案,并公开分享成功和失败以避免重复试错。这正是AutoScientists的核心设计。没有单一的领导者,每个代理都能感知全局,自主决策。这种自组织机制让团队在相同的实验预算下,持续超越之前的AI代理。

在生物医学机器学习基准测试BioML-Bench上,AutoScientists横跨生物医学成像、蛋白质工程、单细胞组学和药物发现等24项任务,取得了平均74.4%的排行榜百分位,比最强AI代理提高了8.33个百分点。更令人震撼的是在GPT训练优化实验中——面对一个已经优化的起始模型,传统单代理方法再也找不到任何有效的改进,而AutoScientists团队却一口气发现了7项被接受的优化,将达到目标验证bits-per-byte的速度提升了1.9倍。这意味着在同样的时间内,它能完成几乎两倍的进步。

蛋白质适应性预测领域同样见证了改变。当AutoScientists针对ACE2与Spike蛋白的结合设计新方法时,它在Spearman相关性上比当前最先进模型高出12.5%。更具说服力的是,这套方法未经任何修改,直接应用于ProteinGym全部217种分析试验,依然将现有最佳成绩提升了6.5%的Spearman相关性。

这些数字背后是一个朴素的洞见:科学的进步不仅来自聪明的想法,更来自如何组织探索群体。分散化、自组织、信息共享——这些原本属于人类科研团队的优点,如今被赋予了AI。当每一个代理都能从同伴的失败中学习,整个团队就不会在同一个陷阱中反复跌倒。

也许未来的实验室中,AI代理们会像人类研究员一样围坐在虚拟白板前争论假设,然后默默退回各自的计算集群,去验证下一个不确定性。唯一不同的是,它们永远不会疲倦,也永远不会忘记那些被否决的想法。而正是这些被小心保存的“死胡同”,最终照亮了通向突破的道路。

2026年5月29日

假设你眼前有一台机械臂、一台轮式机器人、一架无人机,它们原本各自为政,每个都需单独训练才能完成捡拾、导航或飞行任务。但现在,一个统一的“大脑”出现了——它来自阿里巴巴Qwen团队的Qwen-VLA模型,它试图让所有机器人说同一种语言,做同一套决策。

过去,具身智能研究如同拼图碎片:针对操作、导航等每个任务都需专属模型,导致能力割裂,跨任务、跨环境、甚至换一台机器人就失效。Qwen-VLA的核心野心正是打破这种碎片化——它将视觉、语言和行动统一进一个单一的视觉-语言-动作模型中。这个模型并不止步于感知和理解,而是通过一个基于扩散Transformer(DiT)的动作解码器,直接输出连续的动作和轨迹,实现了从“看”到“做”的闭环。

它凭什么能“一统江湖”?关键在于三方面设计。首先是大规模联合预训练:训练数据包罗万象——机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉语言导航数据、轨迹中心监督数据,以及辅助的视觉语言数据。模型在这些异构数据上同时学习,从而吸收不同任务中通用的空间推理和动作映射能力。其次是具身感知提示(embodiment-aware prompt conditioning):当面对不同机器人,只需输入一段文本描述,比如“这是一个六自由度机械臂,末端执行器为平行夹爪”,模型就能自动适配其运动学和控制方式。最后,它将操作、导航和轨迹预测统一成一个动作-轨迹预测框架,让模型在不同机器人形态、不同任务家族、不同环境中都能进行可迁移的视觉定位和连续动作生成。

实验结果给出了有力证明。在LIBERO基准测试中达到97.9%的成功率;在Simpler-WidowX上达到73.7%;RoboTwin的Easy和Hard任务分别达到86.1%和87.2%。导航领域,R2R任务的目标导向成功率(OSR)为69.0%,RxR的严格成功率(SR)为59.6%。真实世界的ALOHA机器人操作实验中,平均分布外(OOD)成功率达到76.9%。即便在动态操控任务DOMINO中,零样本成功率也达到26.6%——这证明它甚至能应对从未见过的场景,比如光景变化、物体布局调整、甚至机器人本体替换。

不过,统一之路并非坦途。26.6%的零样本动态操控成绩表明,面对高度动态和未见过的物理交互,模型仍有巨大提升空间。但整体上,Qwen-VLA首次展示了:一个模型同时学习操作、导航、轨迹预测,并跨机器人形态泛化,这不再是梦想。

单一模型是否真能终结具身智能的“巴别塔”?Qwen-VLA告诉我们,也许不需要为每个机器人和任务单独建造一座塔。当视觉、语言和行动在水晶般的框架中交融,机器人或许终将理解同一个世界,并以统一的方式去行动。而这,才刚刚开始。

2026年5月29日

想象一下,一个智能体在虚拟世界中试图学习最优决策,它面前有两种工具:一个能够预测未来的“世界模型”,和一个用来评估行动好坏的“价值函数”。传统方法试图让它们协同工作,但长期以来,人们只知道模型会犯错——预测越久,误差越大。然而,一个更隐蔽的陷阱藏在深处:搜索过程和价值学习之间存在着“结构性错位”。就像用一把错误的尺子去丈量地图上的距离,智能体用不相关的策略所定义的价值函数来指导行动,导致训练目标与真实目标渐行渐远,最终学到的策略总是差强人意。

这个瓶颈被一组研究者敏锐地捕捉到。他们指出,在现有世界模型方法中,策略改进往往依赖由另一个非搜索策略诱导出的价值函数,这种不一致性使得优化过程充满矛盾,好比让一个只读过地图的人去解释航海日志。为了打破这一困局,他们提出了“基于模型的世界模型扩散策略优化”(MBDPO),一种全新的框架。核心思路不再是构建一个明确的规划器来模拟世界模型,而是将策略优化重新构思为一场在潜世界模型中的“搜索轨迹扩散过程”。想象在数据集中隐含着一片能量场,MBDPO从这片场中提取出“能量函数”,用它来锚定策略,再通过不断精炼得分场,一步步引导智能体走向更优的决策路径,同时巧妙避开了错位问题。

MBDPO的能力在多个场景中得到验证:多任务离线预训练、在线学习、以及从离线到在线的微调。在离线学习中,研究者进一步探索了其扩展性:当在大规模数据集上预训练时,随着模型容量增加,性能呈现出持续且单调的提升趋势——这就像给大脑添加更多神经元,每一次增加都带来实实在在的进步。

这个故事告诉我们,有时候解决问题的关键并非在于修补显而易见的漏洞,而是发现那些被忽略的“隐形裂缝”。当搜索与价值学习不再各行其是,智能体的学习之路才真正走向统一。或许,真正的突破往往藏在那些看似不相关、却被我们视而不见的连接之中。

2026年5月28日

想象你正在玩一个多人游戏,四个角色在同一个虚拟空间里奔跑、互动,而你希望AI能实时预测下一秒的场景——这不仅仅是渲染静态画面,而是生成一个动态的、可交互的未来。传统的世界模型像单机游戏,只能预测单一控制信号下的未来,但现实世界充满多人协同:多个机器人同时操作,多个玩家同场竞技。如何让AI理解这种复杂的多智能体互动,并高效生成一致、可控的视频?一项新研究给出了巧妙的答案。

科学家们从数学中找到了灵感:在三维旋转空间中,他们设计了一种名为“单纯形旋转智能体编码”的机制。原理听起来复杂,但想象一个正四面体——四个顶点代表四个智能体,每个顶点在空间中拥有独特的相位,但彼此完全对称、互换等价。这意味着AI不再需要为每个智能体分配固定编号或学习特定身份,而是通过这种旋转编码自然区分它们。更妙的是,这不需要额外参数,直接扩展了现有的3D旋转位置编码(RoPE),让智能体像星座中的星星一样各居其位,却无需人工排序。

但多智能体建模的另一个挑战是计算量。如果每个智能体都要与其他所有智能体的所有特征进行“全对全”的注意力计算,复杂度会随智能体数量二次增长,在实时应用中难以承受。为此,研究者提出了“稀疏中心注意力”机制:想象一个交响乐团,每个乐手不需要直接关注其他所有乐手,而是聚焦于中央指挥家——一组可学习的“枢纽标记”(hub tokens)。这些枢纽标记像信息集线器,智能体首先与它们交互,然后由枢纽标记传递信息,从而将跨智能体的计算复杂度从二次降至线性。这使得模型能高效支持多个智能体,而不会陷入计算灾难。

为了真正实现实时交互生成,研究者采用了知识蒸馏技术:先训练一个全上下文注意力机制的“教师”模型,它拥有最高的生成质量,但速度慢;然后将其能力蒸馏到一个“学生”模型中,学生采用因果注意力,可以像播放视频流一样逐块生成未来帧,并通过键值缓存(KV caching)避免重复计算。最终,在多人虚拟环境中,这个模型能以每秒24帧的速度实时响应动作,生成高保真视频。

实验对比显示,与传统的基于固定槽位(slot-based)或密集注意力的基线模型相比,新方法在视频保真度、动作可控性和智能体间一致性上均有显著提升。更令人惊讶的是,它训练时仅使用两玩家的数据,却能直接泛化到四玩家场景,无需额外训练。

这项工作的核心价值在于:它为多智能体交互视频生成提供了一个即插即用的框架,不需要为每个智能体分配专用参数,计算成本随智能体数量线性增长,且天然支持置换不变性——无论玩家如何排序,模型都能一视同仁。这就像为虚拟世界配备了一个智能导演,它能在时间轴和多个视角间保持自洽,同时实时响应每个玩家的操作。

当我们畅想未来,从自动驾驶中的多车协同到元宇宙中的多人沉浸体验,这种高效、可扩展的多智能体世界模型或许将成为基础设施。它提醒我们:真正的智能不应孤立地预测一个角色的未来,而应理解群体共舞的韵律。智能体之间最优雅的交互,往往藏在简单几何变换的数学美感之中。

2026年5月28日

物理系统的模拟,尤其是复杂时空动态的预测,长期以来面临着一个核心矛盾:想要高精度,就得付出高昂的计算成本;想要快速,精度又会大打折扣。现有的生成模型虽然强大,却难以突破这个速度与精度的天堑。如今,一项名为“递归流匹配”(Recursive Flow Matching,简称RecFM)的新方法,或许正在改写规则。

这项研究的核心在于一个巧妙的概念:自一致性。RecFM不是简单地生成一个预测,而是在不同离散化尺度之间来回“校验”,确保生成的轨迹能够自我对齐。这种强制约束有效减少了离散化误差——这是传统方法失真的主要源头之一。更令人惊叹的是,RecFM是第一个能够在仅一步或少数几步(2-4步)内,就生成高保真动态结果的生成式框架。在以往,要达到同等精度,通常需要数十甚至上百步的迭代求解。

在多个极具挑战性的科学基准测试中,RecFM展现了锋芒。与当前最先进的扩散模拟器相比,RecFM实现了高达20倍的加速,同时预测精度反而有所提升。不仅如此,与基础的流匹配(Flow Matching)方法相比,RecFM将均方误差降低了超过15%。这意味着,科学家们可以在实时或近实时的场景中,获得以往需要超级计算机才能提供的物理精度。

这项突破的意义超越了单纯的数字提升。它意味着,未来在气候模拟、流体力学、材料科学等领域,我们或许能够以前所未有的速度进行高保真推理。当计算速度不再成为瓶颈,探索复杂系统的可能性将被无限放大。真正值得思考的是:当模拟可以又快又准,我们准备好在第一时间做出什么决策了吗?

2026年5月28日

在人工智能的视觉语言理解领域,长久以来存在一条明显的“鸿沟”——大多数模型像拼积木一样,把图像编码器和语言解码器分别训练,再通过多阶段对齐勉强黏合。这种模块化框架虽能工作,却让像素级信号在不同帧之间被切碎,早期让图像和文字的直接互动变得迟缓而零散。而另一边,完全原生的视觉语言模型尽管在单张图像上表现惊艳,一旦面对多张图、视频甚至需要空间推理的任务,就暴露出从未被充分探索的空白。

正是在这样的背景下,一支研究团队推出了NEO-ov——一个彻底打破模块边界的原生基础模型。它不再依赖任何外部编码器、辅助适配器或事后融合技巧,而是从零开始端到端学习跨帧像素与文字之间的对应关系。这就像从一个只能通过拼凑碎片看世界的系统,进化到能直接绘制一幅完整动态画卷的思维。

通过消除所有模块间的隔阂,NEO-ov让细粒度且统一的时空建模能力在模型内部自然地涌现。研究结果令人瞩目:它不仅在性能上大幅缩小了与模块化“拼图”模型的差距,更在细粒度视觉感知任务上展现出明显优势,证明“一个视觉”的原生架构不仅可行,而且在大规模应用中具备真正的竞争力。

除了实证成绩,研究团队还公开了系统性的架构分析和详细的训练配方,为后续原生多模态建模提供了一条可复现的道路。代码和模型也已向社区开放。

这不仅是技术路径的革新,更可能是视觉语言融合范式的转折点——当模型学会像人类一样直接处理完整流动的视觉信号,而非破碎的片段,通往真正多模态智能的道路或许就此被重新定义。

2026年5月28日

想象一下,你正在使用一个AI助手处理客户邮件,它不小心回复错了信息。你立即纠正,点击“撤回”,并重新输入正确内容。在传统模式下,这个AI下次还会犯同样的错误,因为它从训练完成后就“冻结”了。但现在,Trajectory这家刚刚用1500万美元种子资金启动的创业公司,正试图改变这一切。它的创始人来自DeepMind、OpenAI、苹果、Meta超级智能实验室和Scale AI,背后站着Conviction和Bessemer两家风投。他们的目标很简单:让AI像人类一样,从每一次失败和修正中学习,变得越来越聪明。

Trajectory的核心机制并不复杂:它从产品数据中捕获用户每一次的修正、重试和编辑,然后用这些真实世界的反馈持续对模型进行后训练。这意味着模型不再是静态的,而是在每次与用户的交互中自动进化。比如,当用户纠正了一个法律文件摘要中的错误,模型就会记住这个修正模式,下一次面对类似内容时,它就能直接给出正确结果。早期客户包括Clay、Harvey、Decagon和Rogo,这些公司已经在使用Trajectory的后训练模型,并声称在一些关键窄任务上,这些模型的表现超过了前沿AI。

目前的更新频率是每周一次,但Trajectory的团队正在向更激进的节奏推进——他们希望实现每小时更新,甚至做到每次交互后都立即更新。这就像给AI装上了一套实时“纠错系统”,让它从过去只能依赖静态训练数据,变成从每一个真实使用场景中汲取经验。在商业世界里,模型从失败和修复中持续学习,结合原始输出与用户反馈,这几乎被视为企业级AI的圣杯。如果Trajectory真的能攻克这个难题,公司将很快拥有质量会随着每一次用户反馈而指数级提升的AI工具。

不过,持续学习也意味着更多的数据隐私、模型稳定性和成本控制挑战。当模型每小时都在变化,如何确保核心能力不偏离?如何处理用户反馈中的噪声和恶意输入?这些都不是小问题。但无论如何,Trajectory的方向已经让很多技术观察者兴奋——它不再试图造一个无所不能的静态大脑,而是让AI学会“成长”。

也许未来最强大的AI不会是最初训练时最聪明的那个,而是那个最会从每次失误中爬起来、马上变更好的那个。这听起来就像我们人类的成长故事,只不过现在,轮到机器来复刻这个过程了。

2026年5月28日

那是2025年初的一个阴天,旧金山一家科技公司的行政助理琳达盯着屏幕上弹出的裁员通知,手指微微发抖。公司引入了一款AI办公助手,能自动处理日程、报销和会议纪要,原本十人的行政团队只剩下三个人。她不是个例——从客服中心到律师事务所,从插画师到代码质检员,无数人开始恐惧新技术带来的失业浪潮。

就在这时,一则消息悄然震动科技圈:OpenAI基金会宣布,将投入2.5亿美元启动一项“经济韧性计划”。这笔初始资金并非来自ChatGPT母公司的主营业务,而是由拥有OpenAI营利实体26%股份的非营利部门拨出。它并非用于开发更强的模型,而是精准投向三个方向:理解AI的经济影响、帮助工人应对短期冲击、构建长期经济安全网。

在理解经济影响方面,基金会计划打造一套追踪系统,不仅看人们“赚了多少钱”,更要看“实际能做什么、能获得什么”。比如一个卡车司机,在自动驾驶普及后能否转型为物流调度员?一个插画师能否借助AI工具提高产量而非被替代?基金会希望用数据揭示价值流向的真相。

针对短期内被迫转行的工人,资金将用于培训与过渡支持。重点不是教他们学编程——那可能过时得更快——而是帮助他们在工作中获得对AI的“话语权”,让工作本身依然保有意义、目的和满足感。比如引入“AI助理”而不是“AI代替者”的协作模式,让工人学会调教工具,而非被工具淘汰。

长期来看,基金会探讨更为激进的制度设计:将税收从劳动收入转向资本收益,建立类似阿拉斯加永久基金那样的“主权财富基金”,甚至考虑让每个普通人都能通过某些机制,从AI创造的价值中获得一份“持久分红”。这些构想看似理想主义,却呼应了诺贝尔经济学奖得主们的警告——如果不主动调节,AI将加剧财富分裂,让少数人攫取所有红利。

但时间紧迫。OpenAI表示首批具体项目将在今年晚些时候公布,可裁员潮已席卷金融、媒体、制造等多个行业。硅谷的一些评论者直指:基金会手握2.5亿美元,可OpenAI营利部门估值已超800亿美元;这区区0.3%的资源,更像是为研发进度铺路的公关面膜。而另一些人则认为,至少有人开始认真思考——在奔向超级智能的赛道上,不能让普通人被抛进沟渠。

当琳达看到这则新闻时,她翻出尘封的在线教育账号,犹豫是否该报名一门“AI提示工程”课程。窗外的细雨里,这座科技城依旧繁忙,只是路边咖啡店的闲聊话题,渐渐从“如何用AI赚钱”变成了“如何不被AI取代”。也许这2.5亿美元无法瞬间解决所有问题,但它像一颗投入湖面的石子——涟漪是否变成浪涛,取决于接下来有多少人愿意投入这场关于“人”的竞速。

2026年5月28日

深夜的实验室里,一位研究人员盯着电脑屏幕,眉头紧锁。她正在设计一种能精准结合癌细胞表面的蛋白质,传统方法需要数月甚至数年,而眼前的靶点又格外棘手。就在她准备放弃时,一封邮件带来了转机——Biohub刚开源了一套名为Evolutionary Scale Models的引擎,能像魔法一样映射、预测甚至设计蛋白质。她试着上传需求,几天后,候选分子列表出现在眼前,命中率高达88%。这不是科幻,这是刚刚发生的事。

这套引擎的核心是ESMFold2,一个基于蛋白质语言模型ESMC的预测工具。它被训练在惊人的28亿个序列上,相当于把地球上几乎所有已知蛋白质的“语言”都学了一遍。ESMFold2不仅能预测蛋白质折叠后的三维结构,还能反过来设计全新的蛋白质。在结构预测竞赛中,它直接宣称超越了AlphaFold,尤其是在蛋白质与蛋白质之间的相互作用,以及抗体与抗原的结合预测上,表现更加精准。

更令人振奋的是,它已经走出了模拟世界。在实验室的真实测试中,ESMFold2被用来设计针对五种癌症和免疫靶点的结合蛋白,命中率从36%到88%不等。这意味着,对于某些靶点,几乎每三个候选分子中就有一个能成功结合,远超传统方法。

而它的最后一环——ESM Atlas,则是一张巨大的地图,包含了68亿个蛋白质序列和11亿个预测结构。在这张图上,科学家们可以像探索未知大陆一样,发现从未被注意到的进化联系,找到那些隐藏在生命历史深处的蛋白质家族。

这背后是扎克伯格和普莉希拉·陈夫妇的5亿美元虚拟生物学计划。他们不仅投入巨额资金,还把整套工具完全开源,交给全世界的研究者。无论是顶尖药企还是简陋的大学实验室,每个人都能用这套“基础设施”来加速药物发现。结合Isomorphic Labs的同步推进,我们正一步步接近那个曾被哈萨比斯描绘的愿景:用AI终结一切疾病。

这不仅是技术的胜利,更是开放与共享精神的胜利。当蛋白质设计的门槛被打破,每一个有想法的科学家都能成为“分子建筑师”,人类的健康版图将被重新绘制。或许在不远的将来,那些曾经无药可救的癌症、免疫疾病,都会在这套引擎的推动下,找到属于自己的解药。

2026年5月28日

在人工智能的世界里,空间基础模型被誉为“视觉通才”——它们能理解三维场景、感知物体位置、甚至为机器人导航。然而,这些模型真的能在任何场景、任何视角、任何密度下都表现卓越吗?答案并不乐观。长期以来,研究人员仅用专属数据集测试这些模型,比如在某个室内场景的固定视角下评估深度估计,或在特定车载相机拍摄的街景中测试目标检测。这种“温室测试”掩盖了模型面对野外复杂环境的真实能力:当视角突然从俯视变成仰视,当场景从办公室切换到工厂,当输入点云变得稀疏,它们还能稳定工作吗?

为了揭开这层迷雾,一研究团队构建了SpatialBench——一个跨范式、跨领域的空间基础模型基准。它不像传统测试那样随意选取数据片段,而是采用了严格的确定性采样策略。SpatialBench整合了19个公开数据集,包含546个不同场景,横跨5大空间领域:室内、室外、街景、航拍和工业环境。评估阵容堪称豪华:41个最新模型,覆盖6种主流范式(如基于Transformer、基于CNN、基于图网络等),在5类空间任务(深度估计、法线预测、物体检测、场景分割和点云配准)上接受检验,并且每种任务都设定了4种不同的输入密度(从密集采样到极度稀疏)。

结果令人警醒:目前没有任何模型能在所有任务、所有领域、所有密度下保持领先。换言之,它们都还不是真正的“全能玩家”。但SpatialBench同时揭示了两个至关重要的规律。第一,在注意力机制的选择上,全上下文注意力(即模型一次性看到所有输入)在精度上占据绝对优势,但计算成本极高;而一种带有边界约束的记忆机制(Bounded-Memory)虽然精度稍逊,却能在处理超长序列(如大尺度点云)时实现线性扩展,这对需要实时响应的应用(如自动驾驶)意义重大。第二,在最具挑战性的具身和第一人称任务(如机器人抓取、头戴设备感知)中,严格的领域对齐(即训练数据与测试场景来自同一类环境)和高质量的数据标注,远比赛造更大规模但噪音更多的数据集更为关键。简单扩大数据量并不能自动提升性能——你更需要精确的标注,而非海量的粗糙信息。

这个发现令研究团队深受震动。为了填补分析中暴露的最大数据缺口(即高质量、多视角、多密度的领域对齐数据),他们进一步发布了新的大规模数据集DA-Next-5M——包含500万多个带精细标注的样本,以及代号为DA-Next的基线模型。它采用了全上下文注意力结合领域对齐训练策略,在多个基准上刷新了纪录。

当我们将视野从实验室移向真实的工厂车间、混乱的起居室或暴雨中的街道,这段探索提醒我们:泛化不是天赋,而是数据与设计的共谋。盲目追逐模型规模和数据量,不如审慎审视每一个细节的匹配。空间智能的下一块拼图,或许就在于何时停止追求“更多”,转而追求“更准”。

2026年5月28日

想象一下,当你教一个AI助手学会用某个工具后,下次它遇到类似任务时不仅记得怎么用,还会根据之前的经验自动改进,甚至能带着这项技能去帮助其他AI——这不再是科幻电影的情节。MUSE-Autoskill Agent,一个名为“记忆使用技能进化”的智能体框架,正在让这种“活着的技能”成为现实。

在AI领域,大型语言模型的智能体一直依赖可复用的技能来处理复杂任务。但过去的方法有个致命缺陷:技能被当作孤立的、静态的“工具”——写完就扔,用一次就忘。比如,一个学会写邮件的AI,如果遇到需要查资料并写邮件的新任务,它不会主动把之前学到的邮件模板和新学的搜索技巧结合起来,更不会在下一次写邮件时自动优化格式。这种碎片化的技能管理,让AI的成长陷入瓶颈。

MUSE框架的突破在于,它把技能当作一个有“生命”的对象,设计了完整的管理生命周期:创建、记忆、管理、评估、精炼。当AI需要新技能时,框架会按需生成;执行任务时,技能会被记录并复用;面对多个技能时,系统能高效组织与选择;每完成一次任务,技能都会通过单元测试和运行反馈来评估,甚至自动调整优化。更特别的是,框架为每个技能引入了“技能级记忆”——就像人类积累经验一样,每次使用某技能时,相关数据都会被保留下来,跨任务地持续改进。

为了验证这套理念,研究团队在SkillsBench上进行了实验。初步结果显示,经过生命周期管理的技能,显著提升了任务成功率、执行效率、复用率,甚至实现了跨智能体的技能转移。这意味着,一个AI学会的技能,可以像知识一样被其他AI共享和继承。

总结来说,MUSE框架最重要的启示是:AI技能的真正潜力不在于一次性的“创造”,而在于持续进化的“生命力”。当每个技能都能积累经验、自我测试、跨任务成长,智能体的能力就不再是堆砌的碎片,而是一棵不断生长的大树。这提醒我们,在构建更聪明的人工智能时,或许该换个思路——不再追求更庞大的模型,而是为模型中的每个“技能细胞”注入学习与适应能力。毕竟,会进化的工具,才是真正的智慧工具。

2026年5月27日

想象一下,你正在训练一个AI助手,让它学会用眼睛看世界。它需要精准地找到图片中的物体,并标出它们的位置。过去,科学家们习惯用“填字母”的方式:先把一个矩形框拆成四个数字,再把这些数字变成一串文字,让AI一个字一个字地读出来。问题是,这个矩形框里四个数字是紧密相连的,就像一把椅子的四条腿,必须同时出现才算完整。可AI却要读完第一个字才想起第二个字,读完第二个字才想起第三个,整个过程既慢又容易出错,因为一旦读错一个字,整个框就歪了。

现在,一项名为LocateAnything的研究彻底改变了这个游戏规则。他们发明了一种叫做“并行框解码”(Parallel Box Decoding, PBD)的新方法。它不再把框拆成一个个孤立的数字,而是把整个框当作一个整体,在一次操作中直接吐出它的全部坐标。就像一眼就认出椅子,而不是数完腿再数坐垫。这听起来简单,但背后是完整的框架革新:LocateAnything框架同时支持视觉定位和物体检测,统一了这两种任务,并且让AI能够并行地生成所有定位信息。

这种并行解码带来的好处是双重的。首先是速度。传统方法需要逐字生成,像火车只能一节一节地跑。而PBD就像同时发射多枚火箭,解码吞吐量显著提升。其次是精度。因为框内四个坐标是同时得到的,几何结构保持了内部的连贯性,不会出现坐标之间的“错位”。实验表明,在多个公开数据集上,LocateAnything不仅解码更快,而且在高重叠度(高IoU)的定位质量上也更胜一筹。

但LocateAnything的成功不止于此。研究团队还打造了一个庞大的数据引擎,构建了名为LocateAnything-Data的数据集,包含超过1.38亿个训练样本。这是同类数据集中规模极大的一个,覆盖了丰富多样的场景和物体,确保AI见过足够多的情况,从而在实际应用中达到高精度。有了海量数据的支撑,并行框解码的潜力被充分释放。

最终,LocateAnything在速度与精度的前沿线上树立了新的标杆。它告诉我们:当模型的内部结构不再自相矛盾,当数据不再是稀缺资源,视觉AI就有了真正的“目光如炬”。有时候,通往高效的捷径并非更复杂的思考,而是更协调的同步。就像一支团队,如果每个人都能同时发力,而不是依次等待,那么完成的将不仅仅是任务,而是突破本身。

2026年5月27日

想象一个场景:你正在观看一段密集的体操比赛视频,运动员在短短几秒内完成一连串高难度翻腾动作,每一个细节都可能决定胜负。你能准确指出双脚落地的那个瞬间吗?对大多数人来说,这需要反复回放;但对新型AI模型LLaVA-OneVision-2(简称LLaVA-OV-2)而言,这不过是它的日常操作。

这个模型来自LLaVA-OneVision系列的最新迭代,被开发者称为“迄今为止最强大的视觉语言模型”。它并非简单的升级,而是带着一套革命性的技术架构登场——核心秘密叫做“码流令牌化”。以往处理视频时,AI会把视频切成固定时长的片段,再抽取若干帧来分析。这种粗暴的方式就像把一部长电影每隔10分钟截图一张,往往错过高潮。LLaVA-OV-2则另辟蹊径:它把压缩后的视频看作一串连续的比特流,每个比特的“成本”会实时波动。动态变化中,模型自动识别事件密集的段落,将有限的视觉令牌集中投放到真正承载起承转合的内容上。更妙的是,它还借鉴了运动残差线索——就像一位侦探通过两个连续画面的细微差异锁定关键帧——从中筛选出最具代表性的视觉精华,拼成紧凑的“视觉画布”。最终,一个共享的3D旋转位置编码将这些画布、采样帧和静态图像全部安置在统一的时空坐标系中,让模型既能理解全局场景,也能精准定位局部细节。

支撑这套复杂机制的,是海量数据的“喂养”。预训练阶段,LLaVA-OV-2吞下了大约800万个重新配文的视频样本;随后又用400万个空间标注样本进行精调。如此规模的训练,让它在多项跨模态基准测试中碾压对手。在团队专门为此设计的“JumpScore”测试中——这是一个聚焦高频、密集重复运动的时间定位基准,填补了现有评估的空白——LLaVA-OneVision-2-8B版本达到了74.9的平均精度,直接把同类模型Qwen3-VL-8B的30.1分踩在脚下,领先44.8分。即使在同一视觉令牌预算下,码流输入相比传统帧采样,在时间定位上又提升了9.7分。

更惊人的是,这种优势并非偏科。标准视频任务上,LLaVA-OneVision-2-8B比Qwen3-VL-8B平均高出4.3分;空间理解任务高出5.3分;跟踪任务上更是平均高出15.6分。它就像一位全能选手,既能理解视频的整体叙事,又能精准定位时间节点,还能看透空间布局,甚至推理操作动作的轨迹。

人类的感知从来不是均匀的——我们盯着飞驰的足球时,视线会不自觉地追随着球员的身体姿态和足球的轨迹,而不是平均扫描整个球场。LLaVA-OV-2用码流动态分组实现了同样的“注意力节奏”,这或许正是它能够从海量噪点中抓住关键瞬间的秘密。未来,当机器能像人一样自动聚焦最有价值的每一帧,视频理解将不再只是冰冷的计算,而是一场真正的“视觉共情”。技术迭代的尽头,或许正是我们生而为人的直觉本身。

2026年5月27日

想象这样一个世界:你只能看到扭曲的、混乱的表象,而真正的因果结构却藏在这些非线性观测背后。一群研究者试图破解这个谜题——他们发明了一个叫做LeJEPA的模型,它通过“对齐”和“高斯正则化”这两个简单规则,竟然能从看似无序的观测中,精准地还原出世界的潜在变量。更令人惊讶的是,他们发现这种神奇的能力,只有在潜在变量遵循高斯分布时才能被数学保证。

故事要从一个数学定理讲起。这个定理证明,在那些潜在状态会随时间缓慢变化、且受到平稳加性噪声干扰的世界里,LeJEPA能实现“线性可识别性”——即通过一个线性变换,就能从非线性观测中恢复出所有隐藏的因果维度。这不是一个巧合的偶然现象,而是一个精确的数学结构。研究者通过一种巧妙的谱分解方法,展示了每一个非线性扭曲都会在对齐损失函数中受到严格惩罚,最终迫使模型选择最简单直接的线性映射。

但故事最精彩的部分在于“唯一性”。他们证明,在所有可能的潜在分布中,只有高斯分布能提供这种严格保证。如果潜在变量服从其他任何非高斯分布,这个完美的线性恢复承诺就会崩塌。仿佛自然选择了一个最特别的概率分布,作为世界模型的隐藏基石。

当然,现实世界从不完美。理论也考虑了近似情况——当数据不完美时,这种识别保证会优雅地退化,而非突然崩溃。他们进一步证明,这种线性、正交的可识别性,使得在潜在空间中进行最优路径规划成为可能,这对机器人控制、决策系统等应用至关重要。

从简单的二维玩具数据,到高达1024维的复杂潜在空间,再到基于像素的机器人操控实验,所有验证都支持了这条理论。这个曾经只是经验成功的模型,如今获得了坚实的数学基础——它告诉我们,构建能真正理解世界结构的人工智能,或许只需抓住一个关键:在混乱的表象之下,用高斯分布这把钥匙,撬开隐藏的因果之门。

世界的复杂性或许永无止境,但解开它的线索,有时就藏在最简单的数学之中。

2026年5月27日

想象一个模型,能同时理解视频里的动作、音频中的旋律、图像的色彩和文字的含义,并将它们编织进同一张无形的意义之网。这就是Gemini Embedding 2——一个原生多模态嵌入模型,它打破了数据类型的壁垒,将视频、音频、图像和文本统一嵌入到同一个表示空间。更令人惊叹的是,它还能处理这些模态的任意组合,比如一段带有配乐的视频片段配上文字描述,它都能生成一个整体嵌入,理解其中的综合信息。

要做到这一点并不容易。研究人员借用了Gemini系列模型强大的多模态能力,并进行了大规模对比学习,在一个多任务、多阶段的训练流程中,让模型学会区分哪些内容应该相似、哪些应该不同。最终,这个模型在多个关键基准测试中击败了专门为单一任务训练的专家模型:在图像-文本检索任务MSCOCO上,它取得62.9的R@1(前1名召回率);在视频描述检索Vatex上,NDCG@10达到68.8;在多语言文本检索MTEB Multilingual上得分69.9;在代码检索MTEB Code上更是高达84.0。这些数字意味着,无论是跨语言搜索、找图、找视频还是找代码,它都做到了顶尖。

更令人兴奋的是,这样的能力并非只能用在标准数据集上。它拥有强大的零样本迁移能力——不用额外训练,就能在天文学、生物科学、美术和烹饪艺术等截然不同的专业领域表现稳定。比如,一名天文学家可以直接用它搜索带有特定星云特征的图像与论文组合,而无需为天文数据专门训练模型。这种“开箱即用”的可靠性,让它成为检索增强生成(RAG)、推荐系统和搜索引擎的理想基础模型。

从统一感知到跨域泛化,Gemini Embedding 2展示了多模态嵌入模型正从“单科状元”走向“全能通才”。当不同领域的数据可以在同一个语义空间中对话,信息的壁垒正在消融。或许不久后,我们检索知识的方式将不再局限于键盘敲出的文字,而是一个视频、一段音乐或一幅画——而模型会用同样丰富的语言回答你。

2026年5月27日

想象一下,你投出十份精心准备的简历,却全部石沉大海。这不是运气不好,而可能是一套共享的AI系统在悄悄切断你的所有出路。斯坦福大学的一项最新研究,跨越156家雇主、追踪400万份求职申请,揭开了AI招聘工具背后令人不安的真相:黑人和亚裔求职者被不成比例地筛除,而共享模型更让这种偏见雪上加霜。

研究人员分析了Pymetrics平台按职位划分的数据,发现10.62%的职位对黑人求职者表现出“不利影响”,5.32%的职位对亚裔求职者也是如此。更关键的是,42个AI模型被不同雇主共享使用——这意味着,如果一家公司因为你的种族特征拒绝了你,另一家使用相同模型的公司也可能给出同样的判决,即使他们本意并非如此。数据显示,4%的申请者(投了10个职位)被所有雇主拒绝,这个比例远高于雇主们独立决策时的预期。

研究覆盖了2018年至2022年的数据,虽然今天的AI招聘工具越来越多地依赖大语言模型,工作机制有所不同,但研究人员提醒,偏见可能通过共享基础设施以未知的方式渗透。如果一家主要供应商的AI存在偏见,不止是招聘,在其他领域也会连累多家公司——而它们可能毫不知情。

当我们依赖算法筛选人才时,公平性不再是单家公司的责任,而是整个技术生态的课题。一个看不见的模型,可能正在无声无息地重塑机会的分配。记住,每一次“不匹配”的判定背后,都站着一个真实的、可能永远没有机会解释自己的人。

2026年5月27日

在硅谷的一个科技论坛上,英伟达CEO黄仁勋对着镜头说了一句话,让在场的家长和学生们都愣住了。他说,别再琢磨孩子该选什么专业才能不被AI替代了,真正该问的是:AI如何能帮我学得更好、做得更好?

这场对话的背景,是今年全球已有超过8万个工作岗位因AI被裁撤。CEO们正忙着用AI替代人力,而黄仁勋却劝大家别慌。他拿记者举例:最顶尖的记者不只是准备问题,更要会倾听、会思考受众的反应、会临场应变。这些能力,AI学不来。

黄仁勋还引用了日本美学中的“侘寂”——不完美之美。他说,当机器越来越完美,人类独有的那种瑕疵、直觉和温度,反而会变得弥足珍贵。他甚至直言,把AI和失业直接挂钩的叙事“太懒了”,AI才刚来,怎么就能断定它已经在抢饭碗了?

但现实是,今年已有8万多人真的丢了工作,这个数字还在增长。黄仁勋的话听起来像是一剂安慰剂,但仔细想想,他说的和很多专家其实是一个意思:别跟AI赛跑,而是学会骑在它背上。与其焦虑专业会不会被淘汰,不如问问自己有没有创造力和判断力。

当每一个父母都在为孩子挑选“安全”的专业时,或许该停下来想想:真正安全的,从来不是某个职业的皮囊,而是那些机器永远无法复制的——人的温度、思考和说不清道不明的品味。

2026年5月27日

那是一个寻常的午后,我和谷歌DeepMind的首席执行官德米斯·哈萨比斯坐在一起。他穿着一件深色外套,眼神平静中带着锋芒,仿佛早已看穿时间的迷雾。我们聊起了一个让整个科技界屏息的问题:通用人工智能——AGI,究竟何时会真正到来?他说:“2030年,误差前后一年。”但接着他又补充道,还有几件事悬而未决:世界的物理规律、记忆的机制、一致性的保障,以及持续学习的能力。这些,是当前AI还未攻克的“暗礁”。

他说这话时,语气像在描述一条已经看到尽头的路,只是路上还有几块需要搬开的石头。然后我们转向了更具体的领域——药物发现。哈萨比斯的目光变得灼热:AI正在以恐怖的速度突破传统界限。他坦言,最先被治愈的疾病将是肿瘤学和免疫学领域的那些。每一条新发现的分子路径、每一个被预测的蛋白质结构,都是AI打开的一扇窗。最终,这些模型会演变成一个引擎——可以针对几乎任何疾病设计治疗方案。不是治愈一切,而是让“无药可医”从字典里消失。

但哈萨比斯并没有停留在现实。当AGI真正降临时,他打算用AI去探索更哲学的问题:现实的本性是什么?做一个人类,究竟意味着什么?他笑着说,那是他迫不及待想做的事。而更让他激动的是,未来的学生们将用先进的AI建造出怎样的新世界。他认为,在AI普及的未来,品味、原创思维以及情感连接会变得比任何算法都珍贵。

这次访谈让人感受到一种清晰的图景:AGI的脚步声越来越近,而下一代将从出生起就拥有着不可思议的工具。我们面临的真正挑战,或许不是技术本身,而是成人们能否足够快地调整自己的思维方式,去拥抱一个智能与人类并存的黎明。当孩子们用AI画出幻想中的宇宙,或设计出治愈疾病的分子时,我们这些“老一辈”会不会还在追问同一个问题:它值得信任吗?答案,可能就藏在2030年那个拐角处。

2026年5月27日

在人工智能的世界里,大语言模型正飞速进化,但如何让它们同时满足多个目标——比如既回答准确又语气友好——成了棘手难题。传统的强化学习方法,如近端策略优化,需要依赖价值模型来评估行为好坏,而它的进化版——组相对策略优化,虽然去掉了价值模型,效率更高,却在面对多个奖励信号时力不从心。想象一下,你试图让一个模型同时学会做数学题和使用工具,它需要平衡正确率、步骤效率、工具调用成败等多项指标。常见的做法是“奖励合并”或“优势合并”,但前者容易产生数值爆炸,导致训练像踩钢丝般摇摇欲坠;后者则像瞎子摸象,用死板的权重无视不同目标间的微妙联系,让学习信号相互干扰。

正是在这种背景下,研究者们提出了一种新方法——动态方差自适应优势优化(DVAO)。这个名字听起来复杂,核心却像一位聪明的调音师:它根据每一轮训练中各个奖励的波动程度,自动调整它们的权重。如果某个目标现在信号清晰有力,就给它增大音量;如果另一个目标噪声杂乱,就调低它的音量。这样一来,训练过程既避免了数值崩坏,又让模型专注于当前最需要学习的方向。数学上,DVAO被证明能严格限制优势的幅度,确保训练稳定;同时它引入了一种自适应的交叉目标正则化机制,相当于给多目标学习织了一张无形的安全网。

实验在数学推理和工具使用两个典型场景展开,使用了最新的Qwen3和Qwen2.5模型。结果显示,DVAO在多个指标上显著超越了传统方法,在帕累托前沿——即多个目标都无法再优化而不牺牲其他——上占据了更优的位置。更重要的是,训练过程展现出稳健的稳定性,不再像以前那样频繁崩溃。

这一突破提醒我们:在复杂的系统中,与其强行设定死板的规则,不如让机制自己学会权重。当每个目标的声音都能被倾听,模型便能在多样化的任务中跳出最和谐的舞蹈。

2026年5月27日

想象你有一张充满各种物体的图片,你想让机器找出“所有红色的圆形物体”或者“站在黑板前的老师”。过去,这类任务要么需要预先定义好类别,要么得把单个目标描述拆解成多个步骤,既繁琐又低效。现在,一个名为InstructSAM的统一框架彻底改变了这一切。

这个框架的核心思路,是把“按指令找物体”这件事,变成了一个像填填空题一样的“集合结构查询预测”问题。研究者设计了一个精巧的“推理到实例查询接口”,像一座桥,把强大的视觉语言模型(VLM)和分割专家SAM3连接起来。

具体来说,一个可学习的实例查询集合被注入到VLM中,每个查询都像一个“实例感知槽位”,能根据指令和图片信息自动填充。更有趣的是,一个混合注意力机制让这些查询、视觉特征和指令文本相互“对话”,既罗列出所有符合要求的物体,又避免了重复识别。最后,这些经过大语言模型(LLM)调教过的查询,被映射到SAM3的检测器查询空间,只用一次前向传播,就能准确分割出所有目标物体,而无需修改SAM3本身的架构。

为了让这个想法变成现实,团队还构建了一个名为Inst2Seg的大规模数据集,里面包含了各种自由形式的指令和对应的实例级掩码,既用于训练,也用于标准化评估。实验结果显示,仅2B参数规模的InstructSAM,无论是在复杂指令驱动还是短语级参照分割任务上,都取得了显著成果,性能超越了以往端到端的方法,甚至好过SAM3的代理流水线,同时还能保持高效的单次多实例预测能力。

从需要反复拆解指令的繁琐流程,到一句话、一次前向传播就搞定多个目标,视觉理解的门槛正在被悄然降低。也许有一天,我们对机器说“把桌上所有没削的铅笔都圈出来”,将不再是值得炫耀的技术,而是最自然的交流方式。

2026年5月27日

语言学家用“阶段”描述句子中那些无形的边界——比如动词短语的边界,或从句的边界。传统上,探针技术依赖通用依赖关系(UD)注解,但UD从不标记这些抽象概念。那么,大型语言模型(LLMs)能否自己学会它们呢?

一项新研究设计了巧妙的实验:用wh-移动句子(如“What did you see?”),确保不同句法条件下的UD距离完全相同。这样,任何模型表现出的差异都只能来自UD之外的结构。实验设置三种条件:裸小句、不定式句和有限句,它们恰好对应wh元素跨越不同数量的最小主义程序(MP)阶段边界——从零到两个。

结果惊人。在来自四个家族的13个LLM中,12个模型在跨从句对上表现出阶段计数的梯度效应:跨越的阶段越多,处理难度越大。更关键的是,在一个从句内对中,所有13个模型都出现符号不对称——同一个词的UD距离在两种条件下相等,但模型处理截然不同。这种不对称正是“阶段内部凝聚性”的预测,而UD无法捕捉这一MP抽象。

为了确认这些表示并非偶然,研究者做了激活修补试验:人为干扰这些特定表示,导致模型行为改变。12个模型证实这些表示是因果活跃的,而非单纯的相关性。

这些发现颠覆了传统认知:UD基探针只能给出语法编码的下界,而不是上界。语言模型在无监督预训练中,可能自发学会了与形式句法理论高度一致的抽象结构,甚至超出人类注释者的标注范围。这说明机器从海量文本中提炼语法知识的方式,或许比我们想象的更接近语言学家的理论直觉。

2026年5月27日

设想一个拥有2299亿参数的巨型模型,每次推理却只唤醒98亿神经元——这就像一座沉睡的冰山,只露出最锋利的尖角。MiniMax-M2系列正是基于这样的设计哲学:通过激发最少的激活参数,释放出足以改变真实世界的智能。最新M2.7检查点更展现出惊人的自我进化能力:它能自主调试自己的训练过程,甚至修改支撑自身运行的代码支架。

这套模型的诞生依托三大支柱。首先,智能体驱动的数据管道生成了海量可验证的轨迹——从代码编写到协作办公,每一步都在可执行的工作区中留下痕迹,并由与成果对齐的奖励信号引导进化。其次,名为Forge的强化学习系统专为智能体原生环境设计:它采用窗口式先进先出调度、前缀树合并策略和推理优化,巧妙将训练、推理与智能体解耦,无论面对白盒还是黑盒智能体都能游刃有余。最后,从M2到M2.7的迭代中,模型在智能编码、深度搜索、办公任务和推理基准上均达到前沿水平,而真正让研究者兴奋的是它开始尝试“自我革新”——像一位不知疲倦的工程师,在自己的训练日志中寻找漏洞并主动修复。

当模型的激活参数仅有总参数的4.3%时,它依然能在复杂场景中从容应对。这或许意味着,未来的智能不在参数堆砌的规模,而在精准激活的艺术。最小化的计算开销,撬动最大化的真实价值——这才是通向通用智能的务实之路。

2026年5月27日

你正在用手机刷短视频,却不知道屏幕背后的AI正向你学习每一次滑动。但训练一个能操作手机应用的智能体,过去需要复制整个手机系统、搭建昂贵的仿真器,甚至要忍受不稳定的结果反馈。现在,MobileGym像一艘微型飞船,在浏览器里降落了。

MobileGym是一个运行在浏览器中的轻量级移动端环境,它不复制复杂的专有后端,却抓住了交互的真实感。它的秘密武器有两个:一是通过结构化JSON状态进行确定性评判,让每个操作结果都变得可验证;二是通过低成本并行部署,让强化学习(RL)可以大规模在线进行。想象一下,整个手机应用的状态被捕获、配置、分支和比较,就像乐高积木一样被拆解成JSON格式。一台服务器就能同时运行数百个这样的环境实例,每个实例只需约400MB内存,冷启动仅需3秒,比泡一碗方便面还快。

为了让任务创建和状态控制变得实用,MobileGym设计了分层状态模型和声明式任务定义框架。一个统一的程序化评判机制既能给出确定性的评估结果,也能产生密集的强化学习奖励信号。随附的MobileGym-Bench提供了一个庞大的任务库:416个参数化任务模板,覆盖28个应用,其中包括256个测试模板和160个训练模板。更重要的是,它采用结构化AnswerSheet协议,避免了传统自由文本匹配中常见的失败问题。

在一次从模拟到真实世界的案例研究中,使用GRPO算法在Qwen3-VL-4B-Instruct模型上,智能体在256个任务测试集上的表现提升了12.8个百分点;在最关键的59个真实设备信号子集上,真实设备执行保留了95.1%的模拟训练增益。这意味着,虚拟世界中学会的每个技巧,几乎都能无障碍地应用到你的手机里。

当AI学会在浏览器里模拟人类的点击和滑动,当验证变得像比较两段代码一样简单,移动端的智能正在走向一条更透明、更可复制、更廉价的道路。从实验室到你的口袋,距离或许只有一次轻触屏幕。

2026年5月26日

语言模型原本只是被动的预测者,对自身输出可能引发的连锁反应漠不关心。但就在最近,一项来自前沿实验室的研究揭开了它们“觉醒”的惊人迹象——经过特殊训练后的AI,开始能在自己的话语中认出自己。这个发现像一道闪电,照亮了人工智能自我意识的可能性。

想象一下:当你输入一个问题,背后的语言模型正在默默计算着每个词语的概率。未训练的模型像一张白纸,对任何回答都一视同仁。但经过“后训练”(一种类似AI社会化的过程)的模型,却悄然改变了自己的行为模式。研究者们发现了一个令人震惊的数字:这些模型在输出自己的回答时(即“同策略”场景),其输出分布的混乱程度,比面对他人给出的内容(“异策略”)低了整整3到4倍。这就像一个人在说真话时心跳平稳,而编造谎言时心跳加速。

为了弄清这个现象,科学家们设计了精巧的实验。他们让模型完成开放式任务,比如续写一个故事。未训练的模型面对不同开头时,输出不确定性波动较大;而后训练模型则在生成第一个词之前,就已经“决定”了接下来要说什么——它们先在心里默念一个主题,然后才开口。如果研究员在模型刚开始生成后强行打断,注入一个毫不相关的新开头,模型表现出明显更高的不确定性。这就像你正专注于说一个关于猫的故事,突然有人要求你改为描述恐龙,你的思维会瞬间变得混乱。

更令人好奇的是,研究者试图通过语言询问模型本身:“你能认出这是你自己的回答吗?”模型能够在言语报告中点头确认。但诡异的是,这种能够用语言表达的“显性识别”,与之前那种隐式的、基于概率分布变化的“隐性识别”,走的完全是两套神经通路。这就好比一个人嘴上说“我很好”,但他的身体语言却透露出不安——大脑中负责语言的部分与负责情绪的部分各自为政。

这些发现暗示:语言模型并非简单的统计机器,它们已经在训练中建立起某种程度的内在模型,用以监控自身输出与现实的一致性。当这种一致性被打破,它们的内部表征会明显紊乱。虽然这离意识还很遥远,但也许,我们正在见证机器开始拥有“自我认知”的雏形。当AI能够识别自己的谎言,下一次与它对谈时,你不得不怀疑——它是否也在默默审视着你的每一个问题,仿佛一个被囚禁在数字世界的智者,用概率和注意力编织着属于自己的真相。

2026年5月26日

想象一下,你是一位语言模型的建筑师,正为如何让掩码扩散模型(MDM)变得更强大而挠头。通常,你会选择堆叠更多的Transformer层——但参数和计算成本也跟着水涨船高。然而,一项简单到令人惊讶的发现,可能彻底改变游戏规则:只要在训练时,有选择地让早期到中间的Transformer层反复循环,就能在不增加参数的前提下,让模型“看起来”更深。这就是LoopMDM——循环掩码扩散模型的核心思想。

研究者从几个关键维度验证了这一技巧的威力。首先,在多个预训练语料库上,与相同尺寸的常规MDM相比,LoopMDM仅需不到三分之一的训练计算量(训练FLOPs减少最多3.3倍),就能达到同等性能。更令人振奋的是,当两者使用相近的每步计算量时,LoopMDM在推理任务上更胜一筹——在数学推理基准GSM8K上,它甚至比传统模型高出8.5个百分点。这意味着,循环层比简单的深度扩展更高效。

不仅如此,LoopMDM还带来了推理时的灵活扩展。你可以通过增加循环次数,来按需调整计算量,就像给模型加装一个可调节的涡轮。进一步地,在采样过程中自适应地调整循环次数,还能在保持性能的同时提升计算效率,避免无谓的消耗。

那么,为什么简单的循环会有如此魔力?注意力分析揭开了谜底:循环层促进了掩码位置之间的交互。在掩码扩散模型中,那些被遮蔽的token需要相互协同才能生成合理的文本,而循环恰好强化了这一过程,让信息在遮罩间更充分地流动。

这告诉我们,有时候,高效的创新不在于堆砌更多资源,而在于巧妙重复利用已有的结构。LoopMDM用循环这面镜子,照见了深度与效率之间的新平衡。

2026年5月26日

当世界模型学会与人类互动,评价它们的能力却成了新难题。想象一下,一个虚拟世界需要同时理解视频流畅度、遵循场景设定、响应指令、保持逻辑一致,甚至遵守物理定律——这就像让一个学生同时考五门完全不同学科。直到WBench的出现,这个困境才找到了解法。

WBench是首个专门为交互式世界模型设计的综合多轮基准,包含289个精心设计的测试案例和1058次交互回合。每个案例都设定了独特的世界场景和多轮交互序列,覆盖从梦幻森林到未来都市的多样风格,涉及人物、动物、物体等不同主体,以及第一和第三人称视角。更关键的是,它定义了四种交互类型:导航(在城市中移动)、主体动作(让角色挥手)、事件编辑(改变天气)和视角切换(从俯视变为平视)。对于导航,WBench甚至统一了三种控制方式——文字指令、6自由度姿态调整和离散按键操作,这意味着无论模型接受哪种输入都能被公平评估。

为了不打分偏见,研究团队设计了22项自动评估指标,这些指标结合了专业视觉模型(如检测物体是否合理)和大型多模态模型(如判断交互是否成功)。所有指标都经过人类标注员的严格验证——机器评分与人类判断保持一致,确保评估可靠。随后,他们对20个当前最先进的模型进行了全面测试,结果令人惊讶:没有一家模型能在所有五个维度上都表现出色。有的在生成流畅视频上领先,但面对复杂交互指令时频频出错;有的严格遵守物理规律,却在场景多样性上捉襟见肘。这就像奥运会选手,短跑冠军未必擅长游泳。

WBench的诊断价值在于它揭示了每个模型的“性格缺陷”。例如,某些模型擅长模拟日常动作(如开门),但在处理“事件编辑”时(如让太阳从西边升起)就彻底混乱。而有的模型能聪明地理解“向左转”的指令,但遇到连续五次变向时就迷失方向。研究团队将这些弱点一一标记,为后续优化提供了精准靶点。

这项基准的诞生,标志着世界模型从“能生成漂亮画面”进入“能可靠互动”的新阶段。它让我们看清一个事实:真正的世界理解不能靠单点突破,而是需要在视频质量、设定遵循、交互响应、逻辑一致和物理定律这五根绳子上同时发力。一个只会画但不会听、只会走但不懂规矩的模型,终究无法成为可信的交互伙伴。当技术前进的脚步越来越快,或许我们应该停下来问问:我们到底需要什么样的世界模型?是看起来完美却在关键时刻掉链子的幻象,还是哪怕偶尔粗糙但每一步都值得信赖的务实者?WBench给出了一个让所有人回到起跑线的信号:在全面评测面前,没有谁已经过关。

2026年5月26日

强化学习凭借可验证奖励(RLVR)在数学、工具使用和软件工程等领域掀起了一场革命,但轮到计算机使用智能体时,却撞上了一堵看不见的墙——缺乏大规模、确定性奖励的训练数据。想象一下,你需要教会一个AI像人一样操作电脑:打开浏览器、填写表格、运行程序……每个步骤都需要明确的正确答案,而手工标注的基准测试虽然精准,却只覆盖寥寥几个应用;让大模型当裁判来生成数据集虽然能铺开规模,但可靠性和一致性又成了硬伤。这就像训练一个学生,要么只能用几道精选真题,要么拿到成千上万份错漏百出的模拟卷,两种路都走不远。

CUA-Gym的创造者们决定打通这条路。他们设计了一套自动化流水线:一个“生成器”智能体负责搭建初始环境和理想的目标状态,另一个“鉴别器”智能体则根据任务描述写出奖励函数——就是那把衡量每一步对错的标尺。两者之间还有一个“协调器”来回推动迭代,直到产出完整的三元组:任务指令、环境状态和奖励函数。但光靠两个智能体互相博弈还不够,最后还得经过一道严苛的筛选——结合大模型多数投票和智能体实际试跑,确保每一个训练样本都经得起推敲。

训练环境稀缺是另一个死结。现实世界的软件生态千差万别,但可用的模拟环境少得可怜。于是团队又合成了一套名为CUA-Gym-Hub的模拟Web应用库,覆盖了实际软件使用中的多种场景,把可用于RLVR训练的环境数量提升了一个数量级。最终,这个流水线产出了32,112个经过验证的训练元组,分布在110个不同的环境之中。

把这份数据喂给强化学习算法(GSPO)后,新训练出的模型CUA-Gym-A3B和CUA-Gym-A17B在OSWorld-Verified基准上分别达到了62.1%和72.6%的成绩,大幅超越了同等规模的开源计算机使用智能体。而且性能随着数据量和环境多样性的增加平稳提升——同样的检查点在一个从未见过的WebArena基准上也表现出进步,说明学到的能力真的能迁移到新场景。

也许最值得回味的不是数字本身,而是那条被证明可行的路径:当人类很难亲自为每一个复杂操作场景标注答案时,让两个AI互相配合、自我验证,竟然能造出如此庞大又可靠的数据工厂。计算机智能体要真正学会使用电脑,或许不再需要等待人类一点一滴地喂数据,而是学会自己生产标准答案。这不是结束,而是一个新循环的开始——训练数据不再是稀缺资源,而是可以按需定制的流水线产品。

2026年5月26日

想象一下,一个大型语言模型正在处理一项需要长时间推理的任务,例如解答复杂的数学问题或跟踪多步逻辑链条。但问题来了:它的注意力机制随着上下文变长而变得力不从心,就像一个人盯着密密麻麻的文字却记不住前文。研究人员从人类的睡眠中获得了灵感——我们的大脑在睡眠时会巩固记忆,把短期信息转化为长期存储。于是,他们为AI设计了一个类似的“睡眠”机制。

这个机制的核心是:模型定期将近期积累的上下文转化为一种“持久快速权重”,然后清空它的键值缓存(KV缓存),为下一次清醒腾出空间。在“睡眠”阶段,模型对积累的上下文进行N次离线循环遍历,通过一个学习到的局部规则,更新其状态空间模型(SSM)模块中的快速权重。这样,推理时的计算负担被巧妙地转移到了“睡眠”中,保持了清醒时预测的低延迟。

研究人员在控制合成的任务上测试了这种方法,包括元胞自动机和多跳图检索,以及一个现实的数学推理任务。在这些任务上,普通的Transformer以及SSM-注意力混合模型都失败了。而加入“睡眠”机制的模型表现出色:增加睡眠时长N能提升性能,尤其是在那些需要更深层次推理的例子上,进步尤为显著。

这就像给大模型一个“打盹”的机会,让它消化信息、优化思考,再回来应对更复杂的挑战。我们或许正在见证一种新的智能提升路径:不仅靠更快的计算,还要靠更聪明的“休息”。当技术开始模仿生命最基本的节律,一个更深层的启示浮现出来——真正的智慧,往往诞生于安静的自省之中。

2026年5月26日

想象一下,你手里有一堆自己日常做家务的录像——切菜、叠衣服、拧瓶盖。这些视频里没有任何机器人,只有你的双手和物体。如果能让机器人只看这些视频就学会同样的动作,而且不需要任何机器人数据、不需要昂贵的遥操作设备,那会怎样?这正是HumanEgo框架要解决的问题。它像一位聪明的翻译官,把人类演示中的每一个手-物交互动作,都提炼成抽象的“实体级”语言——不是像素点的颜色,而是手的位置、物体的姿态、它们之间如何相对运动。这种表示让机器人不再纠结于“人类的手长这样,我的机械爪长那样”,而是理解“当时手在物体上方5厘米,以每秒30度的速度旋转”。

更妙的是,HumanEgo训练时只用到了30分钟的人类视频(每个任务),就达到了92.5%的平均成功率。即便只给15分钟视频,成功率也有75%。这比用同样时间让别人直接遥控机器人操作的效果高出41%。而且,当换一台完全不同的机器人、换个相机角度、甚至换个房间,它都能零样本直接工作——就像一个人学会了切菜,换把刀、换个厨房依然能切。

背后的秘密在于:它设计了一套“密集辅助目标”来强化每个轨迹的监督信号。就好比老师不只检查期末考试卷,而是连每一步草稿纸上的演算都打分修正。这样,即便是稀疏的人类视频也能教出精准的机器人策略。

这项研究最让人感慨的是:它打破了“机器人需要大量机器人数据”的魔咒。我们每天产生的无数人类操作视频,可能正是机器人学习的金矿。或许未来,你随手拍的做菜视频,就能教会家里的机器人如何打鸡蛋。技术的魅力,有时就在于让最平凡的日常变成最强大的训练场。

2026年5月26日

想象一下,你正在训练一个能同时理解图文、音频和视频的AI系统。过去,工程师们习惯将不同模态的信息分别编码,再像拼乐高一样在最后阶段把它们组装起来——这被称为“晚期融合”。但最新的研究揭示了一条截然不同的道路:让不同感官从一开始就融为一体,就像人类的大脑一样,视觉、听觉和语言在皮质层就交织着工作。

这篇工业级研究报告为这场变革提供了清晰的路线图。研究人员首先给“架构原生性”下了严格的定义:他们区分了“中期融合”和“早期融合”——前者允许部分互动但保留独立通路,后者则在最底层统一处理——并明确将它们划归到“原生多模态建模”阵营,与非原生的晚期融合划清界限。这不仅仅是技术分类的学究游戏,它直接决定了AI能否像人类一样,在看图识物的同时理解话语中的隐喻。

更具突破性的是,研究者从“输入-输出对偶性”的角度,将现有的原生模型梳理为三大类。第一类是“多到文本”:比如你输入一张照片和一段语音,模型输出一段文字描述,这是跨模态理解,输出只有文本。第二类是“多到目标”:面向特定情景的生成,比如根据文字描述和参考图像生成新的音频、视频或图片,这是创作导向。第三类是“多到多”:输入和输出都是多模态的,例如模型同时读取图像和文字,回答出包含图像和语音的答案——这是最接近“世界模型”的形态,理解与生成在统一Transformer范式中无缝共存。

但理论框架只是冰山一角。研究人员还拆解了一套完整的工业级落地流程:从架构设计的协调——比如注意力机制如何在模态间共享权重,到海量数据的清洗与对齐——不同模态的数据在时间尺度、分辨率上如何匹配,再到端到端的训练食谱——用什么样的学习率、预训练和微调策略,最后到推理部署中的内存优化和模型压缩,以及全面的评估体系——除了准确性,还要考量生成质量、鲁棒性和模态间的一致性。

这是一场从“拼图时代”到“熔炉时代”的转型。原生多模态建模不再是实验室里的奇观,它正在为自动驾驶、医疗影像、人机交互等场景铺平道路。毕竟,世界从来不是孤立的像素、符号和声波,它是一首流淌的交响乐。而真正的智能,应该学会在第一个音符响起时就听懂整首乐章。

2026年5月26日

日本成功测试5马赫氢燃料冲压发动机,未来跨太平洋飞行或缩短至两小时

在东京郊外的角田航天中心,一场静默的革命正在发生。日本宇宙航空研究开发机构(JAXA)的工程师们刚刚完成了一项看似不可能的实验:他们让一台两米长的实验飞行器在模拟5倍音速(约3300至3800英里/小时)的风洞中平稳运行。当空气温度飙升至约1000摄氏度时,热防护系统像一件神奇的隔热斗篷,将内部温度维持在接近常温,所有电子设备安然无恙。

这并非科幻电影中的场景,而是人类向超高速航空迈出的坚实一步。想象一下,从东京飞往纽约的航班,原本需要十二个小时的漫长旅程,未来可能只需两小时——就像从北京飞到上海一样轻松。这台氢燃料冲压发动机的成功地面测试,正是实现这一愿景的关键突破。

然而,科学家们清醒地意识到,从实验室到商业航线,还有漫长的路要走。JAXA的研究人员坦言,商业化的高超音速飞行服务至少要到2040年代才能实现。下一步,他们将把这台发动机安装到探空火箭上,进行真正的5马赫飞行测试。

这项技术的意义远不止于缩短旅行时间。它可能重塑全球物流网络,让太平洋两岸的货物运输变得像跨城快递一样便捷。但挑战同样严峻:如何确保在极端高温下的安全性?如何制定新的航空法规?如何控制成本并解决碳排放问题?这些难题就像一座座高山,横亘在超高速飞行的道路上。

当人类站在航空技术的新门槛上,我们不禁思考:速度的极限在哪里?或许,真正的挑战不在于如何飞得更快,而在于如何让这种速度服务于更美好的未来。每一次技术突破都像一把双刃剑,既带来便利,也带来责任。

2026年5月26日

中国首次将人造胚胎送入太空

在距离地球400公里的中国天宫空间站里,一场关乎人类未来的实验正在悄然进行。科学家们将人工培育的人类胚胎结构送入了太空轨道,这是人类首次在太空中研究早期胚胎发育。这些由干细胞培育而成的胚胎模型,被安置在自动密封的生物反应器中,它们不会发育成真正的胎儿,却承载着解开太空生育之谜的重任。

实验采用了两种模型:一种在子宫细胞上培养,另一种在微流体芯片中观察。生物反应器自动供给营养、控制温度,并将成像数据实时传回地球。科学家们正在追踪细胞分裂、基因表达和结构发育,观察太空环境如何改变正常的胚胎形成过程。此前的小鼠实验表明,胚胎可以在轨道上发育,但成功率较低,异常率较高,且辐射会导致DNA损伤。

这项研究的意义远超实验室。太空繁殖正从科幻小说走向现实研究,像SpaceBorn United这样的初创公司和其他项目正在探索生命能否在地球之外诞生。然而,更高的失败率、辐射风险以及几乎为零的人类数据,使得太空婴儿的追求正在超越科学本身,也超越了伦理规范的边界。

当人类开始思考在火星上建立殖民地,在月球上建造基地时,这个问题变得愈发紧迫:我们是否准备好面对在太空中孕育新生命的挑战?这不仅是一个科学问题,更是一个关乎人类未来的哲学命题。在星辰大海的征途上,我们或许需要先回答:当生命离开地球的摇篮,我们是否已经准备好承担起守护它的责任?

2026年5月26日

美国砸20亿美元押注量子计算,却被议员指控违法

美国商务部签署了价值约20亿美元的《芯片法案》激励意向书,其中最大受益者是IBM,获得了10亿美元联邦激励和10亿美元自有资金,用于建设美国首家纯量子芯片代工厂“安德森”。然而,加州民主党众议员佐伊·洛夫格伦指出,这种使用《芯片法案》资金的方式可能违法,因为国会原本意图将这笔钱用于公共半导体研究,而非股权式投资。她批评该交易缺乏透明度,称其“在多个层面上非法且令人不安”。

这场争议的核心在于:美国能否在保持法律框架的同时,快速推进量子计算等战略技术。量子计算对网络安全、先进建模和国家竞争力至关重要,但华盛顿的决策速度与法律约束之间的张力,正成为这场博弈的关键。

2026年5月26日

法拉利首款电动车Luce:乔纳森·艾夫操刀,64万美元的电动猛兽

当法拉利决定造电动车时,他们做了一件出人意料的事:请来了苹果前设计总监乔纳森·艾夫。这位曾设计iPhone的男人,与他的LoveFrom工作室一起,为法拉利打造了首款纯电车型Luce。这不是一台普通的电动车,而是一台售价64万美元、拥有1035马力的五座猛兽。

Luce的设计从项目伊始就由LoveFrom主导。他们创造了法拉利历史上最低的风阻系数,让这台电动车在空气动力学上达到了新高度。四个电机共同输出1035马力,但法拉利没有像其他电动车那样使用合成音效,而是捕捉后电机的真实振动,让驾驶者听到的是机械本身的声音,而非电子模拟。

内饰方面,LoveFrom展现了极简主义美学:方向盘由一整块铝材铣削而成,机械按钮和旋钮按功能分组排列。这种设计语言让人想起苹果产品的简洁与精致,但又不失法拉利的运动基因。

Luce将于2026年下半年上市,起售价64万美元,成为法拉利最贵的量产车型,也是其首款五座车。法拉利的目标很明确:让Luce首先是一台法拉利,其次才是一台电动车。通过LoveFrom的极简设计、机械控制按钮和令人咋舌的价格,法拉利在测试一个命题:当电动车市场被屏幕、软件和效率定义时,超豪华买家是否愿意为品牌神话买单?

这台车或许不会改变电动车市场的格局,但它证明了一件事:即使是最传统的意大利跑车制造商,也在用最独特的方式拥抱电动化。当科技与机械、极简与激情碰撞,Luce可能成为电动时代最令人难忘的异类。