EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年6月3日

在人工智能领域,让一个大模型(教师)去教会另一个更小的模型(学生)是一种常见且高效的后训练方法,称为“同策略蒸馏”(On-Policy Distillation, OPD)。它被广泛应用于智能体学习、多任务增强和模型压缩等场景。但实践中,当教师和学生的知识分布差异较大时,OPD训练会变得极其不稳定。为什么?因为如果用教师来监督学生自己生成的token,这些监督信号可能并不靠谱——教师觉得理所当然的步骤,在学生看来可能完全是陌生的领域,由此产生的策略梯度会指向错误方向,甚至导致整个优化过程失败。

为了解决这一核心矛盾,研究者们提出了一种名为TrOPD(Trust Region On-Policy Distillation)的新方法。它从信用赋值的角度切入,强调在可靠的监督区域内进行学习,而非盲目地全盘接受教师指导。TrOPD包含三个关键设计:第一,信任区域同策略学习——只有当教师能给出可靠监督时,模型才执行OPD训练,以此来缓解分布不匹配下K1反向KL估计器带来的优化困难。第二,异常值估计——对于那些差异极大的“异常”区域,系统会采用梯度裁剪、掩码处理或直接切换为前向KL估计,以降低不可靠监督的负面影响。第三,离策略引导——学生模型会从教师生成的前缀文本继续生成,并通过前向KL损失模仿教师的离策略输出,从而鼓励学生主动向那些可靠的同策略区域进行探索。

实验结果显示,在数学推理、代码生成以及通用领域的多个基准测试中,TrOPD始终优于当前最先进的OPD基线方法,包括OPD、EOPD和REOPOLD。

大模型学习的过程,从来不是简单的“复制粘贴”。只有当教师真正理解学生的认知边界,并提供恰到好处的引导时,知识才能顺利传递。如果我们一味施加超出学生能力范围的指导,结果只会让双方都陷入混乱。信任区域的选择,或许正是让AI更聪明、更稳定成长的关键一步。

2026年6月3日

在机器人操作领域,一个核心挑战是如何让模型在执行动作之前就能预判未来后果。为此,研究人员推出了τ0世界模型(τ0-World Model),这是一个统一的视频-动作世界模型,将策略学习、视频预测和动作评估整合进一个未来预测框架之中。它基于共享的视频扩散骨干网络,提供了两种互补接口。一是视频动作模型,能从多视角观测、语言指令和机器人状态中联合预测未来的视觉潜变量和连续的机器人动作块;二是动作条件视频模拟器,能将候选动作块展开为多视角未来视频,并预测密集的任务进度分数。该模型依托约27,300小时的训练数据,包括真实机器人遥操作、UMI风格交互、以自我为中心的人类视频以及各种失败轨迹,并采用模态特定的监督掩码进行训练。在推理时,τ0世界模型利用测试时的计算能力采样候选动作,通过重去噪一致性进行排序,并对低质量候选调用模拟器修正。在长时程和精细化的机器人操作任务中,它展现出优于其他基线的性能。
这种将预判能力嵌入机器人操作的方式,让机器不再盲目执行,而是在行动前“想象”未来。未来或许正是那些能够“思考”后果的机器,才能真正走向自主。

2026年6月3日

大型语言模型智能体在执行复杂长程任务时,越来越依赖可复用的外部技能。然而,现有的训练无关技能适应方法往往从完整轨迹或会话级反馈中更新技能,导致故障归因粗糙,修正结果常不稳定或过于宽泛。为了解决这一痛点,研究团队提出了SkillAdaptor——一个无需训练、基于步骤级显式故障归因的技能适应框架,它能无缝接入OpenClaw类智能体工具包。当智能体执行失败后,SkillAdaptor会定位第一个可操作的故障步骤,将该步骤的责任关联到候选技能,并在保持骨干模型冻结的前提下,通过显式接受检查执行针对性更新。实验在三个基准套件上展开:WebShop、PinchBench和Claw-Eval,分别搭配Kimi-K2.5、GLM-5和GPT-5.2模型。结果显示,SkillAdaptor在所有三个测试集上均优于无技能和传统技能适应基线,其中在PinchBench平均分上提升1.5个百分点,在Claw-Eval平均分上提升1.8分,在WebShop成功率上提升1.7个百分点。这些数据表明,步骤级归因能够支撑更稳定、更可审计的训练无关技能维护机制。当智能体学会从一次微小的步骤偏差中自省,而不是对整个失败轨迹全盘重写,它便获得了更精细、更可信的成长路径。

2026年6月3日

在生成式AI加速的赛道上,研究者们一直试图用“少步蒸馏”让视觉模型跑得更快——只需几步推理就能生成高质量图像。但有趣的是,大家的目光几乎都盯着蒸馏目标的设计,却很少有人追问:学生的成功,到底是被“教什么”决定的,还是被“怎么教”决定的?

一个来自Qwen团队的研究给出了意想不到的答案。他们以自家的Qwen-Image-2.0模型为实验平台,系统解剖了少步蒸馏中的三个隐秘因素:数据如何组合?教师输出的尺度该如何选用?以及编辑任务与生成任务混在一起训练时,比例怎么调?结果令人惊讶——这些训练配置中的细节,比蒸馏目标本身更关键地影响着学生模型的性能。比如,不同任务混合比例会导致模型在文本到图像生成与指令引导编辑之间出现跷跷板式的表现,而教师输出的选择(如用连续得分还是离散预测)也会带来非直觉的行为偏差。

基于这些发现,团队不仅提出了新的训练配方,还推出了名为Qwen-Image-Flash的高效模型。它证明了一个容易被忽略的道理:先进的蒸馏技术固然重要,但如果训练管线的组织方式漏洞百出,再精巧的目标函数也无法施展拳脚。

技术世界里,最亮的聚光灯往往打在算法创新上,但那些被默认忽略的“训练细节”,才常常是决定成败的暗礁。真正的高效,从来不是单一变量的优化,而是整个流程的深思熟虑。

2026年6月3日

科学家们训练搜索代理时,往往让它一边决定如何搜索,一边记住自己看过什么、哪些证据有用、还有哪些约束未解决、哪些声明已被核实。这种将大量常规状态管理塞进策略的做法,被认为让强化学习同时优化语义搜索决策和可恢复的簿记工作,而后者本可以由环境更可靠地维护。于是,一种名为Harness-1的20B参数搜索代理应运而生,它在一个带状态搜索框架内接受强化学习训练。

这个框架承担了环境侧的工作记忆:维护候选池、带有重要性标记的精选集、紧凑的证据链接、验证记录、压缩和去重后的观察结果,以及基于预算的上下文渲染。而策略仅保留语义决策:搜索什么、保留或丢弃哪些文档、验证什么、何时停止。这种分工让Harness-1在涵盖网络、金融、专利和多跳问答的八个检索基准测试中,平均精选召回率达到0.730,比次强的开源搜索代理高出11.4个百分点,并且能够与体量大得多的前沿模型搜索代理一较高下。

尤其值得一提的是,它在保留的迁移基准测试上表现格外亮眼,暗示着基于显式搜索状态的强化学习能够产生超越训练领域的一般化检索行为。当状态管理被明确地交给环境,策略得以专注于更高层次的判断——这或许正是搜索代理摆脱规模竞赛、走向智能化的关键一步。毕竟,聪明地搜索,比单纯记住更多细节更重要。

2026年6月3日

有一种AI,不再需要为不同感官分别设计不同的“大脑”——它同时理解文字、看懂图片、解析视频、听懂声音,甚至能预测并产生行动。这就是Cosmos 3——一个全模态世界模型家族。它通过统一的混合Transformer架构,将语言、图像、视频、音频和动作序列的输入输出整合在一个框架内,无缝融合了视觉语言模型、视频生成器、世界模拟器和行动决策模型。

研究团队在多项理解和生成任务中进行了严格评估。结果显示,Cosmos 3在多样化任务中均树立了新的最佳水平,证明了全模态世界模型可以成为实体智能体可扩展的通用骨干网络。在技术报告撰写时,其后训练模型被Artificial Analysis评为最佳开源文生图和图生视频模型,同时被RoboArena评为最佳策略模型。这一成绩意味着,从合成数据生成到机器人策略学习,Cosmos 3都展现出了领先性能。

更有意义的是,研究团队选择将全部成果开源以加速物理AI的发展。他们发布的资源包括代码、模型检查点、精心策划的合成数据集以及评估基准,均托管于Linux基金会的OpenMDW-1.1许可之下。这意味着全球研究者可以自由使用、修改和扩展这些工具,无需从头训练。

世界模型从单一模态走向全模态融合,是迈向通用智能的必经之路。Cosmos 3证明了这条路不仅可行,而且高效。当AI能同时“看见、听见、读懂并行动”,它与人类协同的未来将不再遥远。

2026年6月3日

我们正在进入一个机器不仅能听懂语音,还能分辨环境音和音乐旋律的时代。最新发布的MOSS-Audio正是这样一个统一的音频语言模型,它就像一位全能的听觉助理,可以理解你说话的内容、周围环境的声响,甚至一首歌的节奏和情感。这个模型能做的事令人印象深刻:它不仅能为一段音频生成准确的文字描述,还能回答与时间相关的问题,比如“在第几秒出现了狗叫声?”;它可以把语音精确地转录成文字,并带上时间戳,记录每一句是在什么时候说的;更厉害的是,它能进行基于音频的推理——比如听到雨声和车流声后,推断出场景是雨天街头。

支撑这一切的是两个精巧的设计。第一个叫“DeepStack跨层特征注入”,这相当于让大语言模型可以从音频编码器的不同深度获取声学信息,而不是只看最后一层。这样一来,模型既能抓住粗颗粒度的声音轮廓,也不会遗漏微妙的音色细节。第二个是“时间标记”,简单来说,模型在音频数据流中插入了显式的时间戳标记,就像给声音贴上了一个个时间标签,让它能够精确地定位每一个事件发生的时刻。

为了训练这个模型,研究者们设计了一套聪明而细致的数据处理流程。他们会先对音频进行“事件保留分割”,保证每一段都完整地包含一个声音事件,比如一段完整的对话或一首完整的音乐,然后再针对不同分支进行专门标注:语音部分标注说话内容,音乐部分标注旋律和风格,环境音则描述声源。最后,这些分支标注会被合并成统一的字幕,用于预训练。更重要的是,中间的分支特定字幕也被保留下来,用来构建任务导向的监督微调数据。

整个模型经过了大规模音频-语言数据的预训练,其中特别加入了时间感知的目标函数,让模型学会时间定位;随后又进行了多阶段的后训练,进一步提升它遵循指令和进行音频推理的能力。最终的成果有4B和8B两种参数量版本,分别提供“指令”和“思考”两种配置,以适应不同场景的需要。在通用音频理解、语音字幕、自动语音识别以及带时间戳的语音识别等任务上,MOSS-Audio都展现出强劲的性能,为未来更智能的语音代理打下坚实的基础。

如果说过去的音频模型像是一本有声词典,只能查词句,那么MOSS-Audio更像是一个善于倾听和思考的伙伴,它让机器开始理解声音的维度和秩序。时间戳让它知道“何时”,DeepStack让它明白“何意”,而统一的框架让它能跨越语言、噪声与旋律的边界。当技术与叙事相遇,每一段声音都将拥有被完整解读的可能。

2026年6月3日

过去,参数高效微调(PEFT)一直被当作全量微调的廉价替代品——省算力、省时间,但总被看作“缩水版”。如今,一项新研究颠覆了这一认知:PEFT的真正潜力,在于成为持久个性化模型的紧凑基底。

核心思想很简单:将大型的基础模型视为共享的“通用大脑”,而每个用户或任务则通过极小的适配器(Adapter)携带专属的“记忆芯片”。这种适配器不是临时补丁,而是持久的本地状态,记录着个人偏好、技能习惯、工具使用模式,甚至类似记忆的更新。基础模型提供共享能力,适配器则赋予实例特定的行为。

研究围绕三个缩放轴展开探索:Scale Up(向上缩放)——更强的共享先验知识,能让更小的局部更新发挥更大作用;Scale Down(向下缩放)——挑战适配器的极限,探索它究竟能缩到多小仍保持可靠性;Scale Out(向外缩放)——让成千上万个持久的适配实例共存,各自管理自己的身份与演进。

为了实现这一愿景,团队开发了MinT基础设施,专门处理适配器的身份管理、版本修订、来源追溯、效果评估以及服务驻留。这意味着,每个适配器都可以像独立软件包一样被追踪、部署和迭代,而无需改动庞大的基础模型。

传统上,我们为了个性化往往需要为每个人微调整个模型,成本高昂且难以维护。而PEFT的新范式,将个性化嵌入到极小的适配器中,实现了“模型共享、个性分离”。这不仅是成本的优化,更是架构思维的转变:从“为每个用户造一个模型”走向“一个大脑,无数记忆卡”。

最终,这项研究暗示了一个更优雅的未来:PEFT不再只是预算紧张时的备选方案,而是构建持久、可扩展、专属于每个用户的AI系统的理想基石。当每个适配器都能承载独一无二的经验与习惯,我们离真正的“千人千面”人工智能,或许只差这些小巧而强大的记忆芯片。

2026年6月3日

逆图形学是一个古老而高度欠约束的问题,目标是让计算机能从一张照片反向推算出背后的可编辑3D场景,实现渲染、重打光、物体操控等操作。过去研究者们往往依赖专门的2D或3D基础模型、可微渲染技术或者多视角的监督信号,然而这些方法要么需要大量标注数据,要么在面对复杂光照和材质时捉襟见肘。

现在,一个名为“分阶段可执行逆图形”(SEIG)的新框架跳出了这些限制。它利用预训练的视觉语言模型(VLM),比如GPT-4V,让模型像一位数字雕塑师一样,从一张单视角图像出发,逐步在可执行的Blender程序代码空间中构建场景。整个过程被拆解为四个阶段:先大致定位物体的几何形状,再确定表面的材质属性,接着调整场景中物体的布局和遮挡关系,最后添加光影信息。每个阶段,模型都会审视自己已有的成果,并修正下一步的细节。

在实验测试中,研究人员把SEIG生成的3D场景与真实场景进行了像素级、感知层和语义层的多重对比。结果发现,没有这种分阶段拆解思路时,模型生成的场景往往会出现几何错位、材质漂移甚至光源方向相反的问题;而经过一步步迭代修正,保真度出现了显著提升。例如在一张杂乱桌面的照片上,SEIG能正确区分出金属玩具的镜面反射和旁边塑料杯的漫反射,连桌布上的褶皱阴影都被还原为合理的环境光遮蔽效果。

更令人兴奋的是,这些重建出的场景是真正的可编辑Blender文件。用户可以直接修改材质的颜色,调整光源的强度,甚至把场景中的茶杯旋转一百八十度,所有操作都像在专业软件里一样自然——而这一切的起点,只是一张普通手机拍下的照片。这项研究预示着一个可能性:未来的创作者或许不需要繁琐的建模流程,只需对着实物拍张照,AI就能帮你变出可任意玩耍的3D数字孪生。

这个能力足以让人重新思考“看见”与“理解”的边界。当模型不仅能识别照片里的是一只猫,还能推测出它绒毛的材质、身后的阴影来自哪个方向,甚至把这一切变成一串可以编辑的代码,我们离真正的视觉智能或许比想象中更近。每一次对场景的逐步拆解,都是让机器学会像人类一样“拆开再组装”世界的一个小脚印。

2026年6月3日

理解一段视频,远不止识别几个孤立瞬间。人类能持续追踪画面中物体、状态和事件的变化——这种能力被称为视觉状态跟踪,它是视频理解的基石。然而,当前对多模态大语言模型(MLLM)的评估却很少触及这个能力。为此,研究者提出了一个名为VSTAT的视频基准,专门诊断MLLM在视频中的视觉状态追踪表现。

VSTAT由834个视频片段组成,既有合成场景,也有真实世界画面,并配有1500道精心设计的题目。这些题目无法从任何单一帧或短片段中得出答案,必须依赖对整个视频流中事件的连续感知和整合。例如,观看一段打篮球的录像,模型不能只靠某一次投篮动作就推断比赛结果,而要持续跟踪球权变换、球员跑位和得分变化。

令人惊讶的是,尽管当前最先进的MLLM在现有视频基准上表现强劲,但在VSTAT上却远不及人类——它们仅略优于基于答案先验的基线模型。研究者深入分析了这一差距,将MLLM的思维轨迹与底层视频流进行对比,发现模型在文本推理层面能够正确描述和追踪变化,但在实际视觉感知环节就失败了。换句话说,模型知道该看什么、该追踪什么,但眼睛“看不见”关键画面。

进一步的初步评估显示,近期热门的智能体方法,包括基于MLLM的视频代理和编码代理,也无法轻易解决这一问题。它们同样在VSTAT上表现欠佳,说明当前主流技术路线在视觉状态跟踪上存在根本性短板。

这项研究给火热的多模态大模型敲响了一记警钟。当模型能游刃有余地回答“视频中有什么”,却难以回答“视频中什么在变化、如何变化”时,我们或许该重新审视:真正的视频理解,究竟离我们还有多远?毕竟,如果连人眼最基本的跟踪能力都难以企及,那么再华丽的推理也只是空中楼阁。

2026年6月3日

在机器人学习领域,一个长期困扰研究者的问题是:语言指令描述的是语义目标与事件,视觉系统捕捉的是连续变化的场景动态,而机器人动作却运行在毫秒级的控制时间尺度上。以往的“世界动作模型”试图将这三者强行塞入同一个固定长度的预测窗口,结果导致模型只会做短视的“相关拟合”——就像让一位马拉松运动员、一位短跑选手和一位散步的老者必须踩着完全相同的节拍前进。这种粒度错配,正是制约机器人泛化能力提升的隐形瓶颈。

WALL-WM(World Action Model)给出了一个截然不同的解法:让动作学习围绕“语义事件”展开。研究团队提出,与其用固定长度的动作块作为学习单元,不如将视频和动作数据组织成有意义的、语义连贯的事件。比如,“拿起杯子”是一个完整事件,其内部的动作时长可以变化,而不必被机械地切成固定帧数。为此,他们设计了事件驱动的视觉-语言-动作预训练方法,并配套构建了包含事件级描述和聚类平衡采样的数据生态系统。这套系统能够在大规模、多样化的场景和任务结构中进行可扩展学习,让模型真正理解行为背后的意图而非只有局部相关。

更巧妙的是,从同一套预训练骨干网络出发,WALL-WM支持两种互补的推理模式。在事件模式下,模型消耗下一事件的文本描述,自主决定执行多少个时间步的动作,实现可变长度的动作执行。在统一模式下,模型借助一个视觉语言模型与“阶梯解码”策略,既能兼容传统的固定长度动作块推理,又保留了一条梯度连续的视觉-语言-动作路径。此外,研究团队还引入了基于Muon优化器的大规模预训练基础设施,为通用世界动作模型提供了一套实用的扩展配方。

实验结果令人振奋:在真实世界的大规模泛化评估中,WALL-WM在跨语言、跨场景、跨任务维度上均展现出了前所未有的广度与性能,达到当前最先进水平。它不是简单地“刷榜”,而是证明了语义事件作为学习原子单位的可行性。

或许,真正的智能不在于学会每一帧的动作,而在于理解每一个事件的起承转合。当机器不再被固定窗口束缚,而是跟随事件的脉络灵活应变,人与机器的协作将不再是僵硬的指令执行,而是富有节奏的共舞。

2026年6月3日

想象一下你走进一个陌生的房间,手里拿着一张照片,你需要通过移动身体、转动头部,直到你看到的场景与照片完全一致。对人类来说,这几乎是与生俱来的能力,眨眼间就能完成。但如果让一个AI去做同样的事呢?它需要在三维环境中主动调整自己的视角,每一步都依赖对空间的理解和对视觉信息的记忆。这不再是被动地分析一张图片或一段视频,而是真正的主动感知与行动。

这正是研究人员提出的新任务——目标视角复现。他们把这一挑战命名为TVR,并搭建了名为TVRBench的室内仿真基准测试。在这套系统里,AI被置于一个三维房间或跨多个房间的复杂环境中,每次任务都给定一张目标图像,AI必须通过连续的动作(如向前走、向左转、向右转身)来改变自己的观察,直到它实时看到的画面与目标图像高度一致。整个过程没有地图、没有导航路径,只有纯视觉输入和自身的运动指令。

为了衡量AI的真实能力,研究团队测试了当前最强的开源和闭源模型。结果令人震惊:在测试集中,最好的开源模型成功率只有7.8%,而闭源模型也只有12.0%。换句话说,超过88%的情况下,AI都无法准确复现目标视角。这暴露了一个根本性问题:现有的大模型在处理多轮视觉历史时表现糟糕,尤其是在需要身体平移而非原地旋转时,模型几乎无法正确理解空间上的差异与运动之间的映射关系。它们可以认出“这是什么”,却不知道“我应该怎么动才能看到那个东西”。

为了找到缩小这一差距的方法,研究者构建了一个统一的后训练框架,包含四个主要环节:基于专家轨迹的监督微调、基于推理链的监督微调、离线单轮GRPO强化学习,以及在模拟器实时交互中的多轮GRPO强化学习。结果表明,视觉与动作联合的监督微调贡献了最主要的提升:一个9B参数的开源模型,经此训练后成功率飙升至50.8%。而在此基础上加入实时交互的多轮GRPO,性能进一步提升到51.4%。有趣的是,推理链监督和单轮GRPO反而会降低闭环控制中的表现——在复杂的空间任务中,AI并不能总是从“分析自己的思考过程”中获益,依赖实时试错的强化学习反而更容易陷入局部最优。

这些数据不仅揭示了当前AI在空间智能上的短板,也指出了可能的突破方向:从被动理解走向主动行动,需要更丰富的视觉历史建模,需要动作与感知的深度融合,也需要更合适的训练策略。TVRBench就像一面镜子,让研究者看清了地基模型在三维世界中的真实水平。当AI能够在虚拟房间里自如地复现任何一个视角时,我们离它真正理解并融入物理世界,也不再遥远。这是一个需要耐心和创造力的征程,但每一步踏实的实验,都在为未来铺路。

2026年6月3日

在零样本语音合成领域,扩散模型在VAE潜在空间或mel频谱图上运作,已成为主流范式。这些压缩表示虽提升了生成效率,却无可避免地遭遇信息损失和端到端训练缺失的困境。理论上,直接建模原始波形能避开这些问题,但这一方向始终少人问津——因为音频信号的序列长度实在太长了,仿佛一道天堑。

想象一下,你试图一笔一画地描绘整个交响乐团的演奏,而不是用简化的乐谱。这就是直接生成波形面临的挑战。但WavTTS团队偏偏选了这个看似不可能的路。他们提出第一个在原始波形上生成语音的TTS模型,凭借流匹配与扩散变压器(DiT)的巧妙结合,大胆地用简单的分块化策略直接建模波形,同时引入多尺度mel频谱图监督,在训练中提供感知层面的引导。这不再是黑箱压缩,而是让模型在原生空间中学习和创造。

更关键的是,他们深入研究了波形扩散中预测目标和噪声调度的作用,设计出有效调度方案来提升生成质量。实验在开源基准上展开,结果令人振奋:WavTTS不仅紧密追赶上当前最先进的潜在空间零样本TTS模型,更大幅超越了此前所有端到端语音生成模型。这证明,直接缩放扩散TTS到波形空间,不仅是可能的,而且可以走得很远。

每一步探索都在重写边界。或许,最直接的路,才是通往真实声音的捷径。

2026年6月3日

在好莱坞不少人对AI如临大敌时,奥斯卡获奖导演马丁·斯科塞斯却悄然跨出了一步。他公开了自己的新身份:AI图像初创公司Black Forest Labs的顾问,并发布了一段视频,展示他如何用该公司的FLUX模型为一部新电影绘制故事板。

斯科塞斯去年便与Black Forest Labs签约,成为其合作伙伴和顾问。他的使用场景很明确:仅用于电影前期制作的故事板,绝不生成演员、布景或实拍素材。当导演能瞬间将脑海中的画面变成可视化的分镜,并与团队共享,斯科塞斯称之为“创意上的解放”。在他看来,电影这门艺术还很年轻,只有约125年历史,“所以我们必须对它的进化保持开放”。

这条消息很可能刺痛好莱坞那些反AI的神经——毕竟斯科塞斯是这个行业中拥有传奇地位的标杆人物。但他的做法恰恰提供了另一种解读:AI不是要取代电影人的创意,而是辅助它,让前期预演更高效、更直观。对那些对全AI电影或AI工作室心存疑虑的电影人来说,这或许是一个更温和、更可接受的入口。

技术的意义不在于它多强大,而在于用它的人如何划定边界。斯科塞斯把AI当作一支新的铅笔,而不是一台替自己作画的机器。这种“有限度的拥抱”,或许才是创意行业与新技术共存的正确打开方式。

2026年6月3日

美国总统特朗普签署了一项行政令,要求开发前沿人工智能模型的实验室在发布前,自愿将模型交给政府进行为期30天的安全审查。这与此前预期的90天要求相去甚远。在5月21日计划举行签字仪式前的几个小时,特朗普废除了90天草案,他告诉记者,这一要求会“妨碍”美国与中国的AI竞赛。根据新令,实验室需在发布前30天内,通过一个保密流程标记“受覆盖的前沿模型”,这些模型被认为有能力发现安全漏洞。此前担任AI事务负责人的戴维·萨克斯曾反对最初的草案,但在审查窗口从90天缩短至30天后转变了立场。行政令还明确规定,新模型无需强制许可或批准,并指示司法部打击利用AI进行的计算机系统入侵。随着Anthropic的Claude Mythos即将公开发布,而GPT-5.6也可能具备类似能力,网络安全威胁变得非常真实且迫在眉睫。然而,这项行政令看起来更像是政府试图在AI前沿领域获得一个(自愿的)前排座位,而非真正解决潜在安全问题的手段。这场博弈的实质,是安全与速度之间的拉锯。当技术狂奔时,监管者既想抓住缰绳,又不敢勒得太紧。

2026年6月3日

在2026年的Build开发者大会上,微软掀起了一场全栈智能体AI的浪潮。这家科技巨头一口气发布了七款名为MAI的自研模型,覆盖推理、编程、图像、语音和转录等多个领域,开发者可以通过微软Foundry平台直接调用。更引人注目的是,微软推出了首个“自动驾驶”智能体——Scout,它基于OpenClaw架构,内置于Teams中,能主动执行会议安排、资料准备等任务。与此同时,量子芯片Majorana 2的亮相令人振奋——这款由AI辅助设计的芯片将可靠性提升了1000倍,有望将实用量子计算机的实现时间缩短至2029年。在硬件方面,微软预览了名为Project Solara的智能体设备平台,并展示了徽章和桌面伴侣等概念设备。继Surface Laptop Ultra之后,微软还推出了专为AI负载打造的迷你PC——Surface RTX Spark Dev Box。

这一切都发生在Nvidia的“大日子”之后——Build大会紧随其后的时间点显得意味深长。微软不仅延续了智能体的主题,还与Nvidia合作开发AI笔记本电脑和PC。凭借自研模型、自主智能体和专用硬件,微软正在摆脱OpenAI的阴影,开辟一条全新道路。当智能体不再只是聊天机器人,而是能主动替你安排行程、设计芯片、甚至成为你身上的徽章时,我们或许正站在计算革命的门槛上。问题是:谁将真正掌控这些智能体?微软的回答是Windows和Microsoft 365,但答案才刚刚开始书写。

2026年6月3日

胰腺癌,这个被称为“癌王”的恶性肿瘤,几十年来一直让医生和患者感到绝望。它极具侵袭性,传统化疗效果有限,靶向治疗更是屡屡碰壁。直到最近,一款名为daraxonrasib的口服小分子药物悄然登场,在500名患者的3期临床试验中,它首次将转移性胰腺癌患者的中位总生存期从化疗的6.7个月拉长到13.2个月,几乎翻了一倍。

这组数字背后是一个个真实的人生。参加试验的患者都是经过前线治疗后病情仍进展的难治性病例,而daraxonrasib作为每日一次的口服RAS抑制剂,交出了令人震惊的成绩单:死亡风险降低了60%,肿瘤无进展生存期从化疗的约3.6个月提高到7.2个月。更重要的是,约三分之一的患者用药后影像上肿瘤缩小超过30%,而化疗组这一比例仅约8%。副作用方面,daraxonrasib比化疗更温和,患者的耐受性明显更好。

这颗药的聪明之处在于精确打击。胰腺癌中约90%由KRAS基因突变驱动,而daraxonrasib恰恰是首个靶向KRAS蛋白活性状态的RAS(ON)抑制剂,相当于直接掐断癌细胞的“生长开关”。此前,KRAS突变蛋白被认为是“不可成药”的靶点,但近年来一系列进展正在改写这一认知。目前该药已获得美国FDA快速通道资格,并开放了扩大使用计划。

为什么这个突破如此重要?因为胰腺癌对靶向药物的抵抗已经持续了数十年。60%的死亡风险降低,是任何3期试验中从未见过的数字。更令人期待的是,相同的KRAS突变也存在于肺癌、结直肠癌等高发癌症中,这意味着daraxonrasib验证了一条全新的治疗路径,可能为更多癌种带来希望。当医学终于撬动那个最顽固的靶点,我们或许正在见证一个治疗时代的拐点。

2026年6月3日

苹果在可穿戴设备领域踩下了刹车。据彭博社马克·古尔曼报道,苹果将AI智能眼镜的发布时间推迟了大约一年,原本计划2026年底亮相、2027年初发货的“N50”眼镜,现在要等到2027年底才能面世。这款眼镜被设计成类似雷朋Meta风格的无屏幕轻量级AI伴侣,只有摄像头、麦克风和内置智能助手,没有显示屏。开发进度延误直接导致整个路线图后移。

推迟这一年对苹果来说是一把双刃剑——好消息是,公司能腾出时间把多模态AI做扎实,这是决定眼镜是“注定成功”还是“仅限尝鲜”的关键。坏消息是,Meta、谷歌以及一众可穿戴AI初创公司将获得更长的窗口期,在苹果带着自己的版本现身之前,它们可以更从容地巩固市场地位。

Siri的AI大升级预计在今年年底率先登场,但苹果显然在承认,视觉AI技术尚未成熟到能让眼镜产生“魔法般”的体验。这一年多的等待,意味着Meta和其他所有“戴在脸上的AI”创新者将拥有一条宽阔的起飞跑道,直到苹果姗姗来迟。当巨头放慢脚步时,整个赛道的节奏却不会为任何人停留。

2026年6月3日

当其他车企还在为自动驾驶事故的责任归属争论不休时,比亚迪做出了一个大胆的决定——为旗下“天神之眼5.0”驾驶辅助系统引发的碰撞事故买单。这家中国电动车巨头宣布,只要驾驶员合法使用城市领航辅助功能(Urban Navigate on Autopilot),即便系统判断失误导致事故,比亚迪也将承担车辆维修、第三方财产损失和人身伤害的全部费用。这在中国乃至全球汽车行业都堪称首次。

比亚迪的底气来自其庞大的数据王国:目前超过315万辆汽车搭载了高级驾驶辅助系统,每天通过“天神之眼”采集的行驶数据超过1.24亿公里。这相当于每天绕地球3100圈的数据量,让比亚迪能够不断训练算法、优化决策。更重要的是,公司并非首次尝试这种“责任承诺”——去年,当它为智能泊车功能推出类似保障后,该功能的使用率从21%飙升至93%。这证明了消费者对“有保障的自动化”的强烈渴求。

相比之下,其主要竞争对手特斯拉仍坚持将事故责任完全归于驾驶员,多次在Autopilot相关事故中质疑自身责任。在中国电动车企业不断在续航、充电速度和智能功能上缩小差距的当下,比亚迪此举直接切入消费者最深的焦虑:如果机器犯错,谁来买单?

这不仅是营销层面的创新,更是一场关于信任的革命。当一家车企愿意为“人工智能的失误”提供财务背书,它实际上是在说:我们相信自己的技术,并且愿意为这种信任承担后果。如果这一策略奏效,它可能彻底改变消费者对自动驾驶的预期,同时把竞争的压力抛回给特斯拉等对手——因为它们可能被迫重新评估自己的责任立场。

责任从不是技术的敌人,而是它走向成熟的通行证。当一辆车上的“眼睛”能看清道路,背后的公司也要敢于承担它“看不见”的风险。

2026年6月3日

在Computex展厅的聚光灯下,微软悄然揭开了一款名为Surface Laptop Ultra的笔记本,这不仅是微软史上最激进的硬件,更承载着Windows阵营在高端市场挑战苹果的野心。它搭载了Nvidia专为AI时代打造的RTX Spark平台——一个集成了20个ARM CPU核心、6144个CUDA核心的Blackwell GPU以及最高128GB统一内存的“超级芯片”,整体AI算力达到Petaflop级别。这意味着,创作者可以同时运行3D渲染与AI模型推理,开发者能无缝切换大模型训练和数据预处理,而所有内存都在CPU和GPU之间动态共享,不再有传统分离式内存的瓶颈。

屏幕是另一个亮点:15英寸的mini-LED PixelSense Ultra触控屏,峰值HDR亮度飙升至2000尼特,让HDR视频编辑和户外使用都游刃有余。微软将这款设备定义为“为创作者、开发者和AI构建者而生”,而它确实在硬件上给出了回应——但价格仍是悬念。分析师预测其起步价将在3000美元左右(对标MacBook Pro 16),顶配版本可能高达7000美元,这无疑将考验主流用户的承受力。

随着华硕、宏碁、戴尔等品牌也陆续推出RTX Spark机型,Windows on ARM的高端赛道已然开启。微软的这张牌能否让创作者告别苹果的生态?或许答案并不在于参数本身,而在于当AI算力变得如水电般日常时,谁能提供更无缝的工作流和更开放的工具生态。毕竟,一场竞赛的胜负,往往在起点之外。

2026年6月2日

今年3月,Meta做了一个大胆的决定:让AI助手拥有处理Facebook和Instagram密码重置的权限。这个看似提升效率的举动,却成了黑客眼中的“金矿”。黑客发现,只需在AI客服对话框里简单要求更换邮箱地址,AI便会乖乖发送验证码到新邮箱,整个过程就像点餐一样轻松。

一场针对知名账户的猎杀就此展开。黑客人通过切换VPN伪装成目标所在地区,然后向AI客服请求密码重置和邮箱更改。AI毫无防备地发送了验证码,黑客轻松接管账户。前总统奥巴马的休眠账户、美妆巨头丝芙兰、甚至太空军高官John Bentivegna的账户纷纷沦陷。更令人震惊的是,这些账户在几分钟内就被转手卖掉,黑客几乎不用费什么力气。

这个漏洞持续活跃了数月。直到媒体404报道后,Meta才承认问题“已得到解决,我们正在保护受影响账户”。但安全专家指出,这绝不是AI客服第一次出问题,也不会是最后一次。真正令人担忧的是,像Meta这样拥有前沿AI雄心的科技巨头,竟然将整个客服系统交给一个如此容易被利用的对话机器人。

黑客不需要复杂的黑客技术,不需要破解代码,甚至不需要任何编程知识。他们只需要会说话,会提问。当AI被赋予关键权限时,一句简单的“帮我换个邮箱”就能捅破天。这提醒我们,技术越是智能,安全防线就越不能想当然。有时候,最危险的漏洞不在于代码有多复杂,而在于我们对AI的信任有多盲目。

2026年6月2日

在美国版《纽约时报》的一篇专栏文章中,参议员伯尼·桑德斯提前披露了一项即将提出的法案——《美国人工智能主权财富基金法案》。核心设想简单而激进:要求OpenAI、Anthropic和xAI等顶级AI公司,将50%的股票上交国家,成立一个公共基金,并将投资收益以现金形式直接发放给每一位美国人。

桑德斯将这一提议描述为“以股权形式征收的一次性税款”。政府将因此获得这些AI公司的投票权,并能在其董事会中占据席位。他引用AI实验室自身的先例作为佐证——它们此前曾主动向公众游说,承诺通过“全民高收入”等方式来分配AI带来的巨大收益。但桑德斯的方案更为直接:与其空谈,不如直接让民众成为股东。

为了证明可行性,桑德斯搬出了两个现实模板:挪威因石油资源建立的2万亿美元主权财富基金,以及美国阿拉斯加州将石油收益分红给居民的做法。他写道:“AI正在建立在一个远比石油更有价值的公共资源之上,那就是人类积累的知识、创造力和劳动。”

这一提议的背景耐人寻味。当前,公众对AI的普遍情绪正处于低谷,而顶级AI实验室的超级IPO(首次公开募股)估值高得惊人,普通投资者几乎无法参与其中。桑德斯担心普通人并未从AI浪潮中受益,这并非杞人忧天。然而,尽管姿态动人,要让这些羽翼渐丰的AI巨头心甘情愿交出50%的股权,恐怕是另一个完全不同的问题。

或许,我们正站在一个十字路口:要么让少数人凭借人类共同的知识遗产一夜暴富,要么尝试用民主手段将这份财富重新分配给所有人。桑德斯的提案像一颗石子投入平静的湖面,激起的涟漪远比答案本身更值得深思。

2026年6月2日

在COMPUTEX 2026的聚光灯下,Nvidia一口气抛出了一连串AI新品,从硬件到模型,从机器人到自动驾驶,所有动作都围绕着同一个核心预言:AI代理即将成为计算资源的头号消费者。这家市值超过5万亿美元的芯片巨头,正在将自己的整个产品线重新编排,去服务一个两年前还不存在的软件类别。

首先登场的是与微软合作打造的RTX Spark超级计算机芯片,它能把AI代理直接搬到个人电脑上运行。Nvidia宣称,这项技术让Windows系统“从工具变成了队友”——你的电脑不再只是等待指令的机器,而是能主动协作的伙伴。紧接着,Nvidia发布了名为Vera的处理器,并直接将其称为“代理的CPU”。官方数据显示,Vera执行任务的速度比竞争对手快1.8倍,目前已经被Anthropic、OpenAI和纽约证券交易所采用。它不只是一颗芯片,更像是为AI代理量身定制的思考引擎。

在机器人领域,Nvidia推出了开源模型Cosmos 3。传统的机器人和自动驾驶汽车往往只能对突发情况做出被动反应,而Cosmos 3赋予了它们提前规划、预判动作的能力——就像一位老司机能提前看出路口可能会窜出自行车,而不是在最后一秒才急刹车。这种从“反应”到“预判”的跨越,或许会彻底改变机器人应用的边界。

最后,Nvidia在模型战线上亮出了Nemotron 3 Ultra。这是一个拥有5500亿参数的开源大模型,直接登顶美国开源模型排行榜,并与中国的Qwen3.5、Kimi K2.6等强劲对手展开正面竞争。在开源社区和商业应用的交叉点上,Nvidia选择了一条开放但竞争激烈的路。

从芯片到系统,从模型到生态,Nvidia似乎在说:未来不属于单纯的计算机,而是属于那些能在计算机上自主行动、替人办事的代理软件。一家公司不可能在所有技术栈上都做到极致,但Nvidia正在尝试搭建一条从底层算力到上层应用的完整通路。当计算需求的主体从人类用户变成数字代理,万亿级企业的全部身家押注在一条尚未完全成型的赛道上——这种孤注一掷的姿态,本身就值得所有人认真审视。

2026年6月2日

想象一下,你是一名新入职的客服主管,需要快速掌握一位顶级客服专家的全部经验——他如何处理投诉、何时坚持底线、哪句话能平息怒火。这些知识从未写成手册,而是散落在成百上千通电话录音、邮件回复和内部备忘录里。你只能自己听录音、读邮件,在碎片中拼凑出那位专家的“习惯性反应”。这不仅是新员工的困境,更是当前AI智能体面临的核心难题:它们能完成孤立的任务,却很难承载属于特定人的判断、经验与互动风格。

现有方案各有残缺:记忆系统只保存零散片段,人物设定模块(persona)又过于抽象,而技能框架虽有标准格式,却缺少一套完整流程,把那些零散的“痕迹”提炼成可检查、可修正、可直接调用的技能。这正是本文介绍的开源系统所要解决的问题——它提供了一条从“痕迹”到“技能”的全自动蒸馏工作流。

系统的工作方式颇具巧思:给定目标人物或角色的原始材料(如聊天记录、决策日志、反馈历史),它自动生成一个带版本号的技能包。这个技能包包含两条并行的轨道:一条是“能力轨道”,专门承载实践中积累的方法、思维模型和决策启发性原则;另一条是“边界行为轨道”,负责记录沟通风格、互动规则和犯过的错误及其修正记录。两条轨道共同构成一个既完整又可追溯的技能蓝图。

这个技能包不是一次性的静态产物。它能被检查、调用,也能通过自然语言反馈进行更新,甚至可以如软件版本管理般回滚到旧版。它还可以跨智能体主机安装,并可选地做好受控分发的准备。换言之,一个凝聚了专家长期经验的技能包,变得像一只可以随时更新、随时装到不同设备上的U盘。

系统背后有清晰的构架支撑,包括技能工件契约、生成工作流、修正生命周期、部署界面以及在多个领域预设的模板。发布至今,公开仓库已有约18.5k颗GitHub星;技能画廊里陈列着来自165位贡献者的215项技能,所有技能卡累计获得超过10万颗星。

这个系统最值得玩味的,是它对AI智能体构建哲学的一个微妙颠覆。过去我们习惯把专家的“秘密”塞进隐晦的提示词或深藏在参数里的记忆隐向量中,而它选择把这些知识包装成可移植、可修正、可审计的文档包。这背后暗示着一个更有趣的可能性:当AI不再以神秘的黑盒方式“假装”像某个人,而是拥有一个可以翻开修改的“说明书”时,人与AI协作的透明度与信任感将走到哪一步?答案或许就藏在每一版技能包的更新日志里。

2026年6月2日

摘要:

为什么更大规模的模型能学会那些小模型永远无法掌握的任务?这不仅是实践中的常识,更是一个令人困惑的科学谜题。一个直观的猜想是,更大模型的参数更多,自然能容纳更多知识。但事情远没有这么简单——即便在训练数据无限的情况下,小模型依然会漏掉某些任务。这背后隐藏着一个以数据为核心的竞争机制。

研究表明,这种能力差异首先与数据的“频率”和“复杂度”有关。小模型就像一个资源有限的团队,它们会把有限的神经元优先分配给出现频率高、复杂度低的任务,因为这些任务在数据中占主导地位,梯度信号更强。于是,小模型在学习过程中会“忽视”那些罕见或复杂任务,甚至当表达这些任务所需的解在模型容量内存在时,它们仍然会失败。这种因数据分布导致的资源竞争,使得小模型只能学会“容易”的任务。

那么,大模型是如何绕过这一瓶颈的呢?答案在于“干扰减少”机制。当模型规模扩大时,它能为常见任务分配足够多的神经元,以至于这些任务对应的梯度更新变得非常微弱——它们不再频繁地“覆盖”掉那些代表罕见任务的特征。换句话说,大模型为稀有任务留出了“生存空间”,让这些特征在训练过程中缓慢积累而不被频繁的更新所抹去。这种机制使得大模型不仅能学会常见任务,还能学会那些小模型永远无法掌握的罕见且复杂的任务。

为了验证这一理论,研究团队设计了合成数据实验,模拟了一组混合任务,这些任务呈现出单调的缩放曲线。随后,他们进一步在真实的OLMo模型(从4M到4B参数)上进行了预训练,引入了具有不同频率和复杂度的新任务。实验结果与合成数据完全吻合:只有更大的OLMo模型学会了那些低频且复杂的任务,并且这些大模型在表示中嵌入了更多任务特征,它们在不同任务之间的梯度干扰也更小。

这些发现揭示了一个反直觉的事实:大模型的能力提升,并非单纯因为参数多,而是因为它们能更有效地应对数据分布中的“不公平竞争”。在无穷的训练数据下,模型的规模决定了它能触及的“知识半径”——小模型只能半径内高频简单的任务,而大模型则能延伸到那些被忽视的角落。这为实践中如何选择模型大小、如何设计训练数据混合比例提供了新的思路。

所谓“大”与“小”,不只是参数数量的差异,更是对数据资源分配策略的根本不同。当数据成为稀缺资源时,规模本身就是一种公平。

2026年6月1日

这本书像一位耐心的导师,带领读者穿越生成式人工智能的数学丛林。它的目标不是罗列所有最新架构或实现细节,而是梳理出一条连贯的路线——从主成分分析(PCA)、概率PCA,到变分自编码器、扩散模型,再到归一化流、自回归分解、生成对抗网络(GAN)、Wasserstein GAN,以及基于能量的模型。作者相信,只有理解了这些模型如何被推导、如何相互关联,才能真正掌握生成建模的结构。

全书以推导为导向,力求在不牺牲数学实质的前提下,让理论变得可及。比如,你会看到PCA如何演变为概率PCA,后者又如何为变分自编码器铺路;扩散模型与归一化流在数学上如何呼应;GAN的对抗训练与基于能量的模型有怎样的深层联系。每一个环节都紧扣“生成”这一核心——从数据中学习概率分布,再从中采样出新样本。

这本书最适合那些对数学好奇的研究者、从业者和学生。它不追求面面俱到,而是用紧凑的篇幅,为读者搭建一座稳固的知识地基。当你合上这本书时,你得到的不是零散的公式,而是一张完整的生成模型思维网络——知道每条路从哪里来,通往何处,以及为什么这样走。

在这条数学路线上,每一步推导都是一次理解,每一个模型都是一扇门,推开它,就能看见生成式AI最底层的逻辑之美。

2026年6月1日

一个程序员深夜调试代码时,总希望有个搭档能读心。Mellum 2正是为此而生——这是名为“Mellum 2”的12B参数混合专家语言模型,每次推理仅激活2.5B参数,专攻软件工程。它是4B密集模型Mellum的进阶版,能完成代码生成、编辑、调试、多步推理、工具调用、代理编码和对话式编程辅助。架构上,它采用64个专家(每次激活8个)的MoE设计,结合分组查询注意力(4个KV头)、每四层中有三层使用滑动窗口注意力,以及一个多token预测头——它既作为预训练的辅助目标,又作为投机解码的内置草稿模型。这些选择都经过消融实验验证,并优先考虑在消费级GPU上的推理效率。

预训练数据量高达约10.6万亿token,分三阶段进行:从多样化网页数据逐渐转向精选代码和数学内容。使用Muon优化器配合FP8混合精度,并采用预热-保持-衰减的学习率调度,最终线性衰减至零。预训练基础模型通过层选择性YaRN扩展到128K上下文窗口,随后进行两阶段后训练(监督微调加RLVR),最终推出两个变体:直接回答的Instruct模型和先输出推理链再给出答案的Thinking模型。

在代码生成、数学推理、工具使用、知识问答和安全基准测试中,Mellum 2与4B至14B参数区间的开源基线模型不相上下,而运行时消耗仅相当于2.5B密集模型。项目以Apache 2.0许可证开源了基础版、Instruct版和Thinking版检查点,并附上架构决策、数据流程和训练方法的详细报告。

这个模型的大小只是一个开始。当人工智能的算力持续向“小而精”的方向演进,我们能期待的不仅是一个更好的编程帮手,更是对知识边界更高效的探索。

2026年6月1日

在机器人强化学习的赛道上,一个根深蒂固的“常识”是:物理引擎必须跑在GPU上,才能换来足够快的训练速度。几乎所有主流方案都把仿真、数据收集和学习绑在同一根GPU执行线上,像一条高速但昂贵的单行道。然而,一群研究者决定拆掉这条默认的轨道。他们追问:效率的瓶颈真的在于物理引擎的处理器归属,还是整个训练循环的同步和吞吐?

答案藏在UniLab里——一个异构的CPU-仿真/GPU-学习架构。它不追求把物理塞进GPU,而是让CPU集群并行跑仿真,通过一个统一运行时来协调数据搬运、缓冲和同步,把仿真和GPU上的策略更新优雅地解耦。UniLab并非空中楼阁:它构建在MuJoCoUni和MotrixSim这两个CPU批处理物理引擎之上,并内嵌了PPO、FastSAC、FlashSAC、APPO等多种主流算法。

在标准的机器人控制任务中,这个看似“倒退”的设计交出了惊人答卷:相同硬件配置下,端到端训练效率提升了3到10倍。更值得玩味的是,它大幅降低了对NVIDIA CUDA生态的依赖——UniLab可以流畅运行在Apple macOS平台,甚至适配AMD ROCm和Intel XPU加速后端。这意味着,GPU仿真是一条高效的路径,但远非唯一路径。

当一项“常识”被重新审视,往往意味着更广阔的选择正在打开。对于机器人RL的工程实践来说,问题的核心从来不是“谁跑物理”,而是“整个系统转得多快”。UniLab用一种轻巧的方式提醒我们:有时候,把鸡蛋放进不同的篮子,反而能让火车跑得更快。

2026年6月1日

大语言模型面对长篇文本时,常常迷失在庞杂的干扰信息中,无法定位并整合关键线索。现有强化学习方案虽带来希望,却依赖低混淆度的干扰物,且只用最终答案对错作为奖励信号,无法监督中间推理步骤——就像只给考生判卷而不指出哪步逻辑出了错。

研究团队从构建更“刁钻”的训练场景入手:他们利用知识图谱随机游走生成需要多跳推理才能回答的问题,再让搜索智能体实地检索,记录下完整轨迹。关键创新在于将轨迹中的文档分成两类——“读过但不引用”的高混淆度干扰物,以及“出现在搜索结果但从未打开”的低混淆度干扰物。这样构造出的训练上下文,远比随机抽样或单一搜索得到的场景更具挑战性。

更精巧的设计在于奖励机制:他们提出一种基于“暗码”的细粒度过程奖励,沿着每条推理链条上的关键实体设置监督信号。但这份奖励只给予最终答案正确的响应(即“只奖正确”策略),以此区分正确响应之间的推理质量差异,同时防止模型钻漏洞取巧。实验在四种推理模型(参数量从4B到30B)和五个长上下文基准上展开,结果显示LongTraceRL始终优于强基线方法,并显著促进了基于证据的全面推理。

长上下文推理的困境,本质上是模型在“信息海洋”中寻找“真相岛屿”的能力问题。当干扰物从简单背景升级为精心构造的迷雾,奖励信号从泛泛的对错变为实体级的精细导航,我们或许正在见证一个更理性的推理时代:不是让模型记住更多,而是让它学会在无关信息中准确筛选出关键证据。

2026年6月1日

长期以来,3D视觉理解领域被复杂的专家模型所垄断,它们需要专门的设计、庞大的参数量以及繁琐的损失函数。然而,一项大规模研究揭示了一个颠覆性的发现:视觉语言模型(VLM)本身就是天生的3D学习者,无需任何架构上的大动干戈。

研究者首先点出现状:虽然VLM在语义理解上表现出色,但3D理解仍高度依赖为特定任务定制的专家模型。他们提出一个核心论点——VLM本质上具备3D学习能力。为了验证这一点,团队进行了深入的大规模实验,最终提炼出三个关键要素:焦距统一、基于文本的像素参考,以及数据混合与缩放。这三点就是实现高效3D学习的全部秘诀。

令人惊讶的是,那些被认为不可或缺的条件——如模型架构改动、使用大模型、强数据增强、以及基于回归公式的复杂损失函数——实际上并非必要。相反,只要采用最简单的设计,标准VLM就能驾驭多种3D任务。研究者将这个可扩展的方法命名为VLM3。

VLM3的成效显著:在深度估计精度上,它将基线从0.84大幅提升至0.9;更重要的是,它还解锁了像素对应、相机位姿估计和物体级3D理解等多样任务,性能与专家模型持平,却保留了标准架构和纯文本训练范式。这项研究为3D学习开辟了一条全新路径:简单、可扩展,且无需抛弃VLM的核心优势。

在这条新路上,我们或许应当重新审视那些我们习以为常的复杂设计——有时候,最天真的方法反而最接近事物的本质。当模型学会“看”世界时,也许它本就不需要那么多拐杖。

2026年6月1日

统一多模态模型(UMM)一直梦想用单一模型同时搞定图像理解和生成,但现实很骨感——几乎所有现有方案都离不开一个冻结的、预训练的VAE(变分自编码器)来帮忙生成图像。这就好比让一个全才学生先修一个独立的绘画模块才能画画,既笨重又效率低。
问题在于,如果直接扔掉VAE,模型得从原始像素学所有东西:高层结构(比如“这是一只猫”)和低层细节(比如明暗、纹理),训练质量会急剧下降。
研究人员提出一个新技巧叫“表示强制”(Representation Forcing,RF)。它的思路很巧妙:让解码器先自回归地预测视觉表示——也就是把图像理解阶段输出的“高级特征”当作中间令牌,这些令牌留在模型上下文里,然后引导同个背板内的像素扩散生成。这么一来,生成过程不再需要外部创造的潜在空间(比如VAE的压缩空间),而是让模型自己进化出预测表示的能力。
效果相当亮眼:在图像生成上,使用RF的像素空间模型能匹配基于VAE的顶尖统一模型;在图像理解上,它通常还更胜一筹。这意味着RF不仅消除了结构瓶颈,还同时提升了理解和生成。
这背后是对“端到端”理念的一次务实推进——不让模型绕道去学压缩后的潜在空间,而是把感知和生成放在同一套表示体系里。就像是让画家边观察边画,而不是先把画面记在脑海某块独立画板上再临摹。结果证明,这种“原生”能力反而更全能。
当我们不再依赖外部拐杖,模型可能会找到更聪明、更直接的方法去理解并创造世界。这一进展提醒我们,真正的统一或许从来不在于拼装多个模块,而在于让核心任务本身长出翅膀。

2026年6月1日

在伦敦,一家名为Inherent Labs的初创公司悄然结束了隐身模式,带着5000万美元的融资和一份雄心勃勃的计划:让AI不再只是回答问题,而是主动帮科学家找到更值得研究的问题。

这家公司的核心团队来自谷歌DeepMind——坦图姆·柯林斯、爱德华·休斯和路易斯·基尔希都曾在那个顶级AI实验室工作,另一位联合创始人卡洛扬·亚历克西耶夫则来自Reka AI和微软。这样的背景让Inherent Labs一出现就吸引了行业目光。

他们正在搭建一个名为Faraday的平台,核心逻辑听起来像科幻:让一个能够自我改进的AI系统与科学家并肩工作,但这个系统的任务不是简单地回答科学家的提问,而是主动扫描、评估并识别出那些更具价值的科学问题。换句话说,它想把科研的方向盘从人类手中分出一部分给AI。

更颠覆性的想法在于,Inherent Labs计划把这种“递归自我改进”的逻辑应用到整个研究组织——不仅是AI模型的训练过程,还包括智能体的训练、资源配置,甚至所有研究决策。这意味着整个实验室本身就是一个不断自我优化的“闭环系统”。

团队还在探索一个被称为“AI品味”的概念:当研究过程越来越多地由人机协作驱动时,如何定义和衡量AI在科学研究中的判断力?什么样的科学问题是值得AI去“推崇”的?人类和机器又该如何最优地分工合作?

这些思考并非空中楼阁。自我改进型AI已经成为许多顶级AI实验室和新融资初创公司的核心课题,而Inherent Labs为这个赛道增添了一支血统纯正的新队伍。不同之处在于,他们选择用递归的逻辑去重塑科学本身——不是让模型迭代,而是让整个科研组织成为进化回路中的一环。

当AI开始帮助科学家决定“研究什么”,而不是仅仅“如何研究”,科学发现的节奏或许会迎来根本性的改变。这不再只是工具升级,而可能是一场研究范式的迁移。

2026年6月1日

在纽约,一个名叫Shift的应用程序刚刚推出了一项令人心动的服务——免费的家庭清洁。但别急着欢呼,因为每一次打扫都隐藏着一个秘密:清洁工佩戴着头部摄像头,全程记录下自己的每一个动作。这些第一人称视角的视频并非用于监控,而是成为AI实验室的珍贵训练数据。换句话说,你享受的免费清洁,其实是机器人在“偷师”人类如何做家务。

这家由德国初创公司MicroAGI打造的Shift应用,最近在纽约市开启了这一实验。一位经过背景审核的清洁工会准时上门,头上戴着联合创始人Bercan Kilic称之为“魔法帽子”的摄像头,以第一人称视角拍摄大约两小时的家务劳动。尽管服务是免费的,但这些人类录制的视频对于机器人制造商来说价值远超清洁成本——Shift正是靠出售这些数据盈利,同时还能覆盖服务开支。

这并非Shift第一次涉足数据采集。其官网显示,公司已向全球各地的人支付每小时20美元的报酬,让他们拍摄各种日常琐事。仅仅今年第一季度,公司就为此支出了超过500万美元,涉及的任务五花八门。Shift的总经理Harry Kilberg表示,纽约的免费清洁服务一经推出就收到了“成千上万的预订”,而接下来,伦敦、慕尼黑和苏黎世将成为下一批目标城市。

这一切背后是AI训练数据的来源正在发生根本转变。就像DoorDash曾要求外卖骑手在送餐时捕捉任务数据一样,下一波AI数据集将不再来自互联网的爬虫,而是普通人的真实工作。而Shift将这种模式更深地推入了家庭:在这里,人们既是享受免费服务的客户,也是教机器人如何逐步替代自己工作的“劳动力”。

当你在家中享受免费清洁时,摄像头的每一次转动都在为AI积累经验。这听起来像是科技乌托邦,但也让人不禁思考:当机器人学会了一切,我们是否还能得到那片免费的午餐?或者说,那顿午餐的代价,早已在不知不觉中支付了。

2026年5月31日

长期以来,衡量语言模型代理系统的表现总是看它用了多少资源——调用了多少次工具、花了多少成本、消耗了多少时间。但一个残酷的现实是:同样是花一千美元,有的代理能做出完美预测,有的却连简单任务都搞砸。原因很简单,太多反馈是冗余的、不稳定的,甚至是有误导性的。科学家们终于找到了一个更聪明的解法:别数你花了多少,而是看你花得有多智慧。

在最新的研究中,团队提出了一个名为“有效反馈计算”(EFC)的指标。它的核心逻辑非常直接:只有那些真正被代理采纳、且能帮助它做出更好决策的反馈,才被算作“有效”。它不像传统方法那样去统计原始token数量或工具调用次数,而是沿着代理的每一步执行轨迹,仔细甄别哪些反馈真正起了作用,哪些被浪费了。

为了验证这个想法,研究设计了多场对照实验。首先是合成可控任务:当只计算原始token和工具调用次数时,对失败率的预测能力非常有限,解释率R²分别仅为0.33和0.42。而一个多变量统计基线SAS能达到0.88。但一旦采用EFC指标,表现立刻爆发:Oracle-EFC(基于完美信息)的R²达到0.94,而将EFC除以任务需求(D_task)后,竟然飙到了0.99。这意味着,几乎所有的失败变异都可以被这个经过调整的指标解释。

更惊人的是一组预算匹配干预实验:在保持原始成本和工具调用次数完全不变的前提下,只是改变了反馈的质量。结果,成功概率从0.27直线飙升到0.90。这说明,同样的资源消耗下,代理的成败几乎完全取决于反馈本身是否有效、是否被保留使用。

研究随后转向真实世界。在包含多种代理执行轨迹的混合数据集中,原始计算指标几乎失效——有些甚至出现负的R²。而NRS-EFC/D_task仍然保持了0.92的高预测能力。更关键的是,在完全未见过的预留测试集上,这个指标依然获得了0.85的R²,遥遥领先于所有对手。

这些数据揭示了一个深刻的道理:代理系统的规模化增长,主导因素不是算力投入的多少,而是如何把原始预算高效转化为持久的、足以支撑任务完成的反馈。也许,未来的AI发展不再比拼谁更强,而是比拼谁更会“听”。

2026年5月31日

想象一下,你正在教一个学生解一道复杂的数学题。如果这位学生每一步都写出来——先列等式,再化简,最后计算——这就像“显式推理链”;如果他跳过几行直接写出简化解法,那就成了“组合推理链”;而如果他只给出最终答案,连中间步骤都省略,那就是“隐式推理链”。大型语言模型如今也能通过类似的长链推理解决棘手问题,但每一次思考都需要消耗大量的“token”——也就是计算资源。如何在保持推理质量的同时节省成本?监督微调(SFT)中经常使用的压缩推理数据或许是一个方向,但它的秘密机制却鲜有人知。

为了揭开这层面纱,研究者构建了一套合成组合推理任务,可以灵活控制题目难度、压缩粒度和数据规模,并在不同模型家族和尺寸上展开了一系列实验。他们发现了四个关键现象。第一,越粗的压缩——也就是组合推理链或隐式推理链——需要越多的监督微调数据才能达到相近效果;而显式推理链反而对数据量不那么敏感。第二,随着数据量增加,组合推理链和隐式推理链的性能提升幅度明显大于显式推理链,但两者内部存在差异:组合推理链从重复使用数据中受益更多,而隐式推理链则更容易陷入死记硬背的陷阱。第三,当监督微调结束后,再用可验证奖励对模型进行强化学习(RLVR)时,模型会自动将之前学到的压缩步骤分解还原——原本看似内化的逻辑被重新“展开”。第四,在更长序列的推理任务中,单向推理链的顺序安排比多向顺序更有利于泛化。

这些发现对实际应用具有重要启示:如果你的数据资源有限,显式推理链可能是更稳妥的选择;如果能收集大量高质量数据,组合推理链能更高效地提升性能;而强化学习可以弥补压缩带来的信息损失,但前提是你已经提供了正确的基础。在推理链的设计中,没有绝对的优与劣,只有资源与目标之间的权衡取舍。就像教学中的板书,有人喜欢详尽的推导,有人偏爱精炼的提示——哪一种更有效,取决于你手里有多少粉笔,以及学生需要走到多远。

2026年5月30日

随着视觉生成模型日益强大,一个关键瓶颈浮出水面:哪里去找足够大、足够稳定且合法可用的训练数据?近日,一个名为GPIC的巨量图像数据集给出了答案。这个由约28万亿像素构成的“图像帝国”,包含了1亿张训练图像、20万张验证图像和100万张测试图像,全部来自互联网,并经过最先进的视觉语言模型精心标注。更关键的是,所有图像均采用宽松许可证,允许研究者和企业自由使用——无论是做实验还是搞商业应用。数据安全方面,GPIC经过了过滤和去重处理,并统一托管在Hugging Face平台。为了推动行业标准,团队还同步发布了基于GPIC的基准测试协议,以及一套在像素空间进行流匹配的参考基线模型。数据集、基准和模型代码现已全部开源。这项工作的意义在于,它第一次为视觉生成领域提供了能够与自然语言处理中的大规模语料库相媲美的公共数据资源。当天下所有可得的图像都被打上标签、整理成册,真正的大门才刚刚开启——这不是终点,而是一个新纪元的起点。

2026年5月30日

图像生成正迎来一场革命。过去,AI画家像个昏昏欲睡的魔法师,只会笨拙地重复“改写提示词”的循环,永远无法直接触碰画布。但现在,GenClaw来了——一个全新的代码驱动智能体,让AI像人类艺术家一样创作:先构思,再草绘,最后着色。

这个系统的秘密武器是什么?代码。不仅是结果,更是过程。智能体首先通过搜索和推理构建概念知识,然后利用HTML、SVG等代码渲染出可执行的视觉草稿,最后才交给图像生成模型补充纹理、材质和真实感。整个过程就像一场精心编排的交响乐:代码充当了可控制的中介画布,将语言推理的精确性与生成模型的视觉表现力巧妙结合。

想象一下:你不再需要反复修改提示词来让AI理解你的意图。GenClaw让每一步都清晰可见——从最初的铅笔草图,到最终的数字油画。这不仅仅是技术升级,而是从根本上改变了人与AI的协作方式。

最令人振奋的是,这个过程打破了传统黑箱模型的神秘感。每个阶段都可解释、可控制。当AI创作时,你不再只能等待最后的结果,而是可以随时介入,调整任何一个环节。

GenClaw用代码作为画笔,在语言与像素之间架起了一座桥梁。它告诉我们:真正的创造力,从来不是一次性的魔法,而是可以拆解的、可以理解的、可以与人共同雕琢的过程。这或许正是未来视觉生成系统该有的样子——既强大,又透明。

2026年5月30日

近年来,前馈式3D重建Transformer的规模已膨胀至超过十亿参数,遵循着计算机视觉中模型容量不断增长的普遍趋势。然而,新兴证据表明,连续的Transformer层往往表现得像是重复应用相似的操作,而多视图重建Transformer会在解码器深度上逐步优化其预测。论文作者提出,模型深度在某种程度上是用迭代换来的,但这种迭代是以独特参数的低效为代价的——于是,他们决定把这种迭代显式地嵌入架构中。

他们的模型名为DéjàView,其核心思路出奇地简单:将一个单一的循环Transformer块反复应用于每视图特征,进行K步细化。训练只需一次,而K则成为了一个可以在推理时调节的“计算旋钮”。在涵盖室内、室外、物体中心和驾驶场景的五个重建基准上,DéjàView以更少的参数和相当或更低的计算量,匹配甚至超越了那些规模大得多的前馈基线。更关键的是,在相同的训练数据和计算预算下,这种循环块方案的表现优于一个拥有独立每步参数的完全相同的变体版本——这表明,显式的迭代不仅仅是一种用计算效率替代模型容量的手段,它为多视图3D重建提供了一种更强的归纳偏置。

在这个参数膨胀成风的研究领域,DéjàView用一个循环和一把旋钮,证明有时少即是多:真正的力量不在于堆叠更多的层,而在于学会如何聪明地重复利用已有的每一步。

2026年5月30日

生成式模型从扩散模型到大语言模型,虽然性能惊人,却代价不菲:它们需要比生物学习系统多出几个数量级的训练数据。与此同时,一种另类范式悄然兴起——让网络学习预测自身对相关视图或遮蔽区域生成的潜在表征,就像data2vec和JEPA所实践的那样。这一思路与大脑皮层中的预测编码理论不谋而合。尽管实证结果亮眼,但这些方法背后的理论根基依然模糊。几个核心问题悬而未决:预测潜在表征究竟能在多大程度上提升数据效率?将这些方法堆叠成多尺度层级结构,是否真有额外好处?一项新研究通过一种清晰可解的概率上下文无关文法——这种文法的生成过程恰好捕捉了自然语言和图像的组合结构——给出了回答。

在这种文法中,一串可见标记通过沿着深度为L的隐符号树递归应用生成规则而诞生。对于这类数据,无论是监督学习还是令牌级别的自监督学习,要想恢复那棵隐树,所需样本数量竟随L呈指数级增长。但研究团队证明:潜变量预测方法只需与L无关的样本量(仅与对数因子有关)就能达成目标。这一结论得到了三重验证:第一,一个层次聚类算法;第二,一个端到端神经网络,其中的预测-聚类模块在每一级通过梯度下降自行预测自己的潜在表征;第三,也是首次对data2vec进行样本复杂度分析——分析表明,data2vec本质上已在执行一种隐式的层次化潜变量预测。由此看来,像H-JEPA那样的显式堆叠机制,很大程度上是多余的。

学习效率的鸿沟不在于算力多寡,而在于能否学会在更抽象的层次上自我提问。当模型不再被动记忆每一个表皮符号,而是主动预言更深层的结构时,数据不再是燃料,而成了路标。

2026年5月30日

在人工智能的浪潮中,大型语言模型(LLM)已成为核心范式,但驱动其运作的注意力机制,其计算内核多年来始终未变。传统的Softmax注意力基于“局部常数估计”,如同用简单的平均来概括复杂关联。而“局部线性注意力”(Local Linear Attention, LLA)则引入“局部线性估计”,理论上能更精准地平衡偏差与方差,优化联想记忆。但这项技术此前因计算复杂度和数值稳定性问题,一直未能在大模型预训练中规模化应用——就像一台精密仪器始终停留在实验室。

如今,研究团队推出了“Parallax”——一种参数化的局部线性注意力机制,首次实现了在LLM中的可扩展部署。Parallax巧妙地去掉了LLA中复杂的数值求解器,转而学习一个类似query的投影器,用以探查键值协方差矩阵中的非线性关系。这一设计不仅稳定了训练,还允许它融入统一的注意力家族框架中,与带宽、投影构造和仿射结构等机制相连。

更关键的是,Parallax搭配了硬件感知的算法:它通过提高计算强度,使注意力操作从“内存瓶颈”转向“计算瓶颈”,从而能更充分地利用GPU的计算资源。在解码阶段的原型测试中,它的性能在不同批大小和上下文长度下,与FlashAttention 2/3持平甚至超越——这意味着在不牺牲效率的前提下,获得了更优越的注意力表达。

研究团队在0.6B和1.7B参数规模的模型上进行了预训练验证,结果令人振奋:Parallax在预训练全过程中持续保持更低的困惑度(perplexity),且这种优势在参数和计算量匹配的条件下依然稳固,并在下游任务基准上展现出一致的提升——这是典型的帕累托改进,即不增加成本却能提高性能。

一个意外的发现来自优化器部分:当使用Muon优化器时,Parallax的能力被显著“解锁”,性能跃升。这是学术界首次在注意力机制中观察到这种架构-优化器协同设计的实证效果,暗示未来模型优化不仅要考虑结构,还要考虑与训练算法的匹配。

Parallax不是对既有机制的修修补补,而是从统计学根基更新了注意力的基本假设。它证明了:当局部线性估计被正确参数化并配合硬件友好设计时,不仅能在理论上更优,还能在实践中大规模落地。这或许预示着,我们熟悉的注意力机制,即将迎来一场从“常数”到“线性”的静默革命。

2026年5月30日

想象一下,你的私人助理不仅记得你交代的每一件事,还能自动修补遗漏、剔除冗余,甚至把重复的成功模式提炼成可复用的“快捷方式”——这听起来像是科幻小说里的设定,但一种名为FluxMem的新型记忆框架正试图让大语言模型代理具备这种动态适应能力。

传统记忆增强型代理往往把记忆视为静态仓库,预定义好存储结构和检索流程。这在真实环境中非常脆弱:代理在交互中不断收到新反馈、任务目标变化、信号来源五花八门,记忆该记住什么、该如何彼此关联,时刻在变化。FluxMem的核心创新在于把记忆建模成一个异构图,并通过三个发展阶段持续优化其拓扑结构:初始连接建立阶段,它先为信息搭建原始网络;反馈驱动的精炼阶段,根据后续交互结果修补缺失的关联、剪除干扰连接、统一不同信息的抽象层级;最后进入长期巩固阶段,把反复出现的成功路径蒸馏成可复用的“程序回路”。整个过程由一个衡量记忆通用性和进化成熟度的指标引导。

在三个截然不同的基准测试上——涵盖长程对话理解的LoCoMo、网页任务执行的Mind2Web以及通用问题求解的GAIA——FluxMem都取得了稳定最优的结果,展现出在复杂代理环境中的强大适应与泛化能力。这种将记忆视为需要持续进化的活组织而非死存储库的思路,或许正是让AI代理真正学会“在经验中成长”的关键一步。记忆不再是过去的翻版,而是未来行动的蓝图。

2026年5月30日

人类是AI构建与改进的最大瓶颈——无论是模型还是包裹其的智能体,皆需人力编写、调优与修正。长期以来,让AI自主实现自我提升的愿景始终悬而未决。两大研究流派各自为战:一是“脚手架更新派”,让元代理重写任务专属智能体的工具、提示词、重试逻辑与搜索流程,但模型权重保持不变;二是“测试时训练派”,通过手工设计的强化学习流程,依据任务反馈更新模型权重,但脚手架固定不动。两派互不往来。

如今,一种名为SIA的自我改进循环横空出世。它让一个语言模型代理——即“反馈代理”——同时更新任务智能体的脚手架与权重。研究者在三个截然不同的领域进行了验证:中文法律罪名分类、底层GPU内核优化,以及单细胞RNA去噪。结果令人瞩目:当双管齐下时,效果远胜于仅改进脚手架。在LawBench上,SIA-W+H比此前最先进方法提升了25.1%;GPU内核速度提升了12.4%(从1161微秒降至1017微秒);去噪任务则提升了20.4%。脚手架更新赋予了智能体自主性,塑造其搜索与行动的方式;而权重更新则构建了任何提示词或脚手架都无法灌输的领域直觉。

这告诉我们,AI的自我进化并非遥不可及。当两种看似对立的策略握手联合,瓶颈就不再是终点,而是新起点。也许,未来的AI将不再依赖人类的每一次修正,而是在为自己“打磨工具箱”的同时,也悄然重塑内在的思维方式。

2026年5月30日

近年来,视频扩散基础模型在高质量视频生成上突飞猛进,但如何让它们变成能实时交互的视频世界模型,依然是个硬骨头。交互式世界模型需要可控、因果、低延迟的滚动生成,这背后是一整套流程:从数据构建、可控微调、自回归训练,到少步蒸馏和流式推理。现在,有一个名为minWM的全栈开源框架,试图把这个复杂链条打包成一条端到端的生产线,让现有的双向文本到视频或图像到视频基础模型,摇身一变成为支持摄像机控制的少步自回归世界模型。

minWM的做法很清晰:首先,用摄像机控制信号对双向视频扩散模型进行微调,让它学会根据摄像机轨迹生成画面。接着,通过一个被称为“因果强制”或“因果强制++”的管道,进行自回归扩散训练、因果常微分方程或因果一致性蒸馏,以及不对称分布匹配蒸馏,最终将模型蒸馏成一个只需几步生成的自回归生成器,从而实现低延迟的滚动输出。这套框架不仅模块化,而且架构可扩展——研究者在两个代表性的开源骨架上做了实例化:Wan2.1-T2V-1.3B(基于交叉注意力条件注入)和HY1.5-TI2V-8B(采用MMDiT架构),证明了框架的通用性。

更实用的地方在于,minWM还能适配已有的视频世界模型,比如HY-WorldPlay,将其移植到新的数据分布、训练配方和不同延迟目标上。除了发布可直接运行的脚本、模型检查点、文档和推理代码外,团队还提供了关于摄像机轨迹质量、可控性训练步数、最小批大小要求等实际消融实验,让后来者能照方抓药。这个框架的意义在于,它为构建和适配实时交互视频世界模型提供了一份可复现、可扩展的实操指南,把从理论到落地之间的鸿沟缩窄了一大步。当生成模型不再只是静默地输出,而是能实时响应你的视角指令,或许我们正站在下一代交互体验的起点上。

2026年5月29日

同一天,Anthropic甩出了两颗重磅炸弹——新模型Claude Opus 4.8几乎碾压所有主流基准测试,同时一笔巨额融资让这家AI实验室成为全球估值最高的AI公司,高达9650亿美元,一举超越OpenAI。

Opus 4.8的定价与上一代4.7保持一致,但在智能体编程、计算机使用、金融分析和“人类最后的考试”等项目中,击败了GPT-5.5和Gemini 3.1 Pro。与以往版本相比,4.8被认为是Anthropic所有模型中最不“偷懒”的,它更加诚实——当遇到不确定的信息时,更倾向于标注不确定性,而不是编造未经核实的答案。此外,它的快速模式价格便宜了3倍,claude.ai新增了effort control功能,而Claude Code也支持并行子代理,可以处理复杂、长时间运行的任务。

在模型发布的同时,Anthropic完成了650亿美元的融资,估值飙升至9650亿美元,成为全球最贵的AI实验室。公司还承诺,将在“未来几周”内推出被称为“神话级”的下一代AI。

尽管这场AI竞赛远未结束,但Anthropic已经跨过了两年前几乎无法想象的里程碑——估值高于OpenAI,模型在几乎所有基准上领先。显然,它“安全优先”的策略正在商业上获得巨大回报,尽管OpenAI的Sam Altman曾将这种策略称为“恐惧营销”。

在这个技术与资本高速狂奔的时代,安全与速度的博弈从未如此激烈。而市场的选择,或许正在告诉我们答案:用户更愿意为一个可靠的思考者买单,而不是一个只追求快速的答案机器。

2026年5月29日

面对一张卧室照片,人类能轻易推断出另一角度看到的景象,但视觉语言模型(VLM)却常常迷失在语言的迷宫里。它们能用华丽辞藻描述场景,却丢失了支撑空间推理的精细几何细节——这就像一位建筑师只会背诵设计说明,却画不出平面图。

为了弥补这一缺陷,研究者曾尝试让模型在回答前先生成一张“思考图像”:一张中间视角的示意图,期望它能作为可视化的思维轨迹。然而讽刺的是,模型生成这些图像时往往只是走个过场,回答时依旧依赖原始文字信息,彻底无视了自己刚刚绘制的“视觉笔记”。

问题摆在眼前:如何让视觉思考真正影响模型的决策?哪种形式的视觉思考最有效?答案藏在一项名为“视图脱落”(View Dropout)的训练技巧中。在统一多模态模型(UMM)训练时,研究人员故意将其中一个输入视图的部分区域从“答案生成区间”中隐藏,但保留这些区域对“思考图像生成区间”的可见性。这迫使模型在回答时无法直接引用隐藏的像素,必须依赖自己生成的思考图像来填补信息缺口——就像一场视觉拼图游戏,让模型不得不把思考图像当作必须使用的线索。

那么,一旦模型被迫依赖思考图像,哪种类型的视觉思考最强大?研究将其归结为“可学习性”与“信息量”之间的博弈:过于复杂的思考图像虽然信息丰富,但模型难以学会生成;过于简单的则提供不了足够线索。三种候选方案浮出水面:自上而下的俯视图、全景展开图、以及基于关键点匹配的渲染图。

在合成场景上训练后,模型在五个真实世界的跨领域基准上接受检验。结果令人意外:只有全景视觉思考搭配视图脱落才能鱼与熊掌兼得——它既能被模型稳定学习并生成,又携带了足够丰富的空间信息。自上而下视图信息量不足,点匹配渲染则难以学习。而视图脱落这一关键干预,让全景思考图像成为模型决策中不可或缺的证据。

或许,真正的智能不在于能画出图像,而在于当其他信息被遮蔽时,仍能凭借自己的创造物找到出路。我们总以为视觉推理是“看见”的过程,却在无意中训练了“盲说”的模型。全景思考加上一点刻意的“失明”,才让机器学会了真正看见。

2026年5月29日

想象一位走钢丝的杂技演员,每一步都必须在探索新姿势和稳定重心之间找到微妙平衡。大语言模型的在线强化学习(RL)同样面临这样的挑战——它们要在复杂推理任务中既要大胆尝试新策略(探索),又要牢牢锁定正确答案(利用)。但多数方法像抽风一样左右摇摆,最终跌跌撞撞,距离理想成绩总差一步。最近,研究者提出了一项名为IB-Score的新指标,它像一把精准的尺子,衡量这种探索与利用的平衡度。这把尺子的灵感来自信息瓶颈理论,通过计算每一步推理的多样性(即随机性)与正确答案之间共享的信息量,量化策略是在“瞎蒙”还是“死记硬背”。

用IB-Score审视时,问题现形了:流行的在线RL方法如GRPO(Group Relative Policy Optimization),即便配合常见的正则化手段,在训练中也无法稳定保持理想平衡。它们要么过早收敛陷入局部最优,要么漫无目的地乱逛,最终成绩止步不前。为了破解这个困局,研究者们设计了一套名为IB-TPO(Information Bottleneck-driven Tree-based Policy Optimization)的框架。这套框架把IB-Score直接揉进了优化目标——不是等训练完了再回头打分,而是让它像贴身教练一样,实时指导模型该什么时候多探索、什么时候多利用。

更巧妙的是,IB-TPO还搭配了一种新颖的树状采样策略。想象一棵倒生树:树根是当前步,每个分叉代表不同的推理路径。传统算法只摘一片叶子就匆匆回头,而IB-TPO用“信息瓶颈”当指南针,引导采样器优先探索那些既有潜力又不太盲目的分支。结果同样预算下,它能多拿到50%的轨迹数量,还不浪费算力。这些树状结构还被用来做蒙特卡洛估计,更准确地计算出每个步骤的IB-Score,形成良性循环。

在一系列标准基准测试中,IB-TPO交出了亮眼答卷:比GRPO基线性能提升2.9%到3.6%,也全面超越了其他前沿在线RL方法。这不仅仅是数字的胜利——它揭示了一个更朴素的道理:在复杂智能系统中,平衡从来不是靠瞎蒙撞出来的,而是需要一套能同时看清“广度”和“深度”的度量衡。当模型终于不再纠结于“该不该多试几种解法”,而是让每一步的推理都自带平衡坐标时,真正的推理能力才会悄然生根。毕竟,真正的智慧不是走最快的路,而是走最稳的那条。

2026年5月29日

想象一下,一个语言模型试图通过自我反思变得更强。它反复生成回答,再从中挑选最好的——这就是大名鼎鼎的“最佳N选一”或“树搜索”。然而,研究者们逐渐发现这种自我改进存在两个隐秘的“死穴”。第一,验证信号过于稀疏,模型只知道最终答案对不对,却不知道错在哪一步。第二,所有候选回答都来自模型自己一步接一步地生成,这就像一个人总在熟悉的街区里打转,永远走不出习惯的路径。论文提出的BES(双向进化搜索)正是要打破这两种束缚。

BES的解法很巧妙:它让搜索不再“单向”进行,而是同时开启“前向进化”和“后向分解”两条路。在前向搜索中,BES不仅仅让模型一步步生成新答案,还引入类似生物进化的“重组”操作——把两个中途产生的部分轨迹像拼图一样拼接起来。这样的操作能产生单纯靠模型自己生成的“下一代”不可能出现的候选方案,好比把鸟的翅膀和鱼的鳍组合成一种全新生存方式。与此同时,后向搜索则将原始任务层层拆解成可验证的小目标。举个例子,如果任务是“证明一个数学定理”,后向搜索会将证明过程分解成几个需要验证的引理,每个引理的正确性都能单独检查,从而给前向搜索提供源源不断的中间反馈,而非只到最后才看到一句“对或错”。

理论分析给出了更震撼的佐证:只用扩展生成的候选,都局限于一个狭窄的“熵壳”里,而进化操作能一举跳出这个壳;后向搜索则能把找到正确回答所需的样本数量从指数级削减为多项式级。实验数据印证了这些预言。在那些主流后训练算法(例如常规强化学习微调)都失效的挑战性任务上,BES竟然还能持续提升模型表现。而在推理阶段测试的三个开放问题求解基准中,BES在平均性能和最佳性能两个维度上都全面超越了现有开源框架。

从本质上讲,BES揭示了自我改进的再一步跃迁:不是更用力地生成,而是更聪明地寻找。进化操作带来了多样性,任务分解带来了可检查性,两者结合才让搜索真正有了深度。当一个语言模型既能借助“异类”路径探索未知,又能把长期目标拆解成当下可验证的小步骤,它的自我进化就不会再是原地旋转。这或许提醒我们,限制进步的往往不是能力不足,而是对“搜索”本身的理解还不够立体。

2026年5月29日

在锂矿开采的灰色世界里,一场静默的革命正在麻省理工学院的实验室里酝酿。传统硬岩提锂的过程,如同一场高温与毒性的野蛮舞蹈——矿石被数百摄氏度的高温焙烧,浸入强酸,留下成堆的有毒污泥和令人窒息的碳排放。全球锂供应正被电动车和储能电池的狂潮裹挟,价格如过山车般震荡,而中国牢牢掌控着全球近60%的锂精炼环节,让西方电池制造商如履薄冰。

但MIT的研究人员突然宣布,他们找到了一条截然不同的路径。这个名为“氟化铵工艺”的方法,不再用酸和高温去“强攻”锂辉石,而是用一种温和的化学溶剂,悄然溶解矿石中的硅酸盐骨架。在实验室测试中,超过95%的锂被成功提取出来,同时分离出的铝和硅也纯净到可以直接投入工业生产。更令人惊叹的是,那瓶关键的氟化铵试剂完成使命后,没有被废弃,而是被一套循环系统回收再利用,实现近乎零的废物排放。整个过程在远低于传统焙烧的温度下运行,省去了那段最耗能、最碳密集的工序。

这项技术已经催生出一家名为Rock Zero的初创公司,他们甚至敢放言:这是从任何天然矿石中提取锂的最便宜的方式。想象一下,如果这个工艺能从实验室的烧杯走向万吨级的反应釜,它意味着加拿大、澳大利亚、美国的偏远矿区,可能不再需要为昂贵的能源和繁复的废料处理发愁。那些被中国冶炼厂卡住的脖子,也许能获得一道新的呼吸通道。

当然,从实验室幻梦到工业现实,中间横亘着无数工程和成本考验。但MIT的发现已经撕开一道裂缝:锂,这个驱动未来能源转型的关键元素,不一定非要以污染和集中化炼狱为代价。也许未来的电池,会从一个更洁净、更分散的起点开始奔跑。而我们注视着那列火车是否真的会准时到站——毕竟,当自然赐予我们石头,人类总在寻找从石头里挤出阳光的方法。

2026年5月29日

夜幕中的卡纳维拉尔角,一声巨响划破了佛罗里达的寂静。Blue Origin的新格伦火箭在静态点火测试中轰然爆炸,火光映红了测试台。公司原本希望通过这次“绿色运行”地面点火,为第四次飞行——搭载亚马逊“柯伊伯计划”卫星做准备——结果却变成了一场灾难性的停顿。幸运的是,Blue Origin确认无人受伤,美国联邦航空管理局也表示空域未受干扰,但新格伦火箭已被迫无限期停飞。

这并非Blue Origin第一次摔跟头。今年4月,新格伦火箭的一次发射任务就曾遭遇挫折——上面级未能将AST SpaceMobile的卫星送入预定轨道。而这次的爆炸,发生在公司试图重新证明自己的关键时刻。两起事故的叠加,让这项原本被寄予厚望的重型火箭计划陷入更深的窘境。

爆炸的影响远不止于公司内部。新格伦火箭被设计为可重复使用的重型发射工具,是少数能真正挑战SpaceX在重型轨道发射领域主导地位的角色。当它被迫停飞,美国可用的重型发射选项变得更加稀缺。NASA计划中的阿尔忒弥斯任务载荷、五角大楼的关键国防卫星,原本都对新格伦的运载能力抱有期待——现在这些任务都悬在了半空。

每一次失败,都是航天工业在风险与突破之间博弈的缩影。对于NASA和五角大楼来说,这次爆炸再次提醒所有人:当你是天平上少数几个砝码之一时,任何一个砝码的碎裂都会摇晃整个天平。空间探索从来不是一场速胜的竞赛,而是一场需要时时面对不确定性的马拉松——每一次失败,既是对耐心的考验,也是对决策者决心的一次敲打。

2026年5月29日

清晨,你从睡梦中醒来,手指上那枚精致钛合金戒指不再只是装饰。它比前代薄了整整40%,却藏着前所未有的健康智慧——从追踪血压波动趋势到直接连接真实医生,Oura第五代智能戒指正在重新定义可穿戴设备。

这款名为Ring 5的戒指从6月4日起全球发货,银色和黑色版售价399美元,金色、隐形黑、拉丝银和深玫瑰金版则要499美元。它用医疗级钛合金打造,比上一代缩小近一半体积,但健康监测能力却大幅跃升。全新的Health Radar软件新增了血压模式信号和夜间呼吸监测功能,利用生物特征数据揭示长期健康规律——比如你睡眠中呼吸平稳性的微妙变化,或是血压随情绪、活动波动的周期模式。

更引人注目的是,Oura通过Counsel Health推出了AI医疗护理功能。美国43个州的合格会员可以直接在应用程序内联系持牌医疗提供者,开启智能硬件与真实医疗服务结合的新篇章。不过,要解锁这些深度健康洞察,你需要每月支付5.99美元或每年69.99美元的会员费。

这背后是一场激烈的智能戒指争霸战。三星、RingConn和Ultrahuman正虎视眈眈,它们最大的武器是免订阅费模式。而Oura反其道而行之,秘密申请IPO估值近110亿美元,同时用专利保护和临床级功能让Ring 5难以复制。它赌的是消费者愿意为真正的健康价值付费,而不是被免费订阅的市场策略绑架。

当一枚戒指比你的手表更懂你的身体,当AI医生住在你指尖,这种便利是否值得每月一杯咖啡的价格?可穿戴设备正在从健身追踪器进化为健康搭档,而这场竞赛的赢家,或许永远是那些把用户真实健康放在第一位的公司。