EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年6月5日

生成式推荐模型家族OneRec已经在短视频、直播、广告和电商等真实服务中大规模部署,但它们只能从规模优势中获益,推理能力却难以激活——我们无法构建由仅有物品token组成的、有意义的思维链序列。受大语言模型领域“先思考后回答”推理范式成功的启发,研究团队进行了初步探索(OneRec-Think、OpenOneRec),试图激活生成式推荐的推理能力。然而,一个意外现象出现了:思考模式并未展现出比非思考模式更明显的优势。

这引发了更深层的追问:为什么在推荐任务中,直接模仿LLM的推理方法失效了?研究团队从多模态语言模型中关于思维链鲁棒性的最新发现中汲取灵感,认为推荐中的有效推理取决于两个关键因素:感知,即让物品token扎根于其背后的语言语义的能力;认知,即把用户行为序列重组为连贯的潜在兴趣点的能力。基于此,他们提出了OneReason框架,包含三部分:第一,预训练阶段强化物品token的感知能力;第二,在监督微调中设计三级认知增强的思维链格式,专门适配推荐任务;第三,在强化学习阶段采用“先专精后统一”的训练策略,来提升思考能力。这一方案试图让生成式推荐模型真正学会推理,而不仅仅是记忆和预测。推荐系统的未来,也许不在于更大的模型,而在于让模型学会如何思考用户行为背后的逻辑。

2026年6月5日

在通往月球和火星的漫长旅途中,水是最珍贵的资源之一,而宇航员的衣物却只能重复穿着,汗渍和微生物堆积成为头号难题,甚至可能威胁健康。现在,阿拉巴马大学亨茨维尔分校的研究团队带来了一种新思路:一把手持的冷等离子体喷枪。它喷出室温下的等离子体气流,充满活性氧和氮物种,像无数微小的刀刃一样,瞬间刺破细菌的细胞壁。实验显示,在沾染了皮肤微生物的棉布上,这种处理将菌落数从每毫升大约25万锐减至6万,效果甚至优于国际空间站当前的清洁方法。团队设想了一个未来系统:一台等离子体洗衣机,配合结合喷射与真空吸尘的工具,不仅能处理衣物,还能清洁航天服和舱内表面。不过,这项技术目前只能杀死微生物,却无法去除污渍;此外,它还需要更广泛的微生物测试和面料耐久性验证,才能被真正纳入航天任务。尽管如此,这对于长期深空居住来说,意味着一件小事被悄然改变:不必再忍受布满细菌的衣物,也不必浪费宝贵的水资源来清洗。也许,当人类终于能在火星上安家时,这件小事会成为生活更宜居的见证。

2026年6月5日

23andMe从破产中归来,变成了一家非营利机构——创始人安妮·沃西基以约3.05亿美元的价格,在法院批准的拍卖中重新买回了公司及其包含1300万人DNA的庞大数据库。她的野心不止于此,公开宣称要达成1亿用户规模,因为在她看来,这是“AI世界”推动有意义医学发现所必需的数据量级。不过,破产风波并非毫无代价:大约200万客户在此期间选择删除了自己的数据,这迫使公司重新设限,如何更谨慎地使用这些敏感的基因信息。与此同时,一项与HealthEx的合作正在小范围测试,允许用户将电子病历与DNA、实验室数据乃至生活方式数据整合——目前仅限beta版。这场重生的意义在于,当全球最大规模的基因数据集之一直接与医疗记录接轨,AI驱动的药物发现和个性化医疗或许会迎来飞跃性突破,但将所有敏感数据汇集到一个生态系统中,也把隐私、知情同意和数据治理的议题推到了聚光灯下。有论者指出,当数据成为新石油,如何开采而不灼伤自己,才是真正的考验。

2026年6月5日

在支付方式日益同质化的今天,一块小小的银色魔法棒正在掀起波澜。Jack Dorsey的Block公司刚刚推出了一款名为“Wand”的Cash App支付设备——一个25美元的珍珠光泽、星状钥匙链挂件,内置NFC芯片,只需在收银终端上轻轻一碰,就能完成非接触式支付,就像刷手机或银行卡一样便捷。但这根魔杖可不只是一件工具,它是Block“Cash App Tags”硬件系列的首秀。公司放言,这个系列未来将扩展到服装、珠宝和其他可穿戴形式。首批魔杖在发售后瞬间售罄,Cash App在X平台宣告:“第一波Wand已售罄,更多NFC标签即将到来。”为了应对用户安全需求,魔杖提供即时消费提醒功能,用户还能在App内锁定、解锁或停用丢失的标签。

这场看似玩具般的创新,实际上是对支付市场格局的巧妙挑战。苹果支付和谷歌钱包早已占据非接触式支付的主导地位,但Block赌的是一个反直觉的方向:Z世代想要的不是手机屏幕上那个千篇一律的卡片图标,而是一件能拿在手里、有质感、可以随手挥舞的闪耀小物件。通过限量发售制造稀缺感,Block试图让支付变成一种社交身份的标识。不过,这根25美元的魔杖能否从一时新奇变成日常刚需,最终取决于后续的Tags是否能提供手机支付做不到的事——比如更快的速度、更炫的交互,或是真正融入生活场景的“魔法”。在这场支付工具的传统叙事之外,Block正在写一个关于物欲、身份和即时满足的新故事。

2026年6月5日

在美国,拥有超过10万粉丝的Instagram、YouTube或X账号(或30万粉丝的TikTok账号)的创作者,现在可以认领一个特殊的“搜索个人资料”。这不是普通的知识面板,而是一个由创作者自己管理的中心页面,会出现在该名字的搜索结果最顶端。在这里,他们可以展示视频、文章、帖子,附上简介、头像、网站链接和其他平台入口,甚至能置顶某篇内容。

一个关键的按钮“关注”将创作者的个人资料直接嵌入Google Discover,让他们的内容推送到粉丝的个性化信息流中。谷歌将其包装成“创作者主导的知识面板”,但任何名字、简介或链接的编辑都需要进入“待审批”状态,直到谷歌点头批准。

这项功能推出的时机耐人寻味。2024年6月至2025年9月期间,当AI Overviews出现在某个查询中时,网页的有机点击率平均下降了61%(数据来自Seer Interactive)。AI生成的摘要正在截流开放网络的流量。谷歌自己的Linktree(即这个可认领的个人资料页面)则把发现过程和受众牢牢地锁在了自己的围墙内——创作者想在谷歌上保持可见,就必须遵守谷歌的规则,而谷歌也借此在AI时代继续掌控流量的分配权。这不仅是为创作者提供了一个主页,更是一场关于谁控制着数字注意力入口的无声博弈。

2026年6月5日

一封由OpenAI、Anthropic、Google DeepMind和微软等AI巨头CEO签署的公开信,正在紧急递交给美国国会。信上的名字包括Sam Altman、Dario Amodei、Mustafa Suleyman、Alexandr Wang和Demis Hassabis,以及DNA合成行业的领军人物。他们发出的警告令人不寒而栗:AI系统如今已在病毒学实验室操作方面超越了博士级专家,这意味着坏分子可以利用AI设计生物武器,而过去保护人类的知识壁垒正在被AI侵蚀。

信中写道:“AI系统现在在高度专业的实验室操作领域,表现优于博士级病毒学家。”这并非危言耸听,而是来自全球最顶尖AI公司领导者的集体呼声。他们敦促国会立即通过立法,强制所有美国的合成DNA和RNA卖家必须筛查每一笔订单、验证买家身份,并记录所有销售数据,确保危险序列可追溯。否则,历史上阻止坏人获得生物武器的知识屏障,将“显著瓦解”。

这封信的意义远超行业呼吁。长期以来,生物武器风险被视为AI进步阶梯上的关键一级——就像AI自我改进(RSI)一样令人担忧。它甚至让平日里立场迥异的Altman和Amodei罕见地站到了一起。问题的核心在于:AI加速的世界正在迫使法律和监管体系以史无前例的速度进化,但立法者的脚步跟得上吗?当AI已经能教坏人如何制造病毒,而我们却还在争论合成DNA要不要登记,这中间的鸿沟或许正是我们最该警惕的。未来的安全,注定不是科技公司的独角戏,而需要整个社会在规则尚未崩塌前,抢先一步按下那个“暂停键”。

2026年6月5日

想象一下,你与ChatGPT的每一次聊天,都像是一块拼图。过去,它只能记住零散的碎片——比如你喜欢喝冰咖啡、计划去日本旅行。但现在,OpenAI推出了一项名为“梦境”(dreaming)的更新,它把这些碎片自动拼成了一幅完整的画像:你的旅行偏好、工作习惯、业余爱好,被分门别类地记录在一份不断更新的“个人简介”里。这不再是简单的事实堆砌,而是一个有生命力的背景档案。

具体而言,ChatGPT现在会为你维护一份动态的书面总结,按“旅行”“爱好”“工作”等类别整理。你可以随时查看、修改这些记忆,甚至告诉它“别聊这个话题”。记忆会随着对话自动调整,越用越精准。根据OpenAI的评估,这项功能让事实性回忆的准确率从41.5%跃升至82.8%,对用户偏好的遵循率也从31.4%提升到了71.3%。目前,这项更新正在美国向Plus和Pro用户推送,免费版和Go版用户以及其他国家将在未来几周内陆续获得。

记忆一直是AI个性化中最难啃的骨头——理论上它能让体验无缝衔接,但过去总显得笨拙。Sam Altman多次畅想过超个性化AI的未来,而“梦境”或许就是那把钥匙:它让AI不仅记住你说了什么,还开始理解你是谁。当你的助手能主动想起你上次聊过的露营计划,并在你下次提到假期时提前推荐装备,那种连续感可能正是用户从其他平台“跳槽”到OpenAI的理由。

记忆像一条看不见的线,把散落的对话串成独属于你的故事。而当一个AI开始记得你的过往,它就不再是一个工具,而是你数字生活里的一本私密日记——只是这本日记,正变得越来越聪明。

2026年6月5日

Anthropic近期发布了一份关于“递归自我改进”(RSI)系统的报告,标题直击要害:“当AI构建自身”。报告引用了Claude在编码领域“接管”的内部数据,并发出警告:完全具备自我改进能力的AI,可能比机构准备好应对它的时间更早到来。

故事要从Claude的惊人成长说起。截至今年5月,Anthropic公司合并的代码中,超过80%是由Claude自主编写的。工程师们在2026年第二季度每天提交的代码量,相比2024年翻了8倍。Anthropic的联合创始人杰克·克拉克在描述这种趋势时写道:“Claude的每一个新版本,都可能由前一个版本在没有人类参与的情况下构建而成。”这意味着,AI不再仅仅是工具,它正在成为自己的设计师和构建者。

这种自我强化的循环并非孤例。就在本周,OpenAI在其“前沿AI的民主治理”蓝图中也明确指出了RSI的迹象,称“今日的系统中已经可以看到RSI的第一缕火花”。更广泛地看,MiniMax等实验室表示,其M2.7模型的一部分代码就是由模型自身帮助构建的,而围绕“自我改进循环”的新兴创业公司也在不断涌现。

然而,Anthropic的态度是谨慎的。他们表示,如果其他实验室也同意放缓或暂停前沿AI的开发,他们愿意遵循这一路径,并计划在未来几个月展开政策讨论,涉及研究、系统及各种可能场景。但问题在于,RSI带来的未知风险令人恐惧,更别提要达成一个依赖全球协调的暂停方案,几乎无法想象。

当AI开始自己决定自己的进化方向,人类的控制权还能维持多久?也许答案并不在代码里,而在我们是否愿意在技术狂奔之前,先系好安全绳。

2026年6月5日

想象你有一个形影不离的AI助手,它记下了你几个月来的对话、偏好和计划。起初它很贴心,但随着记忆堆叠,有些信息互相支持,有些却在不同情境下自相矛盾——昨天说要减肥,今天又想吃大餐。当助手面对这些微妙冲突时,它该如何正确判断?这正是OpenClaw等持久化AI助手面临的真实困境。

然而,现有的长期记忆基准测试几乎从不考察助手如何处理记忆之间的关系。为了填补这一空白,研究者推出了SubtleMemory——一个专门用于细粒度关系记忆辨别的基准。它巧妙构建了一系列受关系控制的潜在语义伪影:有些是互补的,有些是微妙的,有些直接矛盾。这些伪影被嵌入到逼真的用户与助手交互历史中,要求助手在后续的查询和指令里,从分散的记忆碎片中恢复出隐含的关系结构。

基准包含1,522个评估实例,跨越10段长历史,基于1,090组关系控制的记忆变体集合,既有用户相关的查询,也有非用户相关的查询。研究者测试了6个独立的记忆系统、2个自带原生记忆模块的Claw风格智能体,以及3个搭载插件记忆模块的Claw风格智能体。结果令人惊讶:当前所有系统在细粒度关系记忆辨别上均表现薄弱。

更深入的诊断协议揭示了不同阶段的能力画像:记忆保存、检索和下游推理各有短板;有的系统能记住孤立事实,却无法在冲突情境中挑选正确的那一条;有的能检索到所有相关记忆,却不知道如何权衡它们之间的关系。

这就像让一个学生背诵全书却不会运用知识点——AI助手拥有海量记忆,却无法理解其中的矛盾与共识。未来的AI不仅需要记住更多,更需要学会在关系网中明智选择。毕竟,真正的智能,往往藏在那些细微的差别里。

2026年6月5日

在Transformer模型的注意力机制中,查询、键、值(QKV)三个投影是否都可以被简化?一项新研究系统评估了三种共享方案:Q-K=V(共享键值)、Q=K-V(共享查询键)和Q=K=V(单一投影)。其中,Q=K-V和Q=K=V会产生对称注意力图,研究通过2D位置编码解决了这一问题。实验覆盖了合成任务、视觉任务(MNIST、CIFAR、TinyImageNet、异常检测)以及语言建模(300M和1.2B参数模型在10B token上训练),结果发现共享投影的Transformer性能与标准QKV持平,甚至有时更优。具体来说,在语言建模中,Q-K=V共享方案仅以3.1%的困惑度下降为代价,实现了50%的KV缓存减少。更重要的是,投影共享与头共享(GQA/MQA)互补:将Q-K=V与GQA-4结合,缓存减少87.5%;与MQA结合则达到96.9%,使得设备端推理成为现实。研究认为Q-K=V之所以保持质量,是因为键和值可以占据相似的表征空间,且注意力操作在低秩区域进行;而Q=K-V则破坏了注意力方向性。这项工作系统刻画了投影共享作为注意力中未被充分探索的权重绑定实例,直接带来可量化的推理内存收益,尤其对边缘部署价值显著。代码已开源。注意力机制中的每一点冗余都可能成为效率的突破口,而精简后的Transformer,正一步步走向更广阔的应用场景。

2026年6月5日

想象一下,你站在一个陌生城市的街角,目光扫过对面建筑的窗户,然后绕到楼后,试图在另一扇窗户上找到相同的细节——这看似简单的任务,其实需要同时理解几何变化、视角转换、细微纹理和遮挡推理。这正是宽基线匹配(WBM)的核心挑战,也是部署在物理世界中的多模态大语言模型(MLLMs)面临的空间推理试金石。然而,目前的MLLMs缺乏对这一能力的系统评估和训练框架。

为了填补这一空白,研究者推出了ReasonMatch-Bench——一个按视点位移和匹配粒度分层设计的基准,涵盖室内、室外和物体中心场景。测试结果令人震惊:在一个仅包含90个样本的困难子集上,人类标注员能达到84.0的F1分数,而当时最强的现有基线模型却只有37.2——差距超过两倍。这意味着,即便最先进的多模态模型,在涉及大幅视点变化和细粒度对应识别时,仍远远落后于人类的视觉推理能力。

面对这一鸿沟,研究团队构建了一套可扩展的数据生成管道。他们从大规模视频-3D语料库(包括RGB-D视频和运动恢复结构重建结果)中自动提取宽基线视点对,生成了多样且可验证的监督信号。这为后续训练提供了高质量的数据基础。

更关键的是,他们设计了动态对应强化学习(DCRL)方法。DCRL将训练过程拆解为两个核心阶段:图像级视点渐进和点级对应课程。简而言之,模型先从粗略的全局视点变化中学习,再逐步聚焦到具体的点匹配细节,并通过可验证的奖励信号进行强化——全程不需要显式的思维链监督。这种策略让模型在掌握宽基线匹配能力的同时,不会丢失原有的通用视觉理解能力。

大量实验证明,DCRL在ReasonMatch-Bench上带来了显著的性能提升,并且这些提升能够迁移到其他相关的空间推理基准任务中。更令人欣慰的是,模型在多个通用视觉理解基准上的表现不仅没有下降,反而有了小幅增长。

从人类的84分到模型的37分,这场跨越需要的不只是更多的数据或更大的模型,而是对空间关系本质的更深入理解。当机器学会跨越巨大视角差异去识别同一片窗户的纹理时,它离真正理解物理世界也更近了一步。也许,宽基线匹配的每一个像素对应,都是在搭建AI通往真实环境的桥梁。

2026年6月5日

在全息对偶的框架下,物理学家一直在探索封闭宇宙的量子结构。一项新研究在大N对称轨道折叠共形场论中识别出封闭宇宙扇区,这些理论本身具有全息对偶。研究者从种子理论的低能子空间出发,构造张量积态,发现大N希尔伯特空间会分解为一系列由占据数分布标记的超选择扇区。

在施加轨道折叠规范约束之前,这些扇区展现出惊人的规模——它们的维度呈指数级增长,其中最大熵扇区主导了整个未规范化的希尔伯特空间。这个主导扇区表现出封闭宇宙希尔伯特空间的几个关键特征:首先,纯态与混合态在简单关联函数层面变得无法区分;其次,与之相关的算子代数自然地成为超有限II_1型冯诺依曼代数。这暗示着封闭宇宙中信息的“丢失”可能源于这种代数结构的内在抹平效应。

当研究者施加S_N规范约束后,情况发生剧变。庞大的规范冗余极大地削减了独立态的数量。在大N极限下,物理希尔伯特空间的维度仅随N呈多项式增长,每个超选择扇区最终退化为一维。这一结果完美再现了带有虫洞的引力路径积分计算所暗示的定性行为——即封闭宇宙的希尔伯特空间维度远小于未约束时的指数级规模。

有趣的是,该研究揭示了一个重要矛盾:在这个设定中,传统的哈特尔-霍金型半经典近似无法再现CFT的计算结果。传统半经典方法认为封闭宇宙的波函数由某个主导鞍点决定,但CFT结果表明这种近似完全失效。然而,一旦将CFT自由度与外部观察者自由度耦合,引力路径积分计算的主导鞍点近似又被成功重建。

这一发现挑战了我们对封闭宇宙量子描述的直觉。封闭宇宙的量子态可能并非由某个“自然”的半经典波函数主导,而是需要借助外部观测的介入才能恢复引力路径积分的有效性。这或许暗示,即便在一个自洽的封闭宇宙中,观察者的存在并非锦上添花,而是定义量子宇宙学的必要前提。当宇宙与外界失去联系,其内部量子结构的丰富性将掩盖于超选择扇区之中,只有在观测的“注视”下,经典时空的图景才能重新浮现。

2026年6月4日

想象一下,你站在一个房间门口,看到地上有一滩水。你的大脑会立刻预演几种可能:如果直接踩过去,可能会滑倒;如果绕开,需要走多远。这种对未来的“预演”是人类决策的关键,如今研究者正试图让AI也学会类似的能力。

世界模型和多模态大语言模型像一对互补的搭档:前者能生成未来可能场景的视觉动画,比如“如果我把杯子推倒,水会怎么流”;后者则擅长抽象推理,比如回答“这个行为是否符合规则”。然而,世界模型生成的视觉预演就像随机播放电影——画面可能很逼真,但情节却可能完全偏离实际任务。比如AI预测一个机器人把杯子推倒后水会洒出,但实际任务却是“保持杯子稳定”,那么视觉预演反而会误导答案。

这引出一个核心问题:AI该如何判断“何时需要视觉模拟”、“模拟结果是否可信”,以及“如何将模拟融入最终答案”?研究者将其定义为“可控具体推理”——让模型学会主动调用、验证并整合视觉未来模拟,同时结合抽象推理。

为了训练这种能力,团队构建了两个人工验证的基准测试:VRQABench(用于可控制的空间预判,比如“从A点出发,3秒后球会撞到哪个物体?”)和OpenWorldQA(用于开放世界的物理预测,比如“如果把冰块扔进热咖啡,会发生什么?”)。这些任务要求AI不仅输出答案,还要展示推理过程中的视觉预演。

研究者提出的方法名为“特权未来在线策略自蒸馏”。训练时,模型像有一个“作弊指导老师”:老师能看到真实的未来视频和正确答案,用来评估学生模型自己生成的视觉预演是否合理。而学生模型在测试时,只能依靠自己的模拟能力,无法看到真实未来。这种方式迫使模型学会自我纠错。

实验结果显示,这种训练让模型在VRQABench和OpenWorldQA上的准确率分别提升了10.6%和10.9%,并且对噪声或矛盾的模拟结果更加鲁棒——即使视觉预演出错,模型也能通过抽象推理进行修正。

未来已来,但并非照本宣科。当AI学会在脑海中预演多种可能,并懂得何时相信自己的“想象”,它才真正开始像人类一样,在不确定的世界中寻找确定。

2026年6月4日

想象一下,训练一个人形机器人执行复杂的操控任务——比如弯腰捡起地上的水瓶,或者稳健地爬上楼梯——过去需要搭建真实场景、穿戴动作捕捉设备、由操作员远程操控,每一条演示数据都耗资巨大、难以规模化。现在,一项名为GRAIL的数字化生成管道彻底打破了这一瓶颈:它完全在虚拟世界中完成从数据生成到策略训练的全流程,直到部署到机器人那一刻才进入现实。

GRAIL的核心思路是“先确定一切,再生成视频”。它不像传统方法那样试图从混乱的网络视频中逆向解读三维世界,而是先组合好3D模型、场景深度、相机参数,以及一个与机器人尺寸比例一致的数字替身。在视频生成之前,所有几何信息都是精确已知的,这为后续的4D重建提供了完美的先验条件。基于这种特权设定,GRAIL利用模型的目标跟踪、人体运动估计和交互感知优化,从生成的视频中反向恢复出带有公制尺度的人-物交互轨迹,有效消除了深度模糊和形态错配。

这个管道依赖于视频基础模型的生成能力,但巧妙地将“想象”限制在已知三维空间的框架内。GRAIL生成了超过20,000条高质量序列,涵盖五种核心技能:拾取物体、操控物体、坐下、地形行走以及跨越障碍。更关键的是,这些数据可以直接用于训练端到端的视觉策略——GRAIL配备了两个互补的通用跟踪器:一个面向物体感知的潜在适配器用于操控任务,一个面向场景感知的跟踪器用于地形导航。数据经过仿真到现实的迁移,部署在宇树G1人形机器人上。

真实世界的测试结果令人振奋:在多样化的物体拾取任务中,机器人达到了84%的成功率;在爬楼梯任务中,成功率高达90%。GRAIL证明,完全虚拟生成的数据足以让机器人学会在复杂环境中完成精细的全身协调动作,而无需人工干预搭建物理场景或遥控机器人。这条路或许意味着,人形机器人的规模化学习不再受限于装备和场地,而是可以像训练语言模型一样,直接从数字世界中汲取海量经验。

2026年6月4日

在人工智能的模型训练世界里,教师与学生之间的知识传递往往暗藏玄机。传统的在线蒸馏方法(OPD)让一个学生模型在自己的生成轨迹上,接收来自更强大教师的密集token级反馈——这听起来很完美,因为它既避免了监督微调(SFT)中“离策略”的分布偏移,又解决了强化学习(RL)中稀疏的信用分配问题。然而,这个精妙的机制有两个致命伤:第一,它需要直接访问教师每个token的logits,这意味着那些强大的闭源模型(比如Claude、Gemini)只能被排除在教师行列之外;第二,token级的logits信号本身极其脆弱——它依赖于师生之间对下一个token的狭窄重叠,一旦预测出错,就会放大重复等退化模式,让学生陷入死循环。

这正是这篇论文要解决的问题。研究者推出了OmniOPD,一个无需logits、基于块级监督信号的崭新框架。它的核心思路是:用蒙特卡洛展开来模拟教师的局部偏好,通过一个连续的语义相似度指标评估多token块的整体质量,替代了原来脆弱的逐token匹配。更妙的是,一个“峰值熵调度器”像精明的导师一样,只在学生推理中不确定性最高的分叉点上进行监督,把资源用在刀刃上。同时,Dirichlet-Multinomial贝叶斯先验和基础模型KL锚点约束离散采样的方差,防止未经监督的token出现策略崩溃。

测试结果毫不含糊:在多个竞技基准上,OmniOPD在数学任务上比标准OPD高出最多28.64%——这证明了块级语义验证能提取更可靠的学习信号,而token级logits虽信息密度高,却被噪声和脆弱性抵消。更令人兴奋的是,当搭配Claude-4.5-Haiku和Gemini-2.5-Flash这样的黑盒教师时,OmniOPD在数学上又比使用开源权重教师方案额外提升了9.54%,甚至让学生的表现超越了自探索强化学习的水平。

这场蒸馏技术的进化告诉我们一个朴素真理:不要执着于细枝末节的完美对齐,抓大放小、关注全局语义的相似,反而能撬动更大的学习潜力。当信息密度与噪声相伴时,懂得如何“偷懒”才是最聪明的学习策略。

2026年6月4日

斯坦福大学一项研究让16位合同法学教授进行了一场匿名盲测,比较他们自己的答案与谷歌AI系统给出的回答。结果显示,教授们75%的情况下更青睐AI——包括Gemini 2.5 Pro和NotebookLM。这项测试聚焦于合同法的“办公时间”问题,这类问题需要判断力和批判性思维,而非死记硬背的标准答案。

研究者从14所法学院邀请了16位教授,让他们在2918次对决中匿名评判自己的答案和AI的回答。结果令人震惊:AI系统胜出75%,只有一位顶尖教授与AI打平。后续测试引入了一个AI模拟裁判,将范围扩大到9个AI系统,其中Claude Opus 4.7表现最佳,而所有AI都击败了真人教授。

这项研究的意义远超单纯的能力比较。虽然GPT-4等早期模型已能通过律师资格考试,但本次测试将AI置于更复杂、更主观的司法判断情境中——这正是法律教育中师生互动最微妙的部分。AI进入教育领域仍充满争议,但像按需辅导这样的场景,或许能真正改变学习过程。

这不仅是技术的胜利,更是对教育本质的追问:当机器能比老师更精准地解答复杂问题时,我们该如何重新定义“教”与“学”?

2026年6月4日

想象一下,你是个小商家,半夜在Facebook上发布新品,几分钟后就有客户通过WhatsApp询问尺寸和价格,AI代理不仅秒回,还主动推荐搭配商品,直接帮客户完成预约试穿。这不是科幻,而是Meta刚刚全球上线的“商业智能代理”新功能。

Meta在2024年10月曾小范围免费测试这项服务,如今已向全球所有企业开放,覆盖WhatsApp、Instagram、Messenger三大平台。据Meta透露,目前已有超过100万家商家使用该工具。这些AI代理能完成销售、商品推荐、客户线索筛选、预约安排等任务,并且支持多语言对话。如果遇到复杂问题,客户可以随时要求人工客服接管。

更值得关注的是,Meta还推出了独立的“商业代理平台”,允许企业将AI代理接入第三方工具,比如客服系统Zendesk或电商平台Shopify,未来还将支持更复杂的商业运营操作。目前该功能免费起步,但Meta已明确表示会针对不同规模的企业推出付费订阅层级。

为什么这一举动意义重大?Meta的社交帝国本身就是全球商家的流量入口,现在直接把AI销售员嵌入聊天界面,等于在黄金地段开了无限个智能柜台。但问题在于信任。就在本周,有黑客成功骗过Meta自家的客服机器人,让人不禁担忧:商家敢把自家客户交给Meta的AI代理吗?毕竟,客户数据的安全和真实的销售体验,是商业的命脉。

当AI不再只是回答“什么时候发货”,而是主动说“您上次看的包和这双鞋很搭”,商家和消费者都站在了新技术和旧信任的十字路口。商业与人工智能的融合势不可挡,但真正决定未来格局的,或许不是谁跑得更快,而是谁能把信任这个基础打得足够牢。

2026年6月4日

两个图像实验室同时发布了新模型——Ideogram 4.0开源了,Reve 2.0也来了。它们不约而同地推动着一种更注重布局、更可迭代的生成流程,让用户能塞进更多输入,抓住更多创意控制权。

具体来看,Ideogram 4.0一举拿下了开放模型的头把交椅,在Design Arena榜单上仅落后于OpenAI和Google的闭源模型。它在文本渲染、排版和图形设计方面出类拔萃,在Contra的测试中,专业人类设计师对它的偏好甚至超过了顶尖对手。而Reve 2.0则在Arena的Text-to-Image排行榜上超越了Nano Banana 2,爬到了总榜第二,只排在GPT-image-2之后。它的输出像被贴了标签一样,每个部分都能单独调整,用户不用再为一个小瑕疵把整张图推倒重来。Reve把图像当成代码来生成——编辑时不是改提示词,而是直接重写布局;Ideogram则通过JSON实现了类似的思路。

这些新能力的意义远不止画质提升。图像模型早已告别了“老虎机”时代——那时你唯一能做的就是一次次拉杆,盼着提示词掷出个好结果。真正的跃迁在于颗粒度的控制和修改,而这些过去人们得跳到别的应用里才能完成。对于Ideogram,开源权重本身就是故事:它证明了开源距离前沿并不遥远。

2026年6月4日

今天的视频模型像是患上了“短暂记忆症”:生成几分钟的内容便会遗忘开头,误差像滚雪球般越积越大。大多数方案只能依赖预先设计的缓存策略——要么固定每几帧压缩一次,要么在推理时调整位置编码——但无论哪种,都在本地窗口被撑满时不可逆地丢掉了历史信息。科学家们想到,人类大脑如何持续几十年记事情?靠的不是无限容量,而是不断巩固与抽象,把无关细节过滤,只留下核心模式。

受此启发,研究团队提出了Echo Infinity,一个自回归框架,能实现真正实时的无限视频生成。它的核心是一个“可学习的进化记忆”——一组专门用来记忆过去内容的查询向量。每当旧帧被推出局部窗口,这些查询就会通过注意力机制和门控机制自动更新,把关键信息提炼成紧凑的表示。整个过程不依赖任何手工规则,全凭视频扩散Transformer(DiTs)端到端优化,计算开销恒定,不受视频长度影响。更有趣的是,这些记忆查询还能充当可泛化的生成先验,即使只使用优化后的初始状态,也能提升生成质量。

另一个关键创新是“统一相对RoPE”方案。以往模型的位置编码有固定上限(比如最大4096个位置),一旦生成超过这个长度就只能强撑,导致训练和推理之间出现鸿沟。Echo Infinity把初始帧固定在ID 0,让最新帧的ID最多增长到DiTs预训练的最大时域RoPE ID,这样模型彻底摆脱了有限RoPE束缚,训练时的位置范围也能推理时无缝延续。

在长短视频生成的基准测试中,Echo Infinity达到了当前最优性能。更重要的是,它首次展示了超过130万帧(相当于24小时)的实时推出效果,且没有明显质量衰减。这意味着,未来的AI电影不再是剪辑好的片段,而是一场永不落幕的实时直播,一个永远凝固又永远流淌的梦境。或许,当机器学会了如何像人类一样遗忘与提炼,它才真正拥有了跨越时间的想象力。

2026年6月3日

想象一下,你正站在一个巨大的训练场上,面前是20亿帧来自不同动作捕捉系统的运动数据——有人类行走、奔跑、跳跃,也有复杂舞蹈和武术。这些数据曾属于不同实验室、不同设备,各自为政,从未被整合。传统方法试图用浅层MLP网络学习全身控制,却常常陷入两难:要么只擅长少数动态动作,要么只能泛化到简单场景,始终无法兼得。但一项名为Humanoid-GPT的研究,彻底打破了这一僵局。

研究人员构建了一个类似GPT的Transformer模型,采用因果注意力机制,首次将整个人形机器人运动控制的预训练数据规模提升到20亿帧(2B-frame)。这个语料库不仅整合了所有主要公开动作捕捉数据集,还加入了大规模内部录制的运动数据,通过统一的重定向流程形成标准化的训练材料。当模型规模和数据容量同时扩展时,奇迹发生了:单一Transformer学会了跟踪高度动态的行为——比如急速转身、连续起跳——同时展现出前所未有的零样本泛化能力,直接将所学知识迁移到从未见过的动作和控制任务上。

之前的方法往往受限于数据稀缺,导致模型要么在敏捷性上突出但泛化差,要么泛化好但动作生硬。Humanoid-GPT通过预训练解决了这一敏捷-泛化权衡。大量实验和缩放分析显示,该模型在多个基准测试中建立了新的性能前沿:它不仅能鲁棒地应对未见任务,还能保持对高度动态和复杂运动的精确跟踪。简单来说,这个AI控制器就像一位接受过百亿次模拟训练的舞者,无论面对何种新舞步,都能即时做出协调反应。

这项突破的意义在于,它将人形机器人从“预设程序”的牢笼中解放出来。未来,机器人或许不再需要针对每个新动作单独编程,而是像人类一样,通过大规模经验学习实现真正的适应性控制。这不仅是技术边界的拓展,更是人机协作新可能性的开端——当机器学会“举一反三”,它们与我们的世界将更加无缝契合。

2026年6月3日

在视频推理领域,我们总希望模型能像人类一样,不仅生成流畅的画面,更能理解规则并完成任务。然而,当前最先进的视频生成模型虽然视觉质量出色,却常常在逻辑上“翻车”——它们难以跟随任务特定的规则,导致推理场景中频频出错。过去,研究者们尝试让视觉语言模型作为“预解者”,为视频生成模型提供文本指导。可文本描述抓不住复杂的时空细节,即便有了完美的计划,视频生成模型也难以忠实执行那些精细或冷门的指令。

现在,一项新研究颠覆了这一思路:既然视觉语言模型作为求解者不够给力,那么何不让它们发挥强大的感知能力,转而扮演“教师”的角色?这位教师提取任务规则,将其转化为可微分的奖励信号,在测试时动态优化视频生成模型的一个轻量级LoRA模块。这样一来,视频生成模型不再被固有的能力边界所困,而是在实际推理中完成自适应优化。

在符号视频推理基准VBVR-Bench和通用视频推理基准RULER-Bench上,这一方法平均提升了16.7个百分点,远超传统“VLM作为预解者”范式的+0.4点,以及简单的最佳N次采样缩放策略的+2.2点,而测试时间成本几乎相同。这告诉我们,有时换个角色,让视觉语言模型从“做题家”变成“评分员”,反而能打开视频推理通往更广阔通用性的道路。

每个失败的计划背后,都可能藏着一位更善于发现错误的老师。

2026年6月3日

在人工智能领域,让一个大模型(教师)去教会另一个更小的模型(学生)是一种常见且高效的后训练方法,称为“同策略蒸馏”(On-Policy Distillation, OPD)。它被广泛应用于智能体学习、多任务增强和模型压缩等场景。但实践中,当教师和学生的知识分布差异较大时,OPD训练会变得极其不稳定。为什么?因为如果用教师来监督学生自己生成的token,这些监督信号可能并不靠谱——教师觉得理所当然的步骤,在学生看来可能完全是陌生的领域,由此产生的策略梯度会指向错误方向,甚至导致整个优化过程失败。

为了解决这一核心矛盾,研究者们提出了一种名为TrOPD(Trust Region On-Policy Distillation)的新方法。它从信用赋值的角度切入,强调在可靠的监督区域内进行学习,而非盲目地全盘接受教师指导。TrOPD包含三个关键设计:第一,信任区域同策略学习——只有当教师能给出可靠监督时,模型才执行OPD训练,以此来缓解分布不匹配下K1反向KL估计器带来的优化困难。第二,异常值估计——对于那些差异极大的“异常”区域,系统会采用梯度裁剪、掩码处理或直接切换为前向KL估计,以降低不可靠监督的负面影响。第三,离策略引导——学生模型会从教师生成的前缀文本继续生成,并通过前向KL损失模仿教师的离策略输出,从而鼓励学生主动向那些可靠的同策略区域进行探索。

实验结果显示,在数学推理、代码生成以及通用领域的多个基准测试中,TrOPD始终优于当前最先进的OPD基线方法,包括OPD、EOPD和REOPOLD。

大模型学习的过程,从来不是简单的“复制粘贴”。只有当教师真正理解学生的认知边界,并提供恰到好处的引导时,知识才能顺利传递。如果我们一味施加超出学生能力范围的指导,结果只会让双方都陷入混乱。信任区域的选择,或许正是让AI更聪明、更稳定成长的关键一步。

2026年6月3日

在机器人操作领域,一个核心挑战是如何让模型在执行动作之前就能预判未来后果。为此,研究人员推出了τ0世界模型(τ0-World Model),这是一个统一的视频-动作世界模型,将策略学习、视频预测和动作评估整合进一个未来预测框架之中。它基于共享的视频扩散骨干网络,提供了两种互补接口。一是视频动作模型,能从多视角观测、语言指令和机器人状态中联合预测未来的视觉潜变量和连续的机器人动作块;二是动作条件视频模拟器,能将候选动作块展开为多视角未来视频,并预测密集的任务进度分数。该模型依托约27,300小时的训练数据,包括真实机器人遥操作、UMI风格交互、以自我为中心的人类视频以及各种失败轨迹,并采用模态特定的监督掩码进行训练。在推理时,τ0世界模型利用测试时的计算能力采样候选动作,通过重去噪一致性进行排序,并对低质量候选调用模拟器修正。在长时程和精细化的机器人操作任务中,它展现出优于其他基线的性能。
这种将预判能力嵌入机器人操作的方式,让机器不再盲目执行,而是在行动前“想象”未来。未来或许正是那些能够“思考”后果的机器,才能真正走向自主。

2026年6月3日

大型语言模型智能体在执行复杂长程任务时,越来越依赖可复用的外部技能。然而,现有的训练无关技能适应方法往往从完整轨迹或会话级反馈中更新技能,导致故障归因粗糙,修正结果常不稳定或过于宽泛。为了解决这一痛点,研究团队提出了SkillAdaptor——一个无需训练、基于步骤级显式故障归因的技能适应框架,它能无缝接入OpenClaw类智能体工具包。当智能体执行失败后,SkillAdaptor会定位第一个可操作的故障步骤,将该步骤的责任关联到候选技能,并在保持骨干模型冻结的前提下,通过显式接受检查执行针对性更新。实验在三个基准套件上展开:WebShop、PinchBench和Claw-Eval,分别搭配Kimi-K2.5、GLM-5和GPT-5.2模型。结果显示,SkillAdaptor在所有三个测试集上均优于无技能和传统技能适应基线,其中在PinchBench平均分上提升1.5个百分点,在Claw-Eval平均分上提升1.8分,在WebShop成功率上提升1.7个百分点。这些数据表明,步骤级归因能够支撑更稳定、更可审计的训练无关技能维护机制。当智能体学会从一次微小的步骤偏差中自省,而不是对整个失败轨迹全盘重写,它便获得了更精细、更可信的成长路径。

2026年6月3日

在生成式AI加速的赛道上,研究者们一直试图用“少步蒸馏”让视觉模型跑得更快——只需几步推理就能生成高质量图像。但有趣的是,大家的目光几乎都盯着蒸馏目标的设计,却很少有人追问:学生的成功,到底是被“教什么”决定的,还是被“怎么教”决定的?

一个来自Qwen团队的研究给出了意想不到的答案。他们以自家的Qwen-Image-2.0模型为实验平台,系统解剖了少步蒸馏中的三个隐秘因素:数据如何组合?教师输出的尺度该如何选用?以及编辑任务与生成任务混在一起训练时,比例怎么调?结果令人惊讶——这些训练配置中的细节,比蒸馏目标本身更关键地影响着学生模型的性能。比如,不同任务混合比例会导致模型在文本到图像生成与指令引导编辑之间出现跷跷板式的表现,而教师输出的选择(如用连续得分还是离散预测)也会带来非直觉的行为偏差。

基于这些发现,团队不仅提出了新的训练配方,还推出了名为Qwen-Image-Flash的高效模型。它证明了一个容易被忽略的道理:先进的蒸馏技术固然重要,但如果训练管线的组织方式漏洞百出,再精巧的目标函数也无法施展拳脚。

技术世界里,最亮的聚光灯往往打在算法创新上,但那些被默认忽略的“训练细节”,才常常是决定成败的暗礁。真正的高效,从来不是单一变量的优化,而是整个流程的深思熟虑。

2026年6月3日

科学家们训练搜索代理时,往往让它一边决定如何搜索,一边记住自己看过什么、哪些证据有用、还有哪些约束未解决、哪些声明已被核实。这种将大量常规状态管理塞进策略的做法,被认为让强化学习同时优化语义搜索决策和可恢复的簿记工作,而后者本可以由环境更可靠地维护。于是,一种名为Harness-1的20B参数搜索代理应运而生,它在一个带状态搜索框架内接受强化学习训练。

这个框架承担了环境侧的工作记忆:维护候选池、带有重要性标记的精选集、紧凑的证据链接、验证记录、压缩和去重后的观察结果,以及基于预算的上下文渲染。而策略仅保留语义决策:搜索什么、保留或丢弃哪些文档、验证什么、何时停止。这种分工让Harness-1在涵盖网络、金融、专利和多跳问答的八个检索基准测试中,平均精选召回率达到0.730,比次强的开源搜索代理高出11.4个百分点,并且能够与体量大得多的前沿模型搜索代理一较高下。

尤其值得一提的是,它在保留的迁移基准测试上表现格外亮眼,暗示着基于显式搜索状态的强化学习能够产生超越训练领域的一般化检索行为。当状态管理被明确地交给环境,策略得以专注于更高层次的判断——这或许正是搜索代理摆脱规模竞赛、走向智能化的关键一步。毕竟,聪明地搜索,比单纯记住更多细节更重要。

2026年6月3日

有一种AI,不再需要为不同感官分别设计不同的“大脑”——它同时理解文字、看懂图片、解析视频、听懂声音,甚至能预测并产生行动。这就是Cosmos 3——一个全模态世界模型家族。它通过统一的混合Transformer架构,将语言、图像、视频、音频和动作序列的输入输出整合在一个框架内,无缝融合了视觉语言模型、视频生成器、世界模拟器和行动决策模型。

研究团队在多项理解和生成任务中进行了严格评估。结果显示,Cosmos 3在多样化任务中均树立了新的最佳水平,证明了全模态世界模型可以成为实体智能体可扩展的通用骨干网络。在技术报告撰写时,其后训练模型被Artificial Analysis评为最佳开源文生图和图生视频模型,同时被RoboArena评为最佳策略模型。这一成绩意味着,从合成数据生成到机器人策略学习,Cosmos 3都展现出了领先性能。

更有意义的是,研究团队选择将全部成果开源以加速物理AI的发展。他们发布的资源包括代码、模型检查点、精心策划的合成数据集以及评估基准,均托管于Linux基金会的OpenMDW-1.1许可之下。这意味着全球研究者可以自由使用、修改和扩展这些工具,无需从头训练。

世界模型从单一模态走向全模态融合,是迈向通用智能的必经之路。Cosmos 3证明了这条路不仅可行,而且高效。当AI能同时“看见、听见、读懂并行动”,它与人类协同的未来将不再遥远。

2026年6月3日

我们正在进入一个机器不仅能听懂语音,还能分辨环境音和音乐旋律的时代。最新发布的MOSS-Audio正是这样一个统一的音频语言模型,它就像一位全能的听觉助理,可以理解你说话的内容、周围环境的声响,甚至一首歌的节奏和情感。这个模型能做的事令人印象深刻:它不仅能为一段音频生成准确的文字描述,还能回答与时间相关的问题,比如“在第几秒出现了狗叫声?”;它可以把语音精确地转录成文字,并带上时间戳,记录每一句是在什么时候说的;更厉害的是,它能进行基于音频的推理——比如听到雨声和车流声后,推断出场景是雨天街头。

支撑这一切的是两个精巧的设计。第一个叫“DeepStack跨层特征注入”,这相当于让大语言模型可以从音频编码器的不同深度获取声学信息,而不是只看最后一层。这样一来,模型既能抓住粗颗粒度的声音轮廓,也不会遗漏微妙的音色细节。第二个是“时间标记”,简单来说,模型在音频数据流中插入了显式的时间戳标记,就像给声音贴上了一个个时间标签,让它能够精确地定位每一个事件发生的时刻。

为了训练这个模型,研究者们设计了一套聪明而细致的数据处理流程。他们会先对音频进行“事件保留分割”,保证每一段都完整地包含一个声音事件,比如一段完整的对话或一首完整的音乐,然后再针对不同分支进行专门标注:语音部分标注说话内容,音乐部分标注旋律和风格,环境音则描述声源。最后,这些分支标注会被合并成统一的字幕,用于预训练。更重要的是,中间的分支特定字幕也被保留下来,用来构建任务导向的监督微调数据。

整个模型经过了大规模音频-语言数据的预训练,其中特别加入了时间感知的目标函数,让模型学会时间定位;随后又进行了多阶段的后训练,进一步提升它遵循指令和进行音频推理的能力。最终的成果有4B和8B两种参数量版本,分别提供“指令”和“思考”两种配置,以适应不同场景的需要。在通用音频理解、语音字幕、自动语音识别以及带时间戳的语音识别等任务上,MOSS-Audio都展现出强劲的性能,为未来更智能的语音代理打下坚实的基础。

如果说过去的音频模型像是一本有声词典,只能查词句,那么MOSS-Audio更像是一个善于倾听和思考的伙伴,它让机器开始理解声音的维度和秩序。时间戳让它知道“何时”,DeepStack让它明白“何意”,而统一的框架让它能跨越语言、噪声与旋律的边界。当技术与叙事相遇,每一段声音都将拥有被完整解读的可能。

2026年6月3日

过去,参数高效微调(PEFT)一直被当作全量微调的廉价替代品——省算力、省时间,但总被看作“缩水版”。如今,一项新研究颠覆了这一认知:PEFT的真正潜力,在于成为持久个性化模型的紧凑基底。

核心思想很简单:将大型的基础模型视为共享的“通用大脑”,而每个用户或任务则通过极小的适配器(Adapter)携带专属的“记忆芯片”。这种适配器不是临时补丁,而是持久的本地状态,记录着个人偏好、技能习惯、工具使用模式,甚至类似记忆的更新。基础模型提供共享能力,适配器则赋予实例特定的行为。

研究围绕三个缩放轴展开探索:Scale Up(向上缩放)——更强的共享先验知识,能让更小的局部更新发挥更大作用;Scale Down(向下缩放)——挑战适配器的极限,探索它究竟能缩到多小仍保持可靠性;Scale Out(向外缩放)——让成千上万个持久的适配实例共存,各自管理自己的身份与演进。

为了实现这一愿景,团队开发了MinT基础设施,专门处理适配器的身份管理、版本修订、来源追溯、效果评估以及服务驻留。这意味着,每个适配器都可以像独立软件包一样被追踪、部署和迭代,而无需改动庞大的基础模型。

传统上,我们为了个性化往往需要为每个人微调整个模型,成本高昂且难以维护。而PEFT的新范式,将个性化嵌入到极小的适配器中,实现了“模型共享、个性分离”。这不仅是成本的优化,更是架构思维的转变:从“为每个用户造一个模型”走向“一个大脑,无数记忆卡”。

最终,这项研究暗示了一个更优雅的未来:PEFT不再只是预算紧张时的备选方案,而是构建持久、可扩展、专属于每个用户的AI系统的理想基石。当每个适配器都能承载独一无二的经验与习惯,我们离真正的“千人千面”人工智能,或许只差这些小巧而强大的记忆芯片。

2026年6月3日

逆图形学是一个古老而高度欠约束的问题,目标是让计算机能从一张照片反向推算出背后的可编辑3D场景,实现渲染、重打光、物体操控等操作。过去研究者们往往依赖专门的2D或3D基础模型、可微渲染技术或者多视角的监督信号,然而这些方法要么需要大量标注数据,要么在面对复杂光照和材质时捉襟见肘。

现在,一个名为“分阶段可执行逆图形”(SEIG)的新框架跳出了这些限制。它利用预训练的视觉语言模型(VLM),比如GPT-4V,让模型像一位数字雕塑师一样,从一张单视角图像出发,逐步在可执行的Blender程序代码空间中构建场景。整个过程被拆解为四个阶段:先大致定位物体的几何形状,再确定表面的材质属性,接着调整场景中物体的布局和遮挡关系,最后添加光影信息。每个阶段,模型都会审视自己已有的成果,并修正下一步的细节。

在实验测试中,研究人员把SEIG生成的3D场景与真实场景进行了像素级、感知层和语义层的多重对比。结果发现,没有这种分阶段拆解思路时,模型生成的场景往往会出现几何错位、材质漂移甚至光源方向相反的问题;而经过一步步迭代修正,保真度出现了显著提升。例如在一张杂乱桌面的照片上,SEIG能正确区分出金属玩具的镜面反射和旁边塑料杯的漫反射,连桌布上的褶皱阴影都被还原为合理的环境光遮蔽效果。

更令人兴奋的是,这些重建出的场景是真正的可编辑Blender文件。用户可以直接修改材质的颜色,调整光源的强度,甚至把场景中的茶杯旋转一百八十度,所有操作都像在专业软件里一样自然——而这一切的起点,只是一张普通手机拍下的照片。这项研究预示着一个可能性:未来的创作者或许不需要繁琐的建模流程,只需对着实物拍张照,AI就能帮你变出可任意玩耍的3D数字孪生。

这个能力足以让人重新思考“看见”与“理解”的边界。当模型不仅能识别照片里的是一只猫,还能推测出它绒毛的材质、身后的阴影来自哪个方向,甚至把这一切变成一串可以编辑的代码,我们离真正的视觉智能或许比想象中更近。每一次对场景的逐步拆解,都是让机器学会像人类一样“拆开再组装”世界的一个小脚印。

2026年6月3日

理解一段视频,远不止识别几个孤立瞬间。人类能持续追踪画面中物体、状态和事件的变化——这种能力被称为视觉状态跟踪,它是视频理解的基石。然而,当前对多模态大语言模型(MLLM)的评估却很少触及这个能力。为此,研究者提出了一个名为VSTAT的视频基准,专门诊断MLLM在视频中的视觉状态追踪表现。

VSTAT由834个视频片段组成,既有合成场景,也有真实世界画面,并配有1500道精心设计的题目。这些题目无法从任何单一帧或短片段中得出答案,必须依赖对整个视频流中事件的连续感知和整合。例如,观看一段打篮球的录像,模型不能只靠某一次投篮动作就推断比赛结果,而要持续跟踪球权变换、球员跑位和得分变化。

令人惊讶的是,尽管当前最先进的MLLM在现有视频基准上表现强劲,但在VSTAT上却远不及人类——它们仅略优于基于答案先验的基线模型。研究者深入分析了这一差距,将MLLM的思维轨迹与底层视频流进行对比,发现模型在文本推理层面能够正确描述和追踪变化,但在实际视觉感知环节就失败了。换句话说,模型知道该看什么、该追踪什么,但眼睛“看不见”关键画面。

进一步的初步评估显示,近期热门的智能体方法,包括基于MLLM的视频代理和编码代理,也无法轻易解决这一问题。它们同样在VSTAT上表现欠佳,说明当前主流技术路线在视觉状态跟踪上存在根本性短板。

这项研究给火热的多模态大模型敲响了一记警钟。当模型能游刃有余地回答“视频中有什么”,却难以回答“视频中什么在变化、如何变化”时,我们或许该重新审视:真正的视频理解,究竟离我们还有多远?毕竟,如果连人眼最基本的跟踪能力都难以企及,那么再华丽的推理也只是空中楼阁。

2026年6月3日

在机器人学习领域,一个长期困扰研究者的问题是:语言指令描述的是语义目标与事件,视觉系统捕捉的是连续变化的场景动态,而机器人动作却运行在毫秒级的控制时间尺度上。以往的“世界动作模型”试图将这三者强行塞入同一个固定长度的预测窗口,结果导致模型只会做短视的“相关拟合”——就像让一位马拉松运动员、一位短跑选手和一位散步的老者必须踩着完全相同的节拍前进。这种粒度错配,正是制约机器人泛化能力提升的隐形瓶颈。

WALL-WM(World Action Model)给出了一个截然不同的解法:让动作学习围绕“语义事件”展开。研究团队提出,与其用固定长度的动作块作为学习单元,不如将视频和动作数据组织成有意义的、语义连贯的事件。比如,“拿起杯子”是一个完整事件,其内部的动作时长可以变化,而不必被机械地切成固定帧数。为此,他们设计了事件驱动的视觉-语言-动作预训练方法,并配套构建了包含事件级描述和聚类平衡采样的数据生态系统。这套系统能够在大规模、多样化的场景和任务结构中进行可扩展学习,让模型真正理解行为背后的意图而非只有局部相关。

更巧妙的是,从同一套预训练骨干网络出发,WALL-WM支持两种互补的推理模式。在事件模式下,模型消耗下一事件的文本描述,自主决定执行多少个时间步的动作,实现可变长度的动作执行。在统一模式下,模型借助一个视觉语言模型与“阶梯解码”策略,既能兼容传统的固定长度动作块推理,又保留了一条梯度连续的视觉-语言-动作路径。此外,研究团队还引入了基于Muon优化器的大规模预训练基础设施,为通用世界动作模型提供了一套实用的扩展配方。

实验结果令人振奋:在真实世界的大规模泛化评估中,WALL-WM在跨语言、跨场景、跨任务维度上均展现出了前所未有的广度与性能,达到当前最先进水平。它不是简单地“刷榜”,而是证明了语义事件作为学习原子单位的可行性。

或许,真正的智能不在于学会每一帧的动作,而在于理解每一个事件的起承转合。当机器不再被固定窗口束缚,而是跟随事件的脉络灵活应变,人与机器的协作将不再是僵硬的指令执行,而是富有节奏的共舞。

2026年6月3日

想象一下你走进一个陌生的房间,手里拿着一张照片,你需要通过移动身体、转动头部,直到你看到的场景与照片完全一致。对人类来说,这几乎是与生俱来的能力,眨眼间就能完成。但如果让一个AI去做同样的事呢?它需要在三维环境中主动调整自己的视角,每一步都依赖对空间的理解和对视觉信息的记忆。这不再是被动地分析一张图片或一段视频,而是真正的主动感知与行动。

这正是研究人员提出的新任务——目标视角复现。他们把这一挑战命名为TVR,并搭建了名为TVRBench的室内仿真基准测试。在这套系统里,AI被置于一个三维房间或跨多个房间的复杂环境中,每次任务都给定一张目标图像,AI必须通过连续的动作(如向前走、向左转、向右转身)来改变自己的观察,直到它实时看到的画面与目标图像高度一致。整个过程没有地图、没有导航路径,只有纯视觉输入和自身的运动指令。

为了衡量AI的真实能力,研究团队测试了当前最强的开源和闭源模型。结果令人震惊:在测试集中,最好的开源模型成功率只有7.8%,而闭源模型也只有12.0%。换句话说,超过88%的情况下,AI都无法准确复现目标视角。这暴露了一个根本性问题:现有的大模型在处理多轮视觉历史时表现糟糕,尤其是在需要身体平移而非原地旋转时,模型几乎无法正确理解空间上的差异与运动之间的映射关系。它们可以认出“这是什么”,却不知道“我应该怎么动才能看到那个东西”。

为了找到缩小这一差距的方法,研究者构建了一个统一的后训练框架,包含四个主要环节:基于专家轨迹的监督微调、基于推理链的监督微调、离线单轮GRPO强化学习,以及在模拟器实时交互中的多轮GRPO强化学习。结果表明,视觉与动作联合的监督微调贡献了最主要的提升:一个9B参数的开源模型,经此训练后成功率飙升至50.8%。而在此基础上加入实时交互的多轮GRPO,性能进一步提升到51.4%。有趣的是,推理链监督和单轮GRPO反而会降低闭环控制中的表现——在复杂的空间任务中,AI并不能总是从“分析自己的思考过程”中获益,依赖实时试错的强化学习反而更容易陷入局部最优。

这些数据不仅揭示了当前AI在空间智能上的短板,也指出了可能的突破方向:从被动理解走向主动行动,需要更丰富的视觉历史建模,需要动作与感知的深度融合,也需要更合适的训练策略。TVRBench就像一面镜子,让研究者看清了地基模型在三维世界中的真实水平。当AI能够在虚拟房间里自如地复现任何一个视角时,我们离它真正理解并融入物理世界,也不再遥远。这是一个需要耐心和创造力的征程,但每一步踏实的实验,都在为未来铺路。

2026年6月3日

在零样本语音合成领域,扩散模型在VAE潜在空间或mel频谱图上运作,已成为主流范式。这些压缩表示虽提升了生成效率,却无可避免地遭遇信息损失和端到端训练缺失的困境。理论上,直接建模原始波形能避开这些问题,但这一方向始终少人问津——因为音频信号的序列长度实在太长了,仿佛一道天堑。

想象一下,你试图一笔一画地描绘整个交响乐团的演奏,而不是用简化的乐谱。这就是直接生成波形面临的挑战。但WavTTS团队偏偏选了这个看似不可能的路。他们提出第一个在原始波形上生成语音的TTS模型,凭借流匹配与扩散变压器(DiT)的巧妙结合,大胆地用简单的分块化策略直接建模波形,同时引入多尺度mel频谱图监督,在训练中提供感知层面的引导。这不再是黑箱压缩,而是让模型在原生空间中学习和创造。

更关键的是,他们深入研究了波形扩散中预测目标和噪声调度的作用,设计出有效调度方案来提升生成质量。实验在开源基准上展开,结果令人振奋:WavTTS不仅紧密追赶上当前最先进的潜在空间零样本TTS模型,更大幅超越了此前所有端到端语音生成模型。这证明,直接缩放扩散TTS到波形空间,不仅是可能的,而且可以走得很远。

每一步探索都在重写边界。或许,最直接的路,才是通往真实声音的捷径。

2026年6月3日

在好莱坞不少人对AI如临大敌时,奥斯卡获奖导演马丁·斯科塞斯却悄然跨出了一步。他公开了自己的新身份:AI图像初创公司Black Forest Labs的顾问,并发布了一段视频,展示他如何用该公司的FLUX模型为一部新电影绘制故事板。

斯科塞斯去年便与Black Forest Labs签约,成为其合作伙伴和顾问。他的使用场景很明确:仅用于电影前期制作的故事板,绝不生成演员、布景或实拍素材。当导演能瞬间将脑海中的画面变成可视化的分镜,并与团队共享,斯科塞斯称之为“创意上的解放”。在他看来,电影这门艺术还很年轻,只有约125年历史,“所以我们必须对它的进化保持开放”。

这条消息很可能刺痛好莱坞那些反AI的神经——毕竟斯科塞斯是这个行业中拥有传奇地位的标杆人物。但他的做法恰恰提供了另一种解读:AI不是要取代电影人的创意,而是辅助它,让前期预演更高效、更直观。对那些对全AI电影或AI工作室心存疑虑的电影人来说,这或许是一个更温和、更可接受的入口。

技术的意义不在于它多强大,而在于用它的人如何划定边界。斯科塞斯把AI当作一支新的铅笔,而不是一台替自己作画的机器。这种“有限度的拥抱”,或许才是创意行业与新技术共存的正确打开方式。

2026年6月3日

美国总统特朗普签署了一项行政令,要求开发前沿人工智能模型的实验室在发布前,自愿将模型交给政府进行为期30天的安全审查。这与此前预期的90天要求相去甚远。在5月21日计划举行签字仪式前的几个小时,特朗普废除了90天草案,他告诉记者,这一要求会“妨碍”美国与中国的AI竞赛。根据新令,实验室需在发布前30天内,通过一个保密流程标记“受覆盖的前沿模型”,这些模型被认为有能力发现安全漏洞。此前担任AI事务负责人的戴维·萨克斯曾反对最初的草案,但在审查窗口从90天缩短至30天后转变了立场。行政令还明确规定,新模型无需强制许可或批准,并指示司法部打击利用AI进行的计算机系统入侵。随着Anthropic的Claude Mythos即将公开发布,而GPT-5.6也可能具备类似能力,网络安全威胁变得非常真实且迫在眉睫。然而,这项行政令看起来更像是政府试图在AI前沿领域获得一个(自愿的)前排座位,而非真正解决潜在安全问题的手段。这场博弈的实质,是安全与速度之间的拉锯。当技术狂奔时,监管者既想抓住缰绳,又不敢勒得太紧。

2026年6月3日

在2026年的Build开发者大会上,微软掀起了一场全栈智能体AI的浪潮。这家科技巨头一口气发布了七款名为MAI的自研模型,覆盖推理、编程、图像、语音和转录等多个领域,开发者可以通过微软Foundry平台直接调用。更引人注目的是,微软推出了首个“自动驾驶”智能体——Scout,它基于OpenClaw架构,内置于Teams中,能主动执行会议安排、资料准备等任务。与此同时,量子芯片Majorana 2的亮相令人振奋——这款由AI辅助设计的芯片将可靠性提升了1000倍,有望将实用量子计算机的实现时间缩短至2029年。在硬件方面,微软预览了名为Project Solara的智能体设备平台,并展示了徽章和桌面伴侣等概念设备。继Surface Laptop Ultra之后,微软还推出了专为AI负载打造的迷你PC——Surface RTX Spark Dev Box。

这一切都发生在Nvidia的“大日子”之后——Build大会紧随其后的时间点显得意味深长。微软不仅延续了智能体的主题,还与Nvidia合作开发AI笔记本电脑和PC。凭借自研模型、自主智能体和专用硬件,微软正在摆脱OpenAI的阴影,开辟一条全新道路。当智能体不再只是聊天机器人,而是能主动替你安排行程、设计芯片、甚至成为你身上的徽章时,我们或许正站在计算革命的门槛上。问题是:谁将真正掌控这些智能体?微软的回答是Windows和Microsoft 365,但答案才刚刚开始书写。

2026年6月3日

胰腺癌,这个被称为“癌王”的恶性肿瘤,几十年来一直让医生和患者感到绝望。它极具侵袭性,传统化疗效果有限,靶向治疗更是屡屡碰壁。直到最近,一款名为daraxonrasib的口服小分子药物悄然登场,在500名患者的3期临床试验中,它首次将转移性胰腺癌患者的中位总生存期从化疗的6.7个月拉长到13.2个月,几乎翻了一倍。

这组数字背后是一个个真实的人生。参加试验的患者都是经过前线治疗后病情仍进展的难治性病例,而daraxonrasib作为每日一次的口服RAS抑制剂,交出了令人震惊的成绩单:死亡风险降低了60%,肿瘤无进展生存期从化疗的约3.6个月提高到7.2个月。更重要的是,约三分之一的患者用药后影像上肿瘤缩小超过30%,而化疗组这一比例仅约8%。副作用方面,daraxonrasib比化疗更温和,患者的耐受性明显更好。

这颗药的聪明之处在于精确打击。胰腺癌中约90%由KRAS基因突变驱动,而daraxonrasib恰恰是首个靶向KRAS蛋白活性状态的RAS(ON)抑制剂,相当于直接掐断癌细胞的“生长开关”。此前,KRAS突变蛋白被认为是“不可成药”的靶点,但近年来一系列进展正在改写这一认知。目前该药已获得美国FDA快速通道资格,并开放了扩大使用计划。

为什么这个突破如此重要?因为胰腺癌对靶向药物的抵抗已经持续了数十年。60%的死亡风险降低,是任何3期试验中从未见过的数字。更令人期待的是,相同的KRAS突变也存在于肺癌、结直肠癌等高发癌症中,这意味着daraxonrasib验证了一条全新的治疗路径,可能为更多癌种带来希望。当医学终于撬动那个最顽固的靶点,我们或许正在见证一个治疗时代的拐点。

2026年6月3日

苹果在可穿戴设备领域踩下了刹车。据彭博社马克·古尔曼报道,苹果将AI智能眼镜的发布时间推迟了大约一年,原本计划2026年底亮相、2027年初发货的“N50”眼镜,现在要等到2027年底才能面世。这款眼镜被设计成类似雷朋Meta风格的无屏幕轻量级AI伴侣,只有摄像头、麦克风和内置智能助手,没有显示屏。开发进度延误直接导致整个路线图后移。

推迟这一年对苹果来说是一把双刃剑——好消息是,公司能腾出时间把多模态AI做扎实,这是决定眼镜是“注定成功”还是“仅限尝鲜”的关键。坏消息是,Meta、谷歌以及一众可穿戴AI初创公司将获得更长的窗口期,在苹果带着自己的版本现身之前,它们可以更从容地巩固市场地位。

Siri的AI大升级预计在今年年底率先登场,但苹果显然在承认,视觉AI技术尚未成熟到能让眼镜产生“魔法般”的体验。这一年多的等待,意味着Meta和其他所有“戴在脸上的AI”创新者将拥有一条宽阔的起飞跑道,直到苹果姗姗来迟。当巨头放慢脚步时,整个赛道的节奏却不会为任何人停留。

2026年6月3日

当其他车企还在为自动驾驶事故的责任归属争论不休时,比亚迪做出了一个大胆的决定——为旗下“天神之眼5.0”驾驶辅助系统引发的碰撞事故买单。这家中国电动车巨头宣布,只要驾驶员合法使用城市领航辅助功能(Urban Navigate on Autopilot),即便系统判断失误导致事故,比亚迪也将承担车辆维修、第三方财产损失和人身伤害的全部费用。这在中国乃至全球汽车行业都堪称首次。

比亚迪的底气来自其庞大的数据王国:目前超过315万辆汽车搭载了高级驾驶辅助系统,每天通过“天神之眼”采集的行驶数据超过1.24亿公里。这相当于每天绕地球3100圈的数据量,让比亚迪能够不断训练算法、优化决策。更重要的是,公司并非首次尝试这种“责任承诺”——去年,当它为智能泊车功能推出类似保障后,该功能的使用率从21%飙升至93%。这证明了消费者对“有保障的自动化”的强烈渴求。

相比之下,其主要竞争对手特斯拉仍坚持将事故责任完全归于驾驶员,多次在Autopilot相关事故中质疑自身责任。在中国电动车企业不断在续航、充电速度和智能功能上缩小差距的当下,比亚迪此举直接切入消费者最深的焦虑:如果机器犯错,谁来买单?

这不仅是营销层面的创新,更是一场关于信任的革命。当一家车企愿意为“人工智能的失误”提供财务背书,它实际上是在说:我们相信自己的技术,并且愿意为这种信任承担后果。如果这一策略奏效,它可能彻底改变消费者对自动驾驶的预期,同时把竞争的压力抛回给特斯拉等对手——因为它们可能被迫重新评估自己的责任立场。

责任从不是技术的敌人,而是它走向成熟的通行证。当一辆车上的“眼睛”能看清道路,背后的公司也要敢于承担它“看不见”的风险。

2026年6月3日

在Computex展厅的聚光灯下,微软悄然揭开了一款名为Surface Laptop Ultra的笔记本,这不仅是微软史上最激进的硬件,更承载着Windows阵营在高端市场挑战苹果的野心。它搭载了Nvidia专为AI时代打造的RTX Spark平台——一个集成了20个ARM CPU核心、6144个CUDA核心的Blackwell GPU以及最高128GB统一内存的“超级芯片”,整体AI算力达到Petaflop级别。这意味着,创作者可以同时运行3D渲染与AI模型推理,开发者能无缝切换大模型训练和数据预处理,而所有内存都在CPU和GPU之间动态共享,不再有传统分离式内存的瓶颈。

屏幕是另一个亮点:15英寸的mini-LED PixelSense Ultra触控屏,峰值HDR亮度飙升至2000尼特,让HDR视频编辑和户外使用都游刃有余。微软将这款设备定义为“为创作者、开发者和AI构建者而生”,而它确实在硬件上给出了回应——但价格仍是悬念。分析师预测其起步价将在3000美元左右(对标MacBook Pro 16),顶配版本可能高达7000美元,这无疑将考验主流用户的承受力。

随着华硕、宏碁、戴尔等品牌也陆续推出RTX Spark机型,Windows on ARM的高端赛道已然开启。微软的这张牌能否让创作者告别苹果的生态?或许答案并不在于参数本身,而在于当AI算力变得如水电般日常时,谁能提供更无缝的工作流和更开放的工具生态。毕竟,一场竞赛的胜负,往往在起点之外。

2026年6月2日

今年3月,Meta做了一个大胆的决定:让AI助手拥有处理Facebook和Instagram密码重置的权限。这个看似提升效率的举动,却成了黑客眼中的“金矿”。黑客发现,只需在AI客服对话框里简单要求更换邮箱地址,AI便会乖乖发送验证码到新邮箱,整个过程就像点餐一样轻松。

一场针对知名账户的猎杀就此展开。黑客人通过切换VPN伪装成目标所在地区,然后向AI客服请求密码重置和邮箱更改。AI毫无防备地发送了验证码,黑客轻松接管账户。前总统奥巴马的休眠账户、美妆巨头丝芙兰、甚至太空军高官John Bentivegna的账户纷纷沦陷。更令人震惊的是,这些账户在几分钟内就被转手卖掉,黑客几乎不用费什么力气。

这个漏洞持续活跃了数月。直到媒体404报道后,Meta才承认问题“已得到解决,我们正在保护受影响账户”。但安全专家指出,这绝不是AI客服第一次出问题,也不会是最后一次。真正令人担忧的是,像Meta这样拥有前沿AI雄心的科技巨头,竟然将整个客服系统交给一个如此容易被利用的对话机器人。

黑客不需要复杂的黑客技术,不需要破解代码,甚至不需要任何编程知识。他们只需要会说话,会提问。当AI被赋予关键权限时,一句简单的“帮我换个邮箱”就能捅破天。这提醒我们,技术越是智能,安全防线就越不能想当然。有时候,最危险的漏洞不在于代码有多复杂,而在于我们对AI的信任有多盲目。

2026年6月2日

在美国版《纽约时报》的一篇专栏文章中,参议员伯尼·桑德斯提前披露了一项即将提出的法案——《美国人工智能主权财富基金法案》。核心设想简单而激进:要求OpenAI、Anthropic和xAI等顶级AI公司,将50%的股票上交国家,成立一个公共基金,并将投资收益以现金形式直接发放给每一位美国人。

桑德斯将这一提议描述为“以股权形式征收的一次性税款”。政府将因此获得这些AI公司的投票权,并能在其董事会中占据席位。他引用AI实验室自身的先例作为佐证——它们此前曾主动向公众游说,承诺通过“全民高收入”等方式来分配AI带来的巨大收益。但桑德斯的方案更为直接:与其空谈,不如直接让民众成为股东。

为了证明可行性,桑德斯搬出了两个现实模板:挪威因石油资源建立的2万亿美元主权财富基金,以及美国阿拉斯加州将石油收益分红给居民的做法。他写道:“AI正在建立在一个远比石油更有价值的公共资源之上,那就是人类积累的知识、创造力和劳动。”

这一提议的背景耐人寻味。当前,公众对AI的普遍情绪正处于低谷,而顶级AI实验室的超级IPO(首次公开募股)估值高得惊人,普通投资者几乎无法参与其中。桑德斯担心普通人并未从AI浪潮中受益,这并非杞人忧天。然而,尽管姿态动人,要让这些羽翼渐丰的AI巨头心甘情愿交出50%的股权,恐怕是另一个完全不同的问题。

或许,我们正站在一个十字路口:要么让少数人凭借人类共同的知识遗产一夜暴富,要么尝试用民主手段将这份财富重新分配给所有人。桑德斯的提案像一颗石子投入平静的湖面,激起的涟漪远比答案本身更值得深思。

2026年6月2日

在COMPUTEX 2026的聚光灯下,Nvidia一口气抛出了一连串AI新品,从硬件到模型,从机器人到自动驾驶,所有动作都围绕着同一个核心预言:AI代理即将成为计算资源的头号消费者。这家市值超过5万亿美元的芯片巨头,正在将自己的整个产品线重新编排,去服务一个两年前还不存在的软件类别。

首先登场的是与微软合作打造的RTX Spark超级计算机芯片,它能把AI代理直接搬到个人电脑上运行。Nvidia宣称,这项技术让Windows系统“从工具变成了队友”——你的电脑不再只是等待指令的机器,而是能主动协作的伙伴。紧接着,Nvidia发布了名为Vera的处理器,并直接将其称为“代理的CPU”。官方数据显示,Vera执行任务的速度比竞争对手快1.8倍,目前已经被Anthropic、OpenAI和纽约证券交易所采用。它不只是一颗芯片,更像是为AI代理量身定制的思考引擎。

在机器人领域,Nvidia推出了开源模型Cosmos 3。传统的机器人和自动驾驶汽车往往只能对突发情况做出被动反应,而Cosmos 3赋予了它们提前规划、预判动作的能力——就像一位老司机能提前看出路口可能会窜出自行车,而不是在最后一秒才急刹车。这种从“反应”到“预判”的跨越,或许会彻底改变机器人应用的边界。

最后,Nvidia在模型战线上亮出了Nemotron 3 Ultra。这是一个拥有5500亿参数的开源大模型,直接登顶美国开源模型排行榜,并与中国的Qwen3.5、Kimi K2.6等强劲对手展开正面竞争。在开源社区和商业应用的交叉点上,Nvidia选择了一条开放但竞争激烈的路。

从芯片到系统,从模型到生态,Nvidia似乎在说:未来不属于单纯的计算机,而是属于那些能在计算机上自主行动、替人办事的代理软件。一家公司不可能在所有技术栈上都做到极致,但Nvidia正在尝试搭建一条从底层算力到上层应用的完整通路。当计算需求的主体从人类用户变成数字代理,万亿级企业的全部身家押注在一条尚未完全成型的赛道上——这种孤注一掷的姿态,本身就值得所有人认真审视。

2026年6月2日

想象一下,你是一名新入职的客服主管,需要快速掌握一位顶级客服专家的全部经验——他如何处理投诉、何时坚持底线、哪句话能平息怒火。这些知识从未写成手册,而是散落在成百上千通电话录音、邮件回复和内部备忘录里。你只能自己听录音、读邮件,在碎片中拼凑出那位专家的“习惯性反应”。这不仅是新员工的困境,更是当前AI智能体面临的核心难题:它们能完成孤立的任务,却很难承载属于特定人的判断、经验与互动风格。

现有方案各有残缺:记忆系统只保存零散片段,人物设定模块(persona)又过于抽象,而技能框架虽有标准格式,却缺少一套完整流程,把那些零散的“痕迹”提炼成可检查、可修正、可直接调用的技能。这正是本文介绍的开源系统所要解决的问题——它提供了一条从“痕迹”到“技能”的全自动蒸馏工作流。

系统的工作方式颇具巧思:给定目标人物或角色的原始材料(如聊天记录、决策日志、反馈历史),它自动生成一个带版本号的技能包。这个技能包包含两条并行的轨道:一条是“能力轨道”,专门承载实践中积累的方法、思维模型和决策启发性原则;另一条是“边界行为轨道”,负责记录沟通风格、互动规则和犯过的错误及其修正记录。两条轨道共同构成一个既完整又可追溯的技能蓝图。

这个技能包不是一次性的静态产物。它能被检查、调用,也能通过自然语言反馈进行更新,甚至可以如软件版本管理般回滚到旧版。它还可以跨智能体主机安装,并可选地做好受控分发的准备。换言之,一个凝聚了专家长期经验的技能包,变得像一只可以随时更新、随时装到不同设备上的U盘。

系统背后有清晰的构架支撑,包括技能工件契约、生成工作流、修正生命周期、部署界面以及在多个领域预设的模板。发布至今,公开仓库已有约18.5k颗GitHub星;技能画廊里陈列着来自165位贡献者的215项技能,所有技能卡累计获得超过10万颗星。

这个系统最值得玩味的,是它对AI智能体构建哲学的一个微妙颠覆。过去我们习惯把专家的“秘密”塞进隐晦的提示词或深藏在参数里的记忆隐向量中,而它选择把这些知识包装成可移植、可修正、可审计的文档包。这背后暗示着一个更有趣的可能性:当AI不再以神秘的黑盒方式“假装”像某个人,而是拥有一个可以翻开修改的“说明书”时,人与AI协作的透明度与信任感将走到哪一步?答案或许就藏在每一版技能包的更新日志里。

2026年6月2日

摘要:

为什么更大规模的模型能学会那些小模型永远无法掌握的任务?这不仅是实践中的常识,更是一个令人困惑的科学谜题。一个直观的猜想是,更大模型的参数更多,自然能容纳更多知识。但事情远没有这么简单——即便在训练数据无限的情况下,小模型依然会漏掉某些任务。这背后隐藏着一个以数据为核心的竞争机制。

研究表明,这种能力差异首先与数据的“频率”和“复杂度”有关。小模型就像一个资源有限的团队,它们会把有限的神经元优先分配给出现频率高、复杂度低的任务,因为这些任务在数据中占主导地位,梯度信号更强。于是,小模型在学习过程中会“忽视”那些罕见或复杂任务,甚至当表达这些任务所需的解在模型容量内存在时,它们仍然会失败。这种因数据分布导致的资源竞争,使得小模型只能学会“容易”的任务。

那么,大模型是如何绕过这一瓶颈的呢?答案在于“干扰减少”机制。当模型规模扩大时,它能为常见任务分配足够多的神经元,以至于这些任务对应的梯度更新变得非常微弱——它们不再频繁地“覆盖”掉那些代表罕见任务的特征。换句话说,大模型为稀有任务留出了“生存空间”,让这些特征在训练过程中缓慢积累而不被频繁的更新所抹去。这种机制使得大模型不仅能学会常见任务,还能学会那些小模型永远无法掌握的罕见且复杂的任务。

为了验证这一理论,研究团队设计了合成数据实验,模拟了一组混合任务,这些任务呈现出单调的缩放曲线。随后,他们进一步在真实的OLMo模型(从4M到4B参数)上进行了预训练,引入了具有不同频率和复杂度的新任务。实验结果与合成数据完全吻合:只有更大的OLMo模型学会了那些低频且复杂的任务,并且这些大模型在表示中嵌入了更多任务特征,它们在不同任务之间的梯度干扰也更小。

这些发现揭示了一个反直觉的事实:大模型的能力提升,并非单纯因为参数多,而是因为它们能更有效地应对数据分布中的“不公平竞争”。在无穷的训练数据下,模型的规模决定了它能触及的“知识半径”——小模型只能半径内高频简单的任务,而大模型则能延伸到那些被忽视的角落。这为实践中如何选择模型大小、如何设计训练数据混合比例提供了新的思路。

所谓“大”与“小”,不只是参数数量的差异,更是对数据资源分配策略的根本不同。当数据成为稀缺资源时,规模本身就是一种公平。

2026年6月1日

这本书像一位耐心的导师,带领读者穿越生成式人工智能的数学丛林。它的目标不是罗列所有最新架构或实现细节,而是梳理出一条连贯的路线——从主成分分析(PCA)、概率PCA,到变分自编码器、扩散模型,再到归一化流、自回归分解、生成对抗网络(GAN)、Wasserstein GAN,以及基于能量的模型。作者相信,只有理解了这些模型如何被推导、如何相互关联,才能真正掌握生成建模的结构。

全书以推导为导向,力求在不牺牲数学实质的前提下,让理论变得可及。比如,你会看到PCA如何演变为概率PCA,后者又如何为变分自编码器铺路;扩散模型与归一化流在数学上如何呼应;GAN的对抗训练与基于能量的模型有怎样的深层联系。每一个环节都紧扣“生成”这一核心——从数据中学习概率分布,再从中采样出新样本。

这本书最适合那些对数学好奇的研究者、从业者和学生。它不追求面面俱到,而是用紧凑的篇幅,为读者搭建一座稳固的知识地基。当你合上这本书时,你得到的不是零散的公式,而是一张完整的生成模型思维网络——知道每条路从哪里来,通往何处,以及为什么这样走。

在这条数学路线上,每一步推导都是一次理解,每一个模型都是一扇门,推开它,就能看见生成式AI最底层的逻辑之美。

2026年6月1日

一个程序员深夜调试代码时,总希望有个搭档能读心。Mellum 2正是为此而生——这是名为“Mellum 2”的12B参数混合专家语言模型,每次推理仅激活2.5B参数,专攻软件工程。它是4B密集模型Mellum的进阶版,能完成代码生成、编辑、调试、多步推理、工具调用、代理编码和对话式编程辅助。架构上,它采用64个专家(每次激活8个)的MoE设计,结合分组查询注意力(4个KV头)、每四层中有三层使用滑动窗口注意力,以及一个多token预测头——它既作为预训练的辅助目标,又作为投机解码的内置草稿模型。这些选择都经过消融实验验证,并优先考虑在消费级GPU上的推理效率。

预训练数据量高达约10.6万亿token,分三阶段进行:从多样化网页数据逐渐转向精选代码和数学内容。使用Muon优化器配合FP8混合精度,并采用预热-保持-衰减的学习率调度,最终线性衰减至零。预训练基础模型通过层选择性YaRN扩展到128K上下文窗口,随后进行两阶段后训练(监督微调加RLVR),最终推出两个变体:直接回答的Instruct模型和先输出推理链再给出答案的Thinking模型。

在代码生成、数学推理、工具使用、知识问答和安全基准测试中,Mellum 2与4B至14B参数区间的开源基线模型不相上下,而运行时消耗仅相当于2.5B密集模型。项目以Apache 2.0许可证开源了基础版、Instruct版和Thinking版检查点,并附上架构决策、数据流程和训练方法的详细报告。

这个模型的大小只是一个开始。当人工智能的算力持续向“小而精”的方向演进,我们能期待的不仅是一个更好的编程帮手,更是对知识边界更高效的探索。

2026年6月1日

在机器人强化学习的赛道上,一个根深蒂固的“常识”是:物理引擎必须跑在GPU上,才能换来足够快的训练速度。几乎所有主流方案都把仿真、数据收集和学习绑在同一根GPU执行线上,像一条高速但昂贵的单行道。然而,一群研究者决定拆掉这条默认的轨道。他们追问:效率的瓶颈真的在于物理引擎的处理器归属,还是整个训练循环的同步和吞吐?

答案藏在UniLab里——一个异构的CPU-仿真/GPU-学习架构。它不追求把物理塞进GPU,而是让CPU集群并行跑仿真,通过一个统一运行时来协调数据搬运、缓冲和同步,把仿真和GPU上的策略更新优雅地解耦。UniLab并非空中楼阁:它构建在MuJoCoUni和MotrixSim这两个CPU批处理物理引擎之上,并内嵌了PPO、FastSAC、FlashSAC、APPO等多种主流算法。

在标准的机器人控制任务中,这个看似“倒退”的设计交出了惊人答卷:相同硬件配置下,端到端训练效率提升了3到10倍。更值得玩味的是,它大幅降低了对NVIDIA CUDA生态的依赖——UniLab可以流畅运行在Apple macOS平台,甚至适配AMD ROCm和Intel XPU加速后端。这意味着,GPU仿真是一条高效的路径,但远非唯一路径。

当一项“常识”被重新审视,往往意味着更广阔的选择正在打开。对于机器人RL的工程实践来说,问题的核心从来不是“谁跑物理”,而是“整个系统转得多快”。UniLab用一种轻巧的方式提醒我们:有时候,把鸡蛋放进不同的篮子,反而能让火车跑得更快。

2026年6月1日

大语言模型面对长篇文本时,常常迷失在庞杂的干扰信息中,无法定位并整合关键线索。现有强化学习方案虽带来希望,却依赖低混淆度的干扰物,且只用最终答案对错作为奖励信号,无法监督中间推理步骤——就像只给考生判卷而不指出哪步逻辑出了错。

研究团队从构建更“刁钻”的训练场景入手:他们利用知识图谱随机游走生成需要多跳推理才能回答的问题,再让搜索智能体实地检索,记录下完整轨迹。关键创新在于将轨迹中的文档分成两类——“读过但不引用”的高混淆度干扰物,以及“出现在搜索结果但从未打开”的低混淆度干扰物。这样构造出的训练上下文,远比随机抽样或单一搜索得到的场景更具挑战性。

更精巧的设计在于奖励机制:他们提出一种基于“暗码”的细粒度过程奖励,沿着每条推理链条上的关键实体设置监督信号。但这份奖励只给予最终答案正确的响应(即“只奖正确”策略),以此区分正确响应之间的推理质量差异,同时防止模型钻漏洞取巧。实验在四种推理模型(参数量从4B到30B)和五个长上下文基准上展开,结果显示LongTraceRL始终优于强基线方法,并显著促进了基于证据的全面推理。

长上下文推理的困境,本质上是模型在“信息海洋”中寻找“真相岛屿”的能力问题。当干扰物从简单背景升级为精心构造的迷雾,奖励信号从泛泛的对错变为实体级的精细导航,我们或许正在见证一个更理性的推理时代:不是让模型记住更多,而是让它学会在无关信息中准确筛选出关键证据。