EZ.AI Listen Daily
智能体AI全栈建造指南原文
当你以为打造一个自主AI系统只需要把大模型接上工具时,这本书会告诉你:真正的智能体远不止于此。它像一本搭车指南,带你从底层硅片走到生产部署的每一站。开篇不是炫技,而是扎进LLM的地基——transformer架构如何工作,GPU系统如何支撑,SFT、LoRA、MoE这些微调方法怎么选,模型压缩和推理优化又怎样让大模型跑得起来。作者强调,这些不是可选的背景知识,而是构建自主系统必须理解的基石。
接着,书把焦点转向对齐与推理:RLHF如何通过人类反馈驯化模型,PPO、DPO及其变体、GRPO等强化学习算法如何迭代,以及如何教会模型在测试时链条式思考。这里有一个关键洞察:要让模型变“聪明”,光靠预训练不够,还需要奖励建模和规模化推理能力。
进入真正的智能体领域后,这本书开始变得生动。它详细拆解了如何训练一个能自主决策的agent:通过基于轨迹的强化学习,让智能体在试错中学会规划。然后,记忆系统登场——上下文记忆、外部存储、情景记忆和语义记忆分别应对什么场景?RAG和更高级的Agentic RAG如何让智能体不仅知道答案,还能主动检索证据?你还会看到智能体的“缰绳”设计:如何管理上下文窗口、如何设计代理的交互界面,以及一系列设计模式的分类。
更让人兴奋的是智能体之间的合作。书中深入介绍了模型上下文协议(MCP),这是连接智能体与工具的桥梁;还有Agent-to-Agent(A2A)通信协议,让多个智能体能像团队一样协同。多智能体架构的三种拓扑——集中式、去中心化和层次化——各有优劣,书里都给出了实用指导。
最后,这本书没有停留在理论:它带你了解主流的开发框架,讨论智能体UI的设计原则,讲解如何评价一个代理式任务的完成质量,以及最终如何把这些系统部署到生产环境。每一章都配有实现指南、代码示例和原始文献参考,确保你既能看懂原理,也能动手实践。
这本书最深层的启示是,真正的自主AI系统没有银弹。从transformer的注意力机制到多智能体间的握手协议,每一层都在微妙地影响着最终的行为。如果你想构建的不仅是一个“会回答问题”的机器人,而是一个能自己决策、调用工具、与其他系统协作的智能体,那么你需要的正是这种俯瞰全栈的视角。否则,任何一个被忽略的底层细节,都可能成为未来崩溃的裂缝。
视觉世界模型正迎来一次关键变革。过去,像LeWorldModel(LeWM)这类联合嵌入预测架构,虽然能免去重建步骤,但在规划时却有一个致命缺陷:它必须反复应用局部的一步潜变量转移模型,像多米诺骨牌一样逐帧推演候选动作序列。这种自回归的“滚雪球”方式,不仅让计算成本急剧攀升,更让预测轨迹随着规划视野拉长而累积潜变量误差,就像在迷雾中越走越偏。
为了打破这种局限,研究者提出了快速潜变量世界模型Fast-LeWorldModel(Fast-LeWM)。它的核心思路堪称巧妙:不再沿着时间线一步步滚动,而是将候选动作序列按前缀分组,一次性并行预测执行这些前缀后的未来潜状态。想象一下,假设我们要规划未来10步的动作,传统方法得一步步模拟10次,而Fast-LeWM将这10步拆解成不同长度的前缀(比如前3步、前5步、前8步),然后同时预测每个前缀执行完后的状态。这种“前缀级监督”迫使模型直接学习动作在不同时间跨度上的累积效应,而非仅仅拟合单步转移。
更令人振奋的是,在规划阶段,Fast-LeWM只需提取编码动作序列的最后一个前缀标记(prefix token),就能直接评估对应的未来潜状态,完全绕过了中间状态的显式推演。这种“跳步”能力,让规划效率大幅提升。实验表明,在多个视觉规划任务中,Fast-LeWM不仅平均成功率优于LeWM,规划时间也显著缩短;更重要的是,随着预测视野延长,它的开环潜变量损失增长变得极为缓慢,仿佛在时间的长河中找到了更坚定的航向。
这项改进揭示了一个深刻道理:很多时候,高效不是靠单步的精确,而是对全局累积效应的预判。当模型学会从整体上把握动作的长期影响,那些被局部推演消耗的计算资源,便转化成了更快的决策和更稳的轨迹。或许,在智能系统迈向更复杂世界的路上,这种“跳脱线性因果、拥抱并行前缀”的思维方式,正是破局的关键。
试想一个语言智能体在虚拟世界中执行任务,它像一位蒙眼旅人,只有在抵达终点时才能凭微弱铃声判断方向——这正是传统强化学习的真实写照:基于结果的奖励信号稳定可靠,却对中途那些至关重要的岔路口选择毫无反馈。研究人员发现,虽然在线策略自蒸馏技术能提供逐词级别的密集指导,但现有方法往往需要外挂技能记忆库或调取特权上下文,不仅维护成本高昂,更可能因与当前策略的交互状态分布不匹配而适得其反。
为此,来自学术团队提出了OPID框架,它像一位在暗处默默观察的导师,从智能体刚刚完成的整条行动轨迹中即时萃取经验智慧。这位"导师"拥有双重记忆:宏观的回合级技能,像登山者总结的"避开落石地带"这类全局生存法则;以及微观的步级技能,比如"看到红色按钮先确认能源标识"这种关键节点的局部决策诀窍。最关键的是,OPID配备了一套"危机优先路由"机制——当检测到行动轨迹中遇到生死攸关的抉择点时,它立即亮出步级技能作为精准指导;而在日常平稳行进时,则默认调取回合级技能提供背景知识。
被选中的技能会悄然注入到交互历史中,让旧版策略在原始语境和技能增强语境下重新评估相同响应的好坏。这两组评分的概率差,便形成了逐词级别的自蒸馏优势信号,再与全局结果优势信号融合,共同驱动策略优化。这种设计完美保留了强化学习作为主要训练目标的主心骨,同时引入了与原策略状态分布完美匹配的密集事后指导。
实验在三大典型场景中展开验证:在ALFWorld的客厅寻物任务中,智能体成功率提升12%;在WebShop的网页购物模拟里,采样效率提高近30%;在基于搜索的问答平台上,对噪声防御能力显著增强。数据显示,OPID在所有这些场景下都全面超越纯结果强化学习基线,以及现有各类技能蒸馏方案。结局发人深省:当智能体不再只盯着终点线,而是学会复盘每一步脚印时,成长的速度远超想象。这或许暗示,真正的智能不在于一次完美的落子,而在于从每一局残局中提炼出可供传承的棋谱。
现实中的用户请求常常模糊不清、隐含依赖,或需要最新知识,这让顶尖的文生图模型也时常“跑偏”。这不是模型笨,而是因为它看不懂用户的“潜台词”——比如你说“画一个春天的公园”,它可能只知道画花和树,却不知道你想要的是“三月的樱花树下,有人野餐”那样的场景。这种用户心里想的和模型理解的之间的差距,研究者称之为“上下文鸿沟”。
为了填平这道鸿沟,一个名为Qwen-Image-Agent的统一智能体框架登场了。它的核心思路很简单:把用户的输入当作不完整的碎片,然后像个精明的侦探一样,主动去规划还需要什么信息,再通过推理、搜索、记忆和反馈等渠道,把缺失的上下文一块块拼凑完整。这个过程分两步走:第一步是“上下文感知规划”,模型会先判断缺了什么,比如用户没提季节、天气、人物动作,它就会制定计划,知道要问哪些问题、搜哪些资料;第二步是“上下文落地”,它真的去执行计划:调用自己的知识库推理,联网搜索实时信息,回忆之前和用户的对话,甚至根据用户的反馈调整结果。
为了验证这种“智能体式图像生成”的能力,团队还专门搭建了一个叫Image Agent Bench(IA-Bench)的基准测试,涵盖四项核心本领:规划、推理、搜索、记忆。实验结果令人振奋——在IA-Bench、Mindbench和WISE-Verified等测试上,Qwen-Image-Agent击败了多个强基线模型,达到了当前最优水平。
这不仅仅是一次技术升级,更是人机交互方式的变革。当模型学会主动追问、搜证和反思,它就不再只是被动执行指令的机器,而成为真正理解用户需求的伙伴。未来的图像生成,或许将从“你说我画”进化为“你还没说,我就懂了”。
解耦幅度与方向,训练更稳定原文
在训练神经网络时,权重矩阵的幅度和方向总是纠缠不清——方向更新受当前幅度影响,而幅度变化又只是学习方向的副产品,这让学习率无法直接控制任何一方。为了稳定训练,工程师们不得不倚重权重衰减、学习率预热等“配套食谱”,但这些方法只是间接调节耦合关系;另一些方法将权重强行约束在固定范数的超球面上,却丢失了可学习的幅度,把尺度控制推给了归一化层。现在,一项名为“幅度-方向解耦”(MD Decoupling)的优化器修改方案,试图从根本上改变这一局面。
这项技术的核心思路很简单:把每个权重矩阵拆成两部分——一个位于超球面上的固定范数方向,以及可学习的每行每列幅度增益,两者分别用独立的学习率更新,而模型看到的仍然是单个融合的权重张量。这种解耦方式与基础优化器(如Adam或Muon)无关,且能彻底消除对权重衰减和预热的依赖。实验表明,在精心调优的基线上,MD解耦依然能带来改进:它不仅让最优学习率在不同模型宽度间可直接迁移而无需重新调参,在大型混合专家(MoE)模型上也持续有效。
研究者发现,当幅度和方向被当作两个独立控制的量时,训练动态变得更加可预测。对于当前高度依赖复杂训练规则的深度学习社区,这或许意味着更简单、更普适的解决方案正在浮现——有时候,最根本的问题恰恰藏在最基础的变量里。
如今,图像生成领域渴求一个能同时驾驭文本生成、局部编辑与全局编辑的“全能型”模型。但现实中,这些能力像互相干扰的邻居:编辑会拖累文本生成质量,局部和全局编辑又彼此打架。如何让它们和谐共处,成了训练一个多能力模型的核心难题。
一篇新论文提出了DanceOPD框架,它像一位巧妙的调度师。针对flow-matching模型(一种生成模型,通过逆向噪声过程生成图像),DanceOPD引入了一种“在策略生成场蒸馏”方法。核心思路是:每个能力(文本生成、局部编辑、全局编辑)都被定义为一个独立的“速度场”,这些场共同存在于同一个流动状态空间中。训练时,学生模型并不直接面对原始数据,而是从自身当前生成轨迹上的状态出发,向对应能力的专家场查询,学习用最简单的均方速度误差目标来模仿这些场的行为。这种设计不仅避免了能力间的直接冲突,还能自然地吸收像无分类器引导这样的操作符定义场。
实验覆盖了文本到图像生成、局部编辑、全局编辑、真实感场吸收以及无分类器引导吸收等多个任务。结果显示,DanceOPD显著提升了多能力的组合效果——在强化目标能力(如编辑精度)的同时,几乎不牺牲锚点生成(文本到图像)的质量。换句话说,它让模型学会了“什么时候该画,什么时候该改”,并且改得干净利落。
当不同能力争夺同一块画布时,不是互相压制,而是各自成为彼此的路标。真正的全能,不是消除差异,而是学会在差异中优雅切换。
YouTube终于对Shorts动了一次大刀——这是它上线以来最彻底的改版。不喜欢按钮被彻底移除,点赞图标换成了爱心,播放速度支持2倍,还新增了一个“清屏模式”,让界面彻底消失,只剩下视频本身。
这次改动的细节值得细看。2倍速播放让用户能更快刷完一条短视频,YouTube官方的说法是“让你更快吸收信息,或更快找到你喜欢的部分”。不喜欢按钮消失后,用户想表达对内容的反感,只能选择“不感兴趣”或“不要推荐这个频道”。点赞图标从竖起的大拇指变成一颗爱心,这虽然只是视觉上的小变化,却暗含了向更温和、更算法友好的体验靠拢的信号。而“清屏模式”则把所有图标和文字从播放界面中剥离,只留下干净的视频画面。
为什么这些改动如此重要?因为YouTube在短视频赛道上起步太晚了。Shorts诞生时,TikTok和Instagram Reels早已锁定了用户的使用习惯。取消不喜欢按钮、为速度优化设计,这些动作说明YouTube正在把“无摩擦的参与度”置于一切之上——它赌的是用户刷得越快、越流畅,停留时间就越长,平台价值就越高。
从另一个角度看,这场改版也是社交平台设计哲学的缩影。当算法越来越成为内容分发的核心,那些容易引发负面情绪的按钮(比如“不喜欢”)就变成了障碍。取而代之的是更柔和的反馈机制,以及让用户更快滑向下一条视频的功能。这或许不是偶然:在注意力争夺战里,最快的那个未必胜出,但最顺畅的那个往往活得最久。
Zoox,亚马逊旗下的自动驾驶公司,最近揭开了其量产版双向机器人出租车的神秘面纱。这款外形方正的车辆,没有方向盘,也没有踏板,设计师从一开始就把它打造成一个移动的舒适客厅。升级后的座椅填充了更符合人体工学的衬垫,杯架变大,还加入了防滑充电板,能让手机稳稳固定在位。车内的触控屏幕色彩更鲜亮,乘客可以轻松点选目的地。
最特别的是,Zoox保持了双向行驶的设计——前后对称,车身两侧装有可以双向反射的指示灯,配上了双语音通话系统,一旦有紧急情况,乘客可以直接和远程技术人员或应急人员对话。这些更新后的车辆,目前已经在奥斯汀、旧金山、拉斯维加斯和迈阿密免费提供乘坐体验。
但Zoox真正想要迈出的一步,是拿到美国国家公路交通安全管理局(NHTSA)的豁免,获准运营多达2500辆无人驾驶汽车。今年4月,公众意见征询期已经结束,而决定迟迟没有下达。原因很简单:现有的联邦安全标准,是针对有方向盘和踏板的人类驾驶汽车制定的,Zoox这种完全自动驾驶的车型,必须靠豁免才能上路。
一旦获批,Zoox才能开始向第一批付费乘客收费。为了这一天,亚马逊已经投入了12亿美元,而Zoox现在拥有一个每周可以生产100辆车的产线,在四座城市测试运营。与此同时,其主要竞争对手Waymo,每周已经完成超过50万次付费行程。
在电动车市场普遍吹捧豪华大屏和智能座舱的今天,一家由杰夫·贝索斯支持的初创公司Slate,却反向操作推出了一款起售价仅24,950美元的电动皮卡——号称美国最便宜的新卡车。最令人意外的是,这款车出厂标配手摇车窗,且完全没有中控娱乐屏幕。这不是为了省钱而妥协,而是Slate的有意为之:通过精简不必要的电子元件,把每一分成本都用在电池和驱动上。基础版续航已从早期的150英里提升至205英里,SUV版本售价29,950美元。首批交付预计在今年内完成。
为了压低价格,Slate省去了传统涂装车间——每辆车出厂时直接交付灰色复合材料车身,用户可以通过贴膜或螺栓配件自行定制外观。这种“半成品”策略借鉴了家居DIY的思维,既降低了生产线复杂度,也给了车主个性化空间。销售模式也彻底转向直销,并且Slate已授予二手车平台Carvana认股权证,暗示未来可能通过Carvana进行分销合作。
对比市场上其他低价电动车,雪佛兰Bolt起价28,995美元,续航262英里;福特则计划在2027年推出一款3万美元级别的电动中型皮卡。Slate的定价比Bolt低了近4000美元,但续航少57英里,且缺失了很多主流配置。这引发了一个核心问题:手摇车窗和没有屏幕的极简主义,能否被美国消费者接受?
更严峻的是Slate的入市时机。联邦7500美元电动车税收抵免已取消,排放法规也在松绑,主流汽车制造商正纷纷搁置平价电动车型计划。在这个“逆风”节点,Slate赌的是制造规模和成本控制。如果它真能以低于Bolt的价格大规模量产,那么它将打开一个被大厂忽视的市场——那些渴望电动化但又对价格极度敏感的消费者。手摇车窗或许不是倒退,而是通往大众电动化的第一把钥匙。有时候,最朴素的工具,反而能撬动最沉重的变革。
苹果公司将旗下Mac和iPad的售价调高了100至200美元,部分型号涨幅更大。官方给出的理由是AI热潮导致内存和存储芯片成本飙升。在此消息影响下,苹果股价创下一年多来最大单日跌幅,跌破6%。
这次涨价波及多款主力产品:MacBook Neo从599美元涨至699美元,MacBook Air从1099美元涨至1299美元,MacBook Pro从1699美元涨至1999美元。iPad Pro升至1199美元,iPad Air升至749美元。iPhone、Apple Watch和AirPods暂时幸免,但苹果暗示更多产品可能跟进调价。
本轮涨价的根源在于DRAM芯片价格在2026年第一季度近乎翻倍,分析师预计本季度还将再涨58%至63%,这场危机被部分业内人士称为“内存末日”。即将于9月1日接任CEO的约翰·特努斯,还未正式上任就要面对这场内存价格上涨带来的挑战。
这不仅是苹果一家的困境。微软、戴尔、联想等巨头都已上调产品价格或发出涨价预警,意味着AI基础设施建设成本正在向消费级硬件传导。IDC预测,今年PC市场将萎缩11.3%,其中价格最低的笔记本面临首当其冲的消失风险。当AI的算力军备竞赛开始吞噬日常电子产品的价格底线,消费者手中的每一台设备都成为了这场技术革命的买单者。
一场无声的AI军备竞赛正浮出水面。Anthropic向美国参议院银行委员会提交的公开信中,指控阿里巴巴通过近2.5万个欺诈账户,在45天内提取了2880万次Claude交互——这被认为是迄今为止已知的最大规模模型蒸馏攻击。被攻击的目标并非普通能力,而是Claude最前沿的代理推理、复杂编程和长周期任务处理能力。
所谓“蒸馏攻击”,本质是不断向顶级模型发送海量查询,再用其回复训练和强化自己的弱模型,试图“偷师”前沿能力。Anthropic指出,这并非孤立事件——今年2月,该公司就曾披露DeepSeek、Moonshot和MiniMax等中国公司发起的类似攻击,涉及超过1600万次交互。OpenAI也曾表达过类似担忧。
蒸馏技术本身并不违规,几乎所有实验室都在使用。真正的争议在于,是缩小自己的模型,还是系统性窃取竞争对手的核心成果。Anthropic借此呼吁:明确反垄断规则以允许AI实验室共享威胁情报;强化芯片出口管制;对涉及蒸馏的中国实验室实施制裁。
中国的AI进步有目共睹,却让外界难以分辨哪些是自身积累,哪些是借力他人。实验室的边界、技术的伦理、竞争的规则——在AI能力指数级跃升的时代,这些问题不再是学术讨论,而是关乎行业生死存亡的核心命题。当一座大厦的基石部分来自他人的智慧,它的崩塌也将波及所有人。
就在OpenAI准备将最新一代大模型GPT-5.6推向市场的前夜,一纸来自特朗普政府的指令让一切都变了味。据《The Information》报道,美国政府以“模型能力带来的安全隐患”为由,要求OpenAI在广泛发布前,必须先向政府批准的合作伙伴进行有限预览——而且每个客户的访问权限都需要单独审批。这项干预来得突然,却并非毫无征兆。
早在更早的Fable 5和Mythos 5时代,美国政府就已经悄悄铺下了对前沿AI管控的暗线。如今轮到GPT-5.6,模式如出一辙。OpenAI内部将GPT-5.6视为与Mythos能力阈值相当的产品,政府希望在实际部署前先测试其安全护栏。面对这种前所未有的监管介入,首席执行官Sam Altman在内部备忘录中向员工解释,这是当前能让GPT-5.6最快发布的最佳路径,预计全面公测将在“几周后”随之而来。他同时强调,OpenAI已向白宫明确表态,这种干预模式绝非长远理想方案,公司将持续推动更可持续的发布策略。
这一事件的意义远不止于一次产品延迟。它标志着一个明确转变:美国政府正在主动决定前沿AI何时、以何种方式走向公众。表面上是出于安全考虑,而非单纯限制,但先例已经设下——随着模型能力日益逼近Mythos级别,政府签字或将成为大规模发布前不可或缺的环节。当技术的自主步伐被政策之手拉动,这场科技与监管的拉锯战才刚刚开始。
当多数大语言模型(如GPT、Llama)仍沿着自回归和因果注意力的路径前行时,一个名为iLLaDA的8B参数模型却另辟蹊径——它采用完全双向注意力的掩码扩散训练,从零开始学习语言。这种非自回归的叛逆姿态,在1.2万亿token的预训练和250亿token的指令微调(12轮)中贯穿始终,甚至引入了变长生成和基于置信度的评分来优化效率与评估。
结果令人侧目:相比前辈LLaDA,iLLaDA在通用、数学和代码基准上全面跃升。基础版在BBH上提升21.6点,在ARC-Challenge上提升14.9点;指令版在MATH上提升14.5点,在HumanEval上飙升16.5点。即便与当下主流的Qwen2.5 7B相比,iLLaDA在多个评测中也毫不逊色。
这似乎暗示:完全双向的扩散训练不再是实验室里的新奇玩具,而是一条通往强语言模型的竞争性道路。当整个行业几乎一边倒地押注自回归时,iLLaDA提醒我们,另一种可能性正在悄然生长。或许,语言建模的未来并非只有一条单向的窄路。
大型语言模型代理的记忆系统已从简单的检索增强机制,演变为需要支持持久化信息存储、检索、更新、整合和动态生命周期管理的数据管理系统。然而,现有评估仍将代理记忆视为一个整体黑箱,仅通过端到端任务成功率(如F1、BLEU)来评测,而忽视了操作成本、模块间的架构权衡以及在动态知识更新下的鲁棒性等关键系统级问题。这项研究正是从数据管理的角度出发,对代理记忆进行了系统的实验分析。
研究者首先提出了一个分析框架,将代理记忆分解为四个核心模块:记忆表示与存储、提取、检索与路由、以及维护。基于这一框架,他们评估了12个有代表性的记忆系统和两个参考基线,涵盖了横跨11个数据集的5个工作负载。通过全面的端到端评估,他们发现没有一种单一的架构能在所有场景中独占鳌头;相反,记忆系统的有效性高度依赖于其结构与工作负载瓶颈之间的匹配程度。
随后的细粒度消融研究进一步量化了各个模块对表示保真度、检索精度、更新正确性和长期稳定性的具体影响。更引人关注的是,研究揭示了在实际工作负载下成本与性能的权衡:局部化的维护比全局重组更具成本效益。
这项研究的关键发现包括:记忆系统并非越大越好,架构需要与任务特点对齐;成本与性能之间存在微妙平衡,本地化维护比全局重组更经济。研究最后指出了构建真正原生代理记忆系统的有前途的方向。
记忆系统不应再被视为一个封闭的黑箱。它的设计需要根据任务瓶颈来量身定制,而非盲目追求通用的全能架构。未来的代理智能,或许正藏在对这些系统级权衡的精细把握之中。
现代视觉语言模型(VLM)和视觉语言动作系统(VLA)通常采用现成的视觉Transformer(ViT,如SigLIP2)作为视觉编码器,但不同下游任务在延迟、时序建模和VLM集成方面往往需要定制化的SOTA级ViT。训练这样的编码器对大多数研究社区来说仍遥不可及,因为它需要海量的图像-文本数据,而标准的softmax注意力机制使得高分辨率或动态分辨率预训练成本高得无法承受,往往迫使研究者采用低分辨率预训练后再进行后验适配。
TuringViT通过三项关键设计解决了这些挑战:图灵线性注意力(TLA)实现高效的序列建模,VISTA-Curation构建富含监督信息的图像-视频训练数据,以及原生动态分辨率预训练——从开始就支持灵活输入,并能够无缝迁移到下游VLM。结果,TuringViT仅使用10%的数据就超越了领先的开源ViT基线,在下游VLM上取得了更强的性能,并在高分辨率输入上实现了显著更好的延迟缩放。其缩放定律分析进一步表明,TuringViT随着精心策划的数据规模增大而持续可预测地提升,远未达到饱和。
这种快速适应能力、硬件友好的设计以及高效的部署,使TuringViT成为小鹏汽车AI系统中统一的视觉基础。更广泛地说,TuringViT提供了一条可复现的流水线,大幅降低了社区训练、定制和部署SOTA级ViT的成本,向着让这类视觉Transformer人人可用的目标迈进。
在通往通用视觉智能的道路上,算法的突破往往伴随着数据成本的陡增。TuringViT以十分之一的数据量击败标杆,揭示了模型架构创新远比数据堆砌更为关键。当线性注意力遇见动态分辨率,当统一的视觉基础成为可能,我们或许正在见证一个更公平、更高效的视觉Transformer时代的序幕。
想象一下,如果一个人工智能不仅能完成复杂任务,还能像数据科学家那样亲手设计和优化自己的训练数据,会发生什么?这正是Autodata方法带来的变革。它让AI代理化身数据科学家,主动构建高质量的训练和评估数据,甚至能通过元优化让这个“数据科学家代理”学会打造出更强的数据。
研究者提出了一种具体实现——Agentic Self-Instruct。在计算机科学研究、法律推理和数学对象推理等任务中,他们对比了传统合成数据集创建方法。结果显示,Autodata生成的训练数据让模型表现更优。更令人惊讶的是,当研究者对这个数据科学家代理本身进行元优化后,性能提升更为显著。这意味着一方面,我们可以将更多的推理计算资源转化为更高质量的训练数据;另一方面,这种全新的数据创建思路可能彻底改变我们构建AI数据的传统方式。
就像一位不断自我精进的匠人,AI代理学会了用日益精湛的手艺打磨自己的知识根基,让每一次“思考”都成为下一次进步的阶梯。这或许就是我们正在见证的:从被动的数据消费者到主动的数据创造者,AI正悄然完成一次身份的跃迁。
想象一下,评估一个AI模型需要跑一百多个基准测试,耗时耗力。但现在,有一项研究告诉你:其实只需要两个数字就够了。这听起来像科幻,却是真实发生的学术突破。
研究人员收集了84个前沿模型在133个不同基准上的得分,构建了一个2,604个数据点的矩阵,其中仅有23.3%被填充。他们惊讶地发现,这个看似复杂的矩阵竟然近似于“秩2”——也就是说,每个模型在所有基准上的表现,几乎完全由两个核心因素决定。为了验证这一发现,他们做了双重测试:首先,从矩阵中隐藏部分得分,然后用两个因子来预测这些隐藏值,结果发现这种恢复方法是最准确的;其次,这两个因子已经能够解释模型在共用基准上超过90%的变异。换句话说,无论模型在语言理解、数学推理还是代码写作上表现如何,其背后都藏着两个简单的“能力主轴”。
基于这一洞察,团队设计了名为BenchPress的算法。它像一个聪明的占卜师:利用逻辑空间中的秩2矩阵补全方法,能够将隐藏的得分恢复至仅误差4.6分的水平;并且,它还自带一个置信度层,告诉你哪些预测可以信任,哪些需要谨慎。更妙的是,研究人员发现,只要跑5个精心挑选的基准测试——GPQA-D、HLE、Codeforces、MMLU-Pro、ARC-AGI-1——就足以预测模型在其他所有公开基准上的得分,误差仅有3.93分。如果预算再紧张一些,也可以用另一组更便宜的集合:GPQA-D、MMLU-Pro、Aider Polyglot、MATH-500、AIME 2026,预测误差也仅为4.55分。
这项研究不仅发布了一份完整得分矩阵、BenchPress代码,还提供了一个交互式工具,让你输入任意模型就能预测它在任意基准上的成绩。它意味着什么?或许,未来评估模型不再需要堆砌一百个测试,而只需五六个精心设计的“温度计”。这既节约了计算资源,也让我们反思:我们是否正在过度测量“能力”的表象,而忽略了其背后的本质?当两个数字就足以驱动一切,我们距离真正理解人工智能的深层规律,也许比想象中更近。
近一个月前,美国一项行政命令让Anthropic旗下的两大AI模型Fable和Mythos悄然离线。就在外界猜测它们会否从此沉寂时,一连串微妙信号开始浮现:一次代码更新、一场白宫换人、一封诉讼状纸、一道国会最后通牒——它们像烟雾一样丝丝缕缕升起,似乎指向同一条回归之路。
如果你还记得Fable和Mythos的名字,它们曾是前沿AI领域的重量级玩家。但自命令生效后,它们被Anthropic主动搁置,至今未见公开解禁。然而,最新发布的Claude Code更新日志里,出现了Fable的使用引用,同时一条“单独购买”的说明被悄然删除。这一改动虽小,却被开发者圈解读为潜在的使用策略调整:Fable可能重新嵌入核心产品。
更大的信号来自谈判桌。据WIRED报道,白宫与Anthropic的接触氛围正在回暖,关键在于换人。此前代表公司出席会谈的是联合创始人兼CEO Dario Amodei,但他的直言不讳被称为“怪人”。如今,另一位联合创始人Tom Brown接手会议。WIRED援引消息人士称:“Tom Brown不像Dario那样古怪,他真的能参与进来。”这句话暗示,撤下高调CEO后,沟通通道反而顺畅了。
与此同时,法律战场燃起第一把火。法律科技公司Legion针对这项行政命令提起了首起诉讼,直指命令“非法”,并声称“政府的真实动机是非法的报复”。这一诉讼的走向将直接影响命令的合法性,也就间接决定了Fable与Mythos的命运。
政界也在施加压力。众议员Sam Liccardo、Jay Obernolte和Ted Lieu联合向商务部发出最后通牒:必须在6月26日之前,向公众说明模型何时以及如何能重新上线。这个日期像是倒计时的起点,让沉默有了期限。
眼下,所有这些迹象都指向一个方向:禁令或已出现裂缝。将近一个月的冰封期,可能即将迎来一场缓慢的解冻。烟雾所在之处,总藏着火焰——或许这场静默之局的关键,不在于模型本身,而在于谁在代表模型说话。从会议室到法庭,从代码仓库到国会山,信号的密度正在增加。
Fable和Mythos的回程,也许就藏在这些信号的交汇点上。所谓最冷的时候,往往就是春天到来的前夕。
感冒和流感每年让全球每人少活15到25天,背后是约6000亿美元的生产力损失。现在,一批最懂数据的AI公司决定不再袖手旁观。Stripe、Anthropic、OpenAI基金会等捐赠者联手成立了Intercept——一个手握5亿美元的非营利组织,专门资助呼吸道病毒预防工具和清洁室内空气技术。他们的目标很直白:让咳嗽、流鼻涕、发烧这种日常病痛“成为过去”。
这笔钱不会直接生产成品,而是用于推动早期研究,直到制药公司和投资者愿意接手那昂贵的最后冲刺阶段。具体来说,他们要开发能阻止数十种呼吸道病毒的疫苗、鼻腔喷雾和药片,同时还要改进办公室和学校的空气净化技术。这些AI巨头们深知,制药行业往往避开这个“尴尬的中段”——基础科研太远,商业回报又不确定。但正是这个空白,让普通人的每个冬天都逃不过一场病。
这听起来像科幻,但背后的逻辑很实际:与其每次等新病毒爆发再匆忙应对,不如主动打造一套能预防所有呼吸道病毒的防线。而掌控着最先进AI和巨额资本的这群人,选择了用真金白银赌一个没有感冒的未来。也许十年后,我们会发现,改变世界的不是更快的芯片,而是更干净的空气和一支能防住所有流感的喷雾。
OpenAI以惊人速度交出了一份硬件答卷:短短九个月,它和芯片巨头Broadcom共同打造的首款定制芯片Jalapeño就从图纸变成了“工厂就绪”。这枚ASIC专门负责推理——也就是当用户与ChatGPT、Codex或未来智能体对话时,让模型真正跑起来的那一步,而不是用来训练模型。测试中,Jalapeño的“每瓦性能远超当前最先进水平”,这意味着用更少的电力就能跑出更强的能力。OpenAI甚至放出豪言:到2029年,要把自有芯片驱动的算力推到10GW级别——当然,Nvidia依然会是训练环节的主力。
这背后藏着一个更深的野心:历史上最快的ASIC开发周期记录正在被刷新,而且后续只会更快,因为OpenAI自己的模型已经开始参与芯片的设计与优化。当一家公司同时捏着芯片、模型和产品,每一层都能为其他层专门调校,成本与速度的协同效应便撕开了传统依赖的裂缝。过去,OpenAI只能看Nvidia的脸色——如今,它终于能握着属于自己的“辣椒”了。这场自研的豪赌不仅关乎算力自主,更预示着AI公司从软件到硬件的全面垂直整合时代正在加速到来。当芯片开始为模型量身定制,当迭代周期以月而非年计算,所谓的“护城河”也许不再是算法,而是谁能最快把想法烧进硅片里。
想象一下,一个智能助手正在解答复杂的数学题,或者在网上搜索信息。它不断推演、调用工具,思维链和工具调用记录越积越长。一开始这些记录是宝贵的记忆,但很快,它们变成了拖累——过时的信息像杂草一样占据上下文窗口,让新生成的回答变得迟钝。更麻烦的是,当上下文窗口被塞满,模型要么被迫遗忘部分信息,要么干脆出错。
为了解决这个问题,现有的方案通常是“定时清理”:设定一个固定令牌数量阈值,一旦超过就自动压缩。但这种粗暴的做法完全不顾及任务的结构。比如,当模型正在推导一个公式的中途,或者正在搜索的枝节上探索,突然的压缩可能会丢弃尚未完成的推理片段,就像打断数学家的演算纸。
现在,一项名为SelfCompact的新方法提出了一个更聪明的思路:让模型自己决定什么时候该“收拾房间”。它的核心是两个要素:第一,一个“压缩工具”(compaction tool),模型可以主动调用它来总结和精简当前的上下文;第二,一套轻量级“操作规则”(rubric),指导模型在什么情况下应该使用这个工具,什么情况下应该忍住。规则很简单:当某个子任务完成、或者推理轨迹开始收敛时,就是压缩的好时机;当模型正处于推导中途、或者卡在死胡同时,就不要乱动。
单独使用工具会怎样?实验发现,不同开源模型使用压缩工具的意愿和能力参差不齐——有的模型在不该压缩的时候乱用,有的则根本不用。单独使用规则呢?规则本身无法执行任何操作。只有把两者结合起来,才能让模型在没有微调或外部监督的情况下,自适应地进行有效压缩。
研究人员在六个基准测试(涵盖竞赛级数学和智能体搜索任务)和七个模型上验证了SelfCompact的效果。结果令人印象深刻:SelfCompact不仅以极低的令牌成本匹配甚至超越了固定间隔压缩方案,而且在数学任务上比完全不压缩的基线高出最多18.1个百分点,在智能体搜索任务上高出5到9个百分点。同时,每次回答的令牌成本降低了30%到70%。
其中一个有趣的发现揭示了模型的“元认知差距”:即使没有任何提示,模型通常也无法可靠地判断自己的上下文是否正在“腐烂”。但那条轻量级的操作规则就像一面镜子,弥补了这个差距。换句话说,让模型学会在合适时机主动压缩,其实是一种不依赖训练的、内嵌于脚手架中的能力。
SelfCompact的启示或许不止于技术本身:当我们需要AI处理更复杂、更长期的任务时,与其替它们设计每一步的节奏,不如给它们一套简单的自省机制。模型自己,往往比我们更清楚什么时候该停下来、总结一下、轻装前行。毕竟,真正的智能,有时就藏在那次适时的“断舍离”里。
Wan-Streamer 是一个从零构建的原生流式端到端交互基础模型,专门用于实时、低延迟的全双工音视频对话。想象一下,你对着屏幕说话,模型不仅同时听懂你的话语、看懂你的表情,还能在不到一秒内用语音、图像和文字回应你——这一切都发生在同一个Transformer内部。
传统方案里,语音活动检测、语音识别、语言理解、文本转语音、面部动画、视频生成等多个独立模块像接力赛一样依次运作,每个环节都引入延迟和误差。Wan-Streamer 彻底抛弃这种级联架构,它将语言、音频、视频三种模态的输入和输出全部揉合进一个统一的Transformer序列中,用块因果注意力机制(Block-Causal Attention)控制增量式流式处理。感知、推理、生成、响应时机、话轮管理、跨模态同步——所有能力都在一个模型里联合学习,没有外部模块的依赖。
为了实现自然的音视频反应,团队重新设计了整个技术栈,使其天然支持流式操作:因果编码器、因果解码器、块因果注意力,以及低延迟多模态令牌调度。这使得流式单元可以短至160毫秒(在每秒25帧下)。实测结果非常惊人:模型侧响应延迟约200毫秒,加上双向网络延迟350毫秒后,完整交互总延迟仅约550毫秒——真正实现了亚秒级全双工音视频通信。
这不再是多个零件的拼凑,而是一个统一、端到端的多模态交互基础模型,为低延迟流式交互开辟了全新可能。当对话和视觉反馈像呼吸一样自然发生时,人机交互的边界或许就此重新定义。
当AI代理在编程竞赛中屡创佳绩,它们在真正的科学发现面前是否同样游刃有余?一项来自Nature系列出版物的跨学科基准测试——NatureBench,给出了令人警醒的答案。
这个基准测试从近百篇经同行评议的Nature子刊论文中提炼出90个真实科学任务,涵盖从分子动力学到天体物理的广泛领域。研究者们创造性地构建了一个名为NatureGym的自动化管道——它能将每篇论文中的科学问题转化为标准化的容器化实验环境,从而解决了困扰此前研究型基准测试的“环境碎片化”问题。这使得不同AI代理可以在完全一致的条件下公平竞技。
在严格屏蔽网络搜索的协议下,10种最前沿的AI代理配置接受了这场“盲考”。结果令人震惊:即便是表现最优的模型,也仅能在17.8%的任务中超过此前技术水平——这意味着超过八成的科学问题对它们而言仍是未解之谜。更引人深思的是,研究者深入剖析了代理的成功路径:它们更多是“翻译”科学任务——将陌生的问题转化为熟悉的监督预测模式,而非真正的科学创新。当失败发生时,主因并非任务理解偏差,而是错误的方法选择与计算预算的不足。
NatureBench的发布,连同其配套的NatureGym管道和可复现的公共排行榜,为AI在科研领域的应用竖起了一座新的里程碑。它告诉我们:即便在人工智能高歌猛进的今天,真正的科学发现依然需要人类智慧的独特光芒——代理能复制已知,但尚难开创未知。当机器学会将问题“翻译”成自己熟悉的语言,而人类则要警惕它是否因此错过了科学本身的意外之美。
在机器人学习的广阔天地中,数据质量与价值判断始终是决定成败的关键。想象一下,一群机器人从海量、质量参差不齐的数据中学习,它们需要一个精准的“价值指南针”来辨别哪些经验值得借鉴。然而,现有的机器人价值模型多基于视觉语言模型(VLM),这类模型擅长理解静态图像,却在捕捉时间序列中的因果联系时力不从心。它们就像一个只看照片却不懂电影情节的观众,难以判断一个动作的长期价值。
但世界模型却与众不同。这类模型天生擅长模拟时间的流动,能够理解“如果做这个,接下来会发生什么”。正是这个洞察,催生了一个全新的通用机器人价值模型——世界价值模型(WVM)。WVM巧妙地将世界模型的时序建模能力与价值估计相结合,就像给机器人装上了一个能够预见未来的“价值雷达”,不仅在标准基准测试中取得了最优的价值排序相关性(Value-Order Correlation, VOC)结果,更在真实应用中展现了惊人的适应性。
研究团队深知,现有评测往往只包含专家演示数据,这就像考试只出标准答案。为了考验WVM的全面性,他们特意构建了一个名为Suboptimal-Value-Bench的跨实体基准,包含800条次优轨迹,每条轨迹都配有高保真的人工标注帧。在这个“魔鬼考场”上,WVM依然保持了最优性能,证明它既能识别黄金般的专家示范,也能从平凡的失败中汲取价值。
最令人振奋的是实际应用。当WVM被部署到机器人策略学习中时,它显著提升了模拟环境和真实世界中的操作性能。无论采用何种策略提取方法,WVM都能为从质量参差的数据中学习提供稳健的导航。这不仅是技术的突破,更是对机器人学习本质的深刻洞察:真正的智慧不在于记住正确答案,而在于理解每个动作背后的价值脉络。在未来,也许每一个机器人都会配备这样一位“价值导师”,让它们从每一次尝试中都能学到更多。
长期以来,扩散变换器(DiT)在图像生成领域的研究几乎不约而同地采用同一条评估路径:在ImageNet数据集上进行类别条件生成。每当一种新方法在弗雷契初始距离(FID)等指标上取得进步,学界便为之欢呼,但这些数字上的提升是否真的反映了生成模型在真实世界中的进步,却越来越令人怀疑。另一个显而易见的替代方案——文本到图像(T2I)生成——却被大多数研究者视为成本太高、训练和评估太过麻烦,常常被直接跳过。然而,这一陈旧的认知可能已经过时了。
研究者们推出了NanoGen,一个统一的DiT训练与评估框架。NanoGen在ImageNet上达到了与当前最先进的DiT基线相当的表现,而只需修改12行配置文件,就能转而训练出具有竞争力的文本到图像模型。它目前支持多种扩散方法,包括RAE、VAE、像素空间和MeanFlow,并同时覆盖ImageNet和T2I两种设置。令人瞩目的是,在NanoGen框架下,训练文本到图像模型所需的计算资源和训练ImageNet模型相差无几。
为了检验方法之间的迁移性,研究者利用NanoGen训练了21个潜在扩散模型。结果发现,方法在ImageNet与T2I任务上的排名之间几乎不存在强相关性:在三个不同指标上,皮尔逊相关系数仅为-0.377至-0.580。这意味着,一项能显著改善ImageNet类别条件FID的技术,在文本到图像生成上可能毫无助益,甚至适得其反。这清晰地表明,仅仅依赖单一任务评估DiT方法是远远不够的,同时评估两个任务已成为必要。
为此,研究者将ImageNet和文本到图像生成的结果汇总,构建了一个名为DiffusionBench的整体性能基准。他们建议,未来的DiT研究应当报告在DiffusionBench上的表现,而不仅仅是ImageNet。只有当一种方法能提升DiffusionBench的整体指标时,我们才有理由相信它代表了更广泛的进步。
在看似繁荣的研究表象下,或许我们真正需要的,不是在一棵树上不断攀登更高的分数,而是勇敢地走进一片更广阔的森林。
大型语言模型正在向智能体化方向进化,但如何筛选训练数据来培养真正“多面手”的智能体,却鲜有公开的方法论。现有的开源项目,比如SWE-Smith、SERA和Nemotron-Terminal,往往只针对单一基准测试,模型一换场景就失灵。OpenThoughts-Agent(简称OT-Agent)项目站了出来,用一整套完全开放的数据清洗流程,试图破解这个困局。
研究人员没有闭门造车,而是先扎扎实实做了超过100次受控消融实验,把数据流程的每个环节都拆开细看。结果发现:任务来源的多样性比想象中更重要——单一渠道的数据,哪怕数量再多,也无法让模型学会跨场景泛化。基于这些洞察,他们从清洗后的数据中精选出10万条样本,用来微调Qwen3-32B模型。微调后的模型在7个不同的智能体基准测试中平均得分44.8%,比此前最强的开源智能体模型Nemotron-Terminal-32B(40.9%)高出了3.9个百分点。
更值得玩味的是,这套训练数据展现出惊人的扩展性:在计算资源相同的前提下,无论训练集规模是大是小,OT-Agent的数据始终优于其他开源数据集。这意味着,即使资源有限的研究团队,也能从中获得更高效的训练起点。项目组将训练集、数据管道、实验数据乃至最终模型全部公开,希望为通用智能体训练的开放研究铺上一块砖。
一次一次实验堆出的不是黑箱,而是可复现、可改进的路径。当开源社区能够人手一份工具去训练自己的智能体时,真正的通用智能或许就不再只是实验室里的传说。
从单目视频中重建动态的非刚性物体,始终是计算机视觉领域的一道难题。想象一下,我们只能从一个视角拍摄不断变形、时常被遮挡的物体——比如跳跃的运动员、奔跑的动物,甚至风中摇曳的旗帜。要还原它们的三维动态,不仅需要从直接观测中提取视觉线索,还必须依赖几何与外观上的数据驱动先验。
过去的研究主要分两条路:一是直接从视觉输入预测完整的4D表示,但这类方法受限于训练数据匮乏——要收集海量的动态三维数据本身极其困难;二是先初始化一个3D表示,再通过视频证据不断变形和优化,但这种方式仅在初始阶段使用了先验知识,后续完全依赖视频监督,无法应对复杂的大变形和严重遮挡。
这两种方法在“野生场景”中都不尽如人意。而Lift4D应运而生,它是一款测试时优化框架,旨在同时突破上述两大局限。它的第一步,是改造现有的单视图3D重建模型,通过因果潜在条件机制,生成时间一致的逐帧预测,为后续的可变形3D高斯泼溅表示提供连贯的初始化。这相当于给每一帧画面都打上了一个稳定、合理的三维骨架。
第二步,Lift4D对这些初始化的高斯点进行“雕刻”——通过遮挡感知的优化过程,忠实恢复可见表面的细节,同时利用视图条件扩散先验补全那些被遮挡、未被观察到的区域。想象一下,当物体的一部分被完全挡住,模型不是凭空猜测,而是借助扩散模型对几何与外观的深层理解,智能地“脑补”出缺失的部分。
实验表明,Lift4D在多个基准上显著优于先前的4D重建方法,尤其在挑战性极高的野外场景中——那些包含严重遮挡、剧烈非刚性运动的序列,它交出了更清晰、更连贯的重建结果。
当单目视频的局限被巧妙绕过,当先验知识与优化框架不再各自为战,动态世界的三维形态得以被更忠实地捕获。这不仅是一种技术突破,更启示我们:面对复杂现实,融合多种策略的协同创新,往往比单一路径的极致优化更有力量。
斯坦福大学教授布赖恩·希(Brian Hie)——开发了Evo基因组语言模型的同一人——刚刚发布了Proto,一个开放框架,让研究人员能够将AI生物学模型和工具组合成统一的流水线,而不是孤立地运行它们。
目前,已有超过120个AI生物学模型存在,但由于软件不兼容、依赖冲突和输入格式不同,将它们组合在一起几乎不可能。Proto提供了一种共享语言,可以接受一个研究目标,组合相关模型,进行评分,并指导在DNA、RNA、蛋白质和配体上的工作。在测试中,它设计了细胞系特异性剪接模式,成功率高达32%,仅测试了65个候选方案,而此前的方法测试了大约1000个,成功率仅为7%。AI智能体也可以编写Proto程序,研究团队使用Claude实现了249个人类蛋白质复合物的多样化,并指定了一种肺癌治疗方法。
这意味着什么:AI生物学模型和工具从未如此强大,但大多数研究人员仍然无法将它们组合起来以获得最大收益。Proto正是改变这一现状的集成层。如果它成为生物学AI的标准接口,那么每一个新模型都可以直接接入。它不会独自治愈疾病,但将为这一目标铺平道路。在AI与生命科学交汇的今天,结构化的协作比孤立的创新更能加速突破。
想象一下,一副能帮你指路、实时翻译、看懂眼前一切的智能眼镜,价格却不到五百美元——Meta刚刚用全新的Meta Glasses实现了这个设想。这个系列定价仅299美元起,由Meta与眼镜巨头EssilorLuxottica联手打造,内置自家最新的Muse Spark AI,一开箱就能用。
Meta Glasses共有三款设计:Meta Adventurer、Meta Fury,以及由网红Kylie Jenner联合设计的Meta Glasses by Kylie。后者的售价是399美元,但多了一颗嵌入的宝石、专属铃声,甚至可以用Kylie本人的声音来唤醒Meta AI,成为粉丝心头好。整个系列涵盖26种配色、镜片和镜框组合,从休闲到运动一应俱全。
在智能功能上,Muse Spark AI带来了更聪明的问答、更精确的视觉识别,并且支持逐向导航和实时翻译——虽然硬件本身和上一代相差不大,但最大的亮点是价格。Meta这次彻底拿掉了Ray-Ban和Oakley的联名标识,目的就是为了把成本降下来,让更多人买得起。
别看Meta的AI眼镜之路并非一帆风顺,但它目前仍占据大约80%的市场份额。这次发布意味着Meta开始执行双轨战略:一边用Ray-Ban系列维系时尚调性,一边用Meta Glasses主打价格亲民,试图堵住所有市场空白,进一步拉开与Google等对手的差距。一边是潮牌光环,一边是钱包友好——Meta正用两副牌同时出招,要把AI眼镜变成人人戴得起的生活工具。当技术终于不再昂贵,我们离那个科幻式的穿戴未来,也许只差一副眼镜的距离。
清晨,你打开Slack,发现@Claude已经安静地处理好了昨晚遗留的代码审查请求,并在相关频道中更新了进度。这是Anthropic刚刚推出的Claude Tag带来的改变——不再需要切换到单独的聊天窗口或桌面应用,AI被直接嵌入到团队日常协作的中心——Slack频道里。你只需像@同事一样输入“@Claude,帮我分析上周的销售数据并生成报告”,这个AI队友就会自动将任务拆解成多个阶段,调用授权的工具和数据源逐步执行,完成后在频道内响应结果。更令人惊讶的是,它会随着时间推移不断学习,理解团队正在进行的项目上下文,甚至能跨频道采取行动——当然,仅限于它被授予权限的频道。它还具备一种“环境模式”:当某个任务沉寂太久可能被遗忘时,Claude会主动从相关频道获取信息并跟进提醒。
这种设计让前特斯拉AI总监Andrej Karpathy感叹这是“大语言模型用户界面与体验的第三次重大变革”。从最初的对话式聊天,到桌面端的代理工具,再到如今嵌入Slack这个承载绝大多数企业业务上下文和工具的平台,AI的形态正从“独立应用”向“协作伙伴”加速进化。值得注意的是,Anthropic已经在今天正式推出该功能,这势必会对那些宣称要做“AI同事”的初创公司造成冲击——当原生集成在团队协作工具中的AI拥有更强的上下文续航能力,独立AI同事服务的差异优势将面临严峻考验。在AI与人类协作的演进中,真正的边界或许不是技术能力,而是AI能否像真正靠谱的同事那样,默默融入工作流、理解团队沉淀的沉默知识,并在你不曾开口时就察觉到你的未尽之言。
语言模型在推理时,往往只能依赖单线程的逻辑推演,就像一个人独自思考,容易陷入思维定式。研究人员发现,如果在“考试”时允许模型同时参考多个独立草稿、再综合出最佳答案,效果会好得多。但这种“并行思考-综合结论”的能力,在模型训练阶段几乎被完全忽视了——训练只教会了它按顺序一步步推理。为了解决这一矛盾,研究者提出了SPIRAL框架:一种通过强化学习同时驯化三种推理行为的训练方法。
SPIRAL将推理过程拆解成三个基本动作:顺序推理(产生单个思维链)、并行采样(同时生成多个独立思维链)和聚合(将多个思维链融合成最终答案)。在训练时,模型先并行生成一组思维链,每个都是自洽的推理路径;然后,模型读取这些并行结果,再产生一条聚合的思维链,最终输出答案。整个流程通过端到端的强化学习进行优化——奖励信号只与最终聚合答案的对错挂钩。
为了让模型学会“并行产出高质量草稿”和“有效整合多方信息”,SPIRAL使用了两种强化学习技术:集强化学习(Set RL)迫使模型生成一组彼此独立且对聚合器有用的推理轨迹;标准强化学习则专门训练聚合器,让它能从混乱甚至相悖的草稿中提取出正确结论。这种分工后协同的训练方式,使得模型在推理时能自然利用更多的计算资源来提升准确率。
实验在多个推理任务上进行。当三种推理原语都被充分扩展时,SPIRAL相比现有方法GRPO,达到了高达11倍的扩展效率提升,同时最终性能提高了15%。这意味着,同样增加计算量,SPIRAL能带来更显著的推理质量飞跃。数学推理、逻辑演绎等场景下,模型不再只是“想得更长”,而是学会了“想得更广”和“想得更准”。
思维的深度、广度和综合能力,本就不是鱼与熊掌。在人工智能学会同时拥抱这三者之后,我们或许真的开启了推理能力通向更高阶的大门。
想象一台机器人,它能从人类演示中学习操作技能,但只能复制演示中出现过的动作——一旦遇到新任务,它就束手无策。这种困境背后,是视觉-语言-动作(VLA)模型的核心局限:它们的能力被训练数据中的技能种类牢牢框定。现在,一项名为InSight的新框架试图打破这道墙,让机器人能像人类一样,在基础动作层面“举一反三”。
InSight的核心思路是将VLA模型的操控粒度下沉到基础动作级别。所谓基础动作,指的是像“将夹爪移到碗边”、“向上提起”、“倾倒瓶子”这类最底层的操作单元。框架包含两个关键阶段。首先,它设计了一条自动化分割流水线:利用视觉语言模型(VLM)对演示视频进行计划分解,再结合机械臂末端位姿数据,将完整演示自动切分成一个个带标签的基础动作片段,从而让VLA模型获得对基础动作的可操控性——就像给机器人配了一把“精调扳手”,能精准调用每个基础动作。
但真正的突破在于第二阶段:一个由VLM驱动的数据飞轮。当机器人遇到一个需要新技能的任务时,系统会先让VLM分析当前任务,识别出缺失哪些基础动作。接着,机器人自主尝试执行这些缺失的基础动作——每次尝试都由VLM提出具体的底层控制指令。如果某次尝试成功了,该演示就会被自动标记、存储,并整合到VLA训练集中,从而让模型逐步掌握未曾学过的技能。整个过程无需任何人类干预。
研究者在多种任务上验证了InSight的能力:翻转方块、关闭抽屉、扫地、扭转瓶盖、倒水。值得注意的是,这些目标技能在初始训练中完全没有人类演示。一旦通过自主尝试学会某个基础动作,机器人就能将它与其他已学基础动作组合,执行从未见过的新长程任务——比如先学会“扭转”,再学会“倾倒”,然后组合出“拧开瓶盖倒水”的完整操作。
这项工作的意义在于,它揭示了基础动作层面的可操控性如何为VLA策略的持续技能获取铺平道路。当机器人不再需要每次从头学习完整演示,而是像搭积木一样积累基础动作时,自主进化的可能性便悄然开启。也许不久的将来,机器人能够真正摆脱人类保姆的角色,在未知环境中自行摸索、成长。
世界模型,这一认知科学中的核心概念,如今在人工智能领域迎来了划时代的突破。想象一个能够像人类一样预演环境变化的智能体:它只需观察当下、做出决策,就能在脑海中模拟出后续场景的演变。来自Qwen团队的研究者,正是基于这一原理,构建了全新的语言世界模型——Qwen-AgentWorld,让机器首次具备了跨越7个复杂领域的智能体环境模拟能力。
整个研究的起点,始于一个看似简单却极其困难的问题:如何让语言模型学会预测“接下来会发生什么”?传统的世界模型往往局限于游戏或模拟器,而Qwen团队的目标是构建一个通用的、能理解真实世界动态的“心智模拟器”。为此,他们收集了超过1000万条来自7个不同领域的真实环境交互轨迹——从网页浏览到代码执行,从数学推理到游戏操作,每一条轨迹都记录着智能体在真实环境中的行动与状态变迁。
训练过程被精心设计为三个阶段。第一阶段,他们通过对比预训练(CPT),让模型从海量的状态转移动态数据以及专业语料中学习通用世界建模能力,如同让一个初学者先广泛阅读各类场景的“剧本”。第二阶段,监督微调(SFT)被用来激活模型的下一状态预测推理,使其能够有逻辑地思考“如果我这么做,环境会如何变化”。第三阶段,强化学习(RL)通过一个创新的混合奖励框架——结合了质性评估和量化规则——进一步磨砺模型的模拟保真度,确保其预测不仅准确,而且足够细腻。
为了公正评估这样的语言世界模型,研究者还构建了AgentWorldBench——一个基于5个前沿模型在9个已有基准测试上真实交互数据搭建的综合评估基准。实验结果表明,Qwen-AgentWorld在模拟真实环境动态方面,显著超越了所有现有前沿模型,无论是35B参数的紧凑版本还是397B参数的旗舰版本。
但这项工作的意义远不止于一个强大的模拟器本身。研究者进一步探索了两种将世界模型融入通用智能体建设的范式。第一种,将Qwen-AgentWorld作为一个解耦的环境模拟器,它可以为智能体强化学习提供成千上万种可扩展、可控制的环境模拟。实验显示,这种生成式模拟训练带来的性能提升,甚至超越了单纯使用真实环境的训练效果。第二种,将世界模型训练作为通用智能体基础模型的“预热”——通过让模型先学会预测世界变化,再投入下游任务,它在7个智能体基准测试中都表现出了显著的性能提升。
代码已经开源,这项研究正在打开一扇新的大门。当我们思考智能的本质时,也许正是对世界因果链条的预演能力,让机器真正迈出了从反应到理解的最后一步。未来,每个智能体都可能拥有自己的“内在世界”,在其中无限试错,却不必承担真实世界的代价。
在3D视觉的世界里,网格是最常用的场景表示之一,但直接生成网格却是一块难啃的骨头——因为网格数据藏着一种“对称性陷阱”:面的顺序打乱不影响形状,每个面内顶点的顺序也可以任意排列。传统方法往往需要把网格拆解成一长串序列,像念咒一样逐个生成,过程既繁琐又低效。
研究者们想出了一个新招:MeshFlow。它选择直接生成“三角形汤”——也就是把一堆无序的三角形扔在一起,而不是强行给它们排队。为了让模型能理解这种无序中的秩序,他们设计了一套等变最优传输流匹配模型。这个模型天生就尊重三角形汤的两大对称性:所有面的排列可以任意调换,每个面内三个顶点的顺序也能随意打乱——模型对该形状的判断不会因此改变。
为了实现这一目标,他们对流行的Diffusion Transformer架构做了一项简单却关键的改动:让网络在构建速度场的同时,始终保持对排列操作的等变性。这样一来,无论三角形怎么洗牌,模型都能稳定地预测生成方向。他们还引入了一种基于最优传输的训练目标,它能够自动剔除那些违反对称性的监督信号,从而让模型收敛得更快、更稳。
实验结果显示,MeshFlow生成的网格质量足以媲美当前最顶尖的自回归网格生成器,而推理速度却提升了约18倍——这意味着以前需要等待十几秒才能看到的网格,如今不到一秒就能生成。项目页面也已上线供研究者参考。
对称性的力量常被忽视,但MeshFlow证明:与其费力去适应结构的无序,不如让模型天生就理解这种无序。这或许为3D生成打开了一扇新的大门。
在人工智能浪潮中,用户往往手握多家公司的大语言模型(LLM),它们各有千秋,却无一全能。如何为每个任务精准匹配最合适的模型,成为提升性能和控制成本的关键。然而,现有路由方法如同盲人摸象——它们把路由看作一次性静态分类,忽略了动态环境中的信息缺失。
研究团队发现,传统路由器的“性能瓶颈”源于信息不足。简单地将任务维度的性能统计注入一个普通LLM路由器,就能带来15.3%的相对提升,甚至超越基于同样维度先验的启发式路由。这一发现揭示了关键症结:路由器缺乏执行过程中的真实反馈。
受此启发,团队提出“Agent-as-a-Router”框架,将路由重塑为一个C-A-F循环——上下文、行动、反馈,再回到上下文。该框架在部署中通过积累执行经验,主动弥合信息鸿沟。具体实现为ACRouter,它由三个核心模块组成:Orchestrator(协调器)负责决策,Verifier(验证器)确认结果,Memory(记忆模块)记录历史经验。同时,团队发布了CodeRouterBench评估环境,包含约1万个任务实例,以及来自8个前沿LLM的验证得分,支持基于遗憾值的流式任务路由比较。
实验显示,ACRouter在分布内任务中实现了最低的累积遗憾,并能泛化到分布外的智能编程任务。这表明,主动关闭信息鸿沟的路由框架,正为多模型协作带来全新可能。
每一次任务的分发,都是一次学习的机会;而真正的智能,从不满足于一次性的选择。
训练图像生成基础模型通常需要海量算力,但一项新研究颠覆了传统认知。以往的方法尝试用语义引导加速训练,却只敢在ImageNet这类简单数据集上小打小闹。如今,研究者提出了SeFi-Image——一个基于“语义优先扩散”全新范式的文生图模型。他们一口气造出三款:参数量1B、2B和5B,系统研究缩放行为,让不同预算都能灵活部署。最让人惊讶的是,最大的5B模型仅用125K A800 GPU小时就训练完成,这大约是Z-Image模型训练算力的10%到20%。然而,尽管算力如此“寒酸”,SeFi-Image在GenEval、DPG、LongTextBench、OneIG和CVTG-2K等一系列基准测试中,表现竟能与Qwen-Image和Z-Image打平甚至更优。研究者还为每个规模提供了经DMD2蒸馏的少步涡轮变体,适配不同硬件和延迟需求。目前,代码和权重已全部开源。这项实验向我们揭示:语义指导的扩散建模或许是一条通往高效文生图的捷径,而大模型未必需要堆砌算力才能触及顶尖水平。有时候,聪明的方向比盲目的蛮力更能点亮创新之路。
语言模型终端代理已成为当下最热门的应用,但学术界对强化学习训练的探索却一片贫瘠——缺基准、缺数据、缺现成方案。如今,Tmax横空出世,用仅90亿参数刷新了Terminal-Bench 2.0上的纪录,拿下27%的得分,将先前规模远大于它的模型甩在身后。这背后是一套全新数据生成机制:通过控制难度、引入用户档案和验证器多样化,研究人员以低成本构建了海量终端环境。他们开源的终端数据集规模是此前最好方案的2.5倍,并基于这些数据用简单的结果导向强化学习训练出开源权重模型。当人们还在追逐更大规模时,Tmax证明了精良的数据配方与强化学习策略的价值。这套开源的代码、模型和数据,正在为终端代理研究啃下第一块硬骨头——有时候,聪明的干活方式比蛮力更重要。
大型语言模型生成文本时,传统的做法是从最后一层解码,人们一直默认越深层的表征能带来更可靠的预测。然而,最新研究揭示了一个反复出现的“猜测-精炼-扰动”动态:早期的网络层会形成粗略的猜测,中间的层次则精炼与推理相关的语义,而最后的若干层却可能将已经完善好的预测“扭曲”成更通用或迎合对齐偏好的词汇。这一发现颠覆了长期以来的假设——原来最深的层次并不总是最佳的。
研究者们由此提出了一种名为Confident Decoding的无训练解码策略。它通过熵引导的保守反向搜索,动态挑选出最可靠的临近末层(而非严格的最后一层)作为解码依据。通俗来说,与其盲目相信最后一步的“装饰”,不如回头看看刚刚完成推理核心的那一层。这种方法不仅直觉上合理,还有严格的理论支撑:他们将层选择建模为一个最优停止问题,证明在有界投影噪声和后期对齐扰动占主导的情况下,这种搜索规则能够有效过滤扰动,同时将损失控制在相对于完美精炼层的可接受范围内。
在实验环节,该策略在GPQA-Diamond、Omni-MATH和HLE等极具挑战性的推理基准上表现亮眼,无论是密集模型还是混合专家模型都获得了稳定提升。更令人惊讶的是,这一切几乎没有增加额外的计算代价——零内存开销,延迟仅上升不到2%。这意味着,大规模部署时几乎可以无痛替换现有解码方法。
这项研究的核心启示在于:对齐训练(如RLHF)在让模型更安全、更符合人类偏好的同时,也在无意中向最后一层引入了“扰动”,削弱了模型的原始推理能力。动态绕过这些扰动,就能解锁更可靠的逻辑链条。或许,聪明的解码并不在于一味地“深入”,而在于知道自己应该在何处止步。当模型学会分辨哪些层次在真正思考、哪些层次在被迫讨好人时,真正的智能才能浮现出来。
在人工智能的版图上,一群名为“世界动作模型”的新兴力量正在重塑机器与现实的互动方式。它们不是普通的视频生成器,而是能够为行动预判未来的预测模型。
想象一下,一个机器人不仅能看到眼前的世界,还能在脑海中预演接下来的几秒会发生什么,然后据此决定如何行动。这正是世界动作模型的核心能力——它们将未来预测直接嵌入行动规划中。
然而,这个领域正经历着快速扩张带来的身份模糊。有的模型直接改造大型视频生成模型,有的则依赖语言或视觉-语言主干而无需视频生成核心。一时间,世界模型、视频生成模型、行动锚定的视频世界模型、视觉-语言-行动策略以及世界动作模型之间的界限变得扑朔迷离。
这篇综述试图为这片混沌的领域建立共同的语言。研究者们首先厘清了这些边界,然后通过两个互补的视角来组织现有工作。第一个视角关注每个方法被要求生成什么——是渲染出的未来画面,是潜在的未来表征,还是无需视频生成的纯行动推理。第二个视角则拆解每个方法的预测基底、骨干网络、行动耦合方式和部署模式。
在这套解剖框架下,可交互性、因果性、持续性、物理合理性、泛化能力等关键维度得以统一讨论。随之而来的是数据、评估和开放挑战的审视。
贯穿这些维度,一个一致的设计模式逐渐浮现:世界动作模型并非简单的“视频生成器加行动头”,而是预测行动方法,其设计选择在表征丰富性与计算、内存、延迟和行动标签成本之间权衡。这个领域正朝着一个方向前进:减少对未来的生成量,但保留控制所需的关键预测。
正如研究者所揭示的,真正的挑战不在于生成完整的未来视频,而在于精确提取控制所需的本质。这一洞察将引导未来世界动作模型走向更高效、更智能的行动预测之路。
想象一个AI团队:多个基于大语言模型的智能体各司其职,每个都被分配了专属的系统提示,规定着它们的角色和行为。这些智能体通过预设的工作流彼此协作,最终整合输出结果——这就是多智能体系统(MAS)的典型模样。系统提示因此成为优化这类系统的关键手柄:无需重新训练模型,仅调整提示就能改变整个团队的协作效率。单智能体领域的提示优化已成果显著,但当把这个方法扩展到多智能体系统时,麻烦来了:搜索空间呈指数级膨胀。研究者开始追问:提示优化到底能不能改善MAS性能?如果能,在什么时候、多大程度上有效?这些增益对系统配置有多敏感?
一项系统性研究给出了部分答案。研究团队设计了多种MAS配置,涵盖了不同任务类型、工作流模式、通信协议和团队规模。他们测试了两种提示优化器,这两种方法自然延伸了当前最先进的单智能体优化技术。结果耐人寻味:提示优化确实能解锁显著的性能提升,但同时也暴露出许多未解的难题。在某些场景下,小幅调整系统提示就能让多智能体协作效率翻倍;而在另一些场景中,优化却收效甚微,甚至可能因过度调整让智能体陷入角色混淆。团队大小也是关键变量——小团队容易受益,大团队则因复杂的交互关系让优化效果迅速衰减。
数据揭示了一个核心矛盾:优化带来的增益程度高度依赖于工作流的拓扑结构。例如,在链式工作流中,提示优化能精准修正下游智能体的行为偏差;但在网状并行结构中,提示的微小变化可能引发链式反应,导致整个系统的输出偏离轨道。通信协议的影响同样显著:开放讨论式的协议对提示更敏感,而严格的层级汇报模式则更稳定。
这项研究为多智能体系统的实际应用泼了一盆冷水,但也点燃了新的希望。提示优化不是万能钥匙,而是一把需要精准匹配锁孔的钥匙。在追求更智能、更灵活的AI团队时,我们或许该先问问:这个系统真的需要优化提示,还是需要重新设计协作的结构?每一次提示的改写,都可能是一场团队化学反应的引爆剂,要么催化出惊人的协同效应,要么点燃失控的连锁反应。
从2017年Transformer诞生以来,所有主流语言模型都默认使用一个相同的基础架构:堆叠完全相同的层,每层参数均匀分配。这个设计看似合理,却埋下了一个反直觉的真相。越来越多的研究揭示,不同层对最终输出的贡献并不平等,后期层更像是在精修已有的表征,而非彻底改造它。如果参数预算固定,我们是否该把更多资源倾斜给更重要的前几层?
答案比预想中更直接。研究者设计了一个对照实验:在固定总参数预算下,把更多容量分配给早期层、减少后期层的宽度,结果模型困惑度显著低于均匀分配。相反,把容量反向分配给后期层则让性能下降。这种容量分配的非对称性,撬动了一个隐藏的杠杆。
基于这一发现,研究者提出了“锥形语言模型”(TLM)——一种架构设计原则,在固定总预算下,让参数承载组件沿着深度方向单调递减。执行这个想法最自然的部位是多层感知机(MLP)。因为现代语言模型中,MLP占据了参数总量的绝对多数,而且它的宽度是一个干净、可控的变量。通过平滑的余弦调度,研究者让MLP宽度从输入到输出逐渐变窄,形成锥形。
在三种不同规模的模型(从几亿参数到数十亿参数)和四种架构(Transformer、门控注意力、Hope-attention和Titans)上,锥形MLP都带来了性能提升:不仅语言建模困惑度更低,在多个下游基准测试中也表现更好,而且没有增加任何额外的参数或计算开销。换句话说,这是一个零成本的免费午餐。
这项研究揭示了一个被长期忽视的设计空间:深度感知的容量分配。在统一的厚度表皮下,不同层其实需要不同的“养分”。锥形架构不是在堆叠相同的高度,而是让每一层都拥有与它实际所需相匹配的呼吸空间。有时,最深刻的改进恰恰藏在我们习以为常的细节里,等待一双重新审视的眼睛。
在教AI使用命令行的征途上,数据质量正成为最棘手的拦路虎。现有方法虽然能批量合成训练样本,却常常产出“虚有其表”的任务——指令模糊得像谜语,执行路径浅尝辄止,测试用例脆弱到经不起推敲。为了破解这一困局,研究人员打造了一台名为CLI-Universe的智能合成引擎。
这台引擎的运作方式堪称严谨:它首先从多个维度(领域、技能类型、能力层次、工程支柱)构建一张精细的能力图谱,然后通过随机组合生成候选任务。但生成只是开始,每个候选任务都要经历一场“深度调研”——引擎会翻阅真实世界的技术文档、API手册和工程实践,用证据来验证任务是否具备扎实的基础。只有通过验证的任务蓝图,才会被实例化为Docker化的可执行环境,并接受多阶段可执行验证流水线的严苛考验。
这个验证过程设计得层层递进:首先由评分规则引导的测试构建自动生成测试用例,接着通过提示条件过滤剔除那些过于简单或模糊的任务,最后执行严格的“失败——通过”检查——只有那些能真正区分错误操作与正确操作的用例才算合格。整个流程下来,大约三分之二的候选任务被无情淘汰,仅保留那些真实、可验证且具有非平凡挑战性的样本。
基于这套流水线,团队生成了一个高度精炼的数据集CLI-Universe-6K,包含6000条完整轨迹。令人惊讶的是,仅仅在这个数据集上微调Qwen3-32B模型,就在Terminal-Bench 2.0基准上取得了33.4%的准确率。这不仅在参数量32B以下的开源模型阵容中刷新了纪录,甚至力压数个规模大一个数量级的模型——有的参数量高达万亿级别,却在这个任务上黯然失色。
一场关于数据效率的实验,用硬核数字给出了答案。这让我们看到,当合成流程变得系统化、可信赖并充满对质量的执念时,每一份训练样本都可能释放出远超其体量的价值,也许这正是通往更强终端代理的一条隐秘捷径。
最近大热的端到端OCR技术,比如DeepSeek OCR,让机器认字能力突飞猛进。主流看法是用大语言模型做解码器,借助语言先验知识提高识别准确率。但仔细对比人类,就会发现一个诡异现象:当需要抄写一长串文字时,人类保持稳定速度,而机器却越跑越慢。问题出在KV缓存——随着输出序列变长,这个缓存不断膨胀,消耗大量内存,拖慢生成速度。这就好比人类在持续阅读时,短期记忆不会无限累积,而是灵活分配、及时遗忘。
为了解决这个矛盾,研究人员提出了Unlimited OCR模型,核心思路是模仿人类的“解析工作记忆”。模型以DeepSeek OCR为起点,但对解码器中的全部注意力层动了手术——换上一种全新的“参考滑动窗口注意力”(R-SWA)。这种机制降低注意力计算成本的同时,让KV缓存在整个解码过程中保持恒定大小,不再随文本长度增加而膨胀。结合DeepSeek OCR编码器的高压缩率,新模型在32K标准最大长度下,一次前向传播就能转录几十页的文档,效率惊人。
更值得关注的是,R-SWA并非OCR专属。它是一种通用解析注意力机制,理论上同样适用于语音识别(ASR)、机器翻译等任务。目前,Unlimited OCR的代码和模型权重已经开源,任何人都可以复现或改进。
这项探索揭示了一个有趣的思路:当我们抱怨算法效率下降时,或许答案不在更复杂的计算,而在向生物学习那种精准的聚焦与遗忘。机器越跑越慢,不是因为不够努力,而是没有学会放下。
当好莱坞还在为AI是敌是友争论不休时,谷歌已经悄然落子。它向独立电影界的金字招牌——A24工作室注资7500万美元,并送上DeepMind的AI技术团队作为嫁妆。这不是要拍一部全AI生成的电影,而是试图打造一套“电影人亲手打磨”的工作流,让AI成为导演手里的精巧工具,而非取代他们的魔法盒子。
这次合作是谷歌首次持有电影工作室的股权,而A24看似付出不小——它背后的算力和顶级研究团队来自DeepMind——却守住了底线:不交出任何电影片库或内部数据。A24旗下新成立的技术部门,由前Adobe高管Scott Belsky掌舵,正在研发一款AI故事板工具。Belsky强调,它“绝不会像那些输入提示词就生成画面的AI”,更像是为导演提供灵感的速写本,而非包办创作的剧本生成器。
讽刺的是,这次合作的宣布,恰好发生在A24大热影片《Backrooms》之后。该片导演Kane Parsons在采访中直言不讳:“AI是更广泛文化和经济腐朽的症状。”他的态度代表了好莱坞内部的一种撕裂感:一边是电影人公开抵制AI对创意领域的侵蚀,另一边却是制作方和资本争先拥抱这项技术。
过去几年,好莱坞的巨头们一直在两种策略间反复横跳:要么起诉AI公司侵犯版权,要么签下大额合作协议将AI收入麾下。谷歌与A24的合作,试图避开最激烈的批评——它将AI定位为辅助工具而非替代品,并用独立电影人的品牌光环为技术背书。但现实远比理想复杂。正如马丁·斯科塞斯最近的遭遇所揭示的,哪怕只是用AI做最轻微的后期处理(比如微调背景),也能让本就对AI充满敌意的观众群瞬间炸锅。影迷们无法容忍任何形式的“非人工干预”,在他们看来,AI的每一帧都是对电影灵魂的背叛。
这笔交易背后,是一场技术、艺术与信任的拉锯战。谷歌赌的是,只要工具足够细腻、足够“电影人友好”,就能慢慢消解观众的反感;而A24则在赌,自己招牌般的艺术品味能驾驭这头技术巨兽,甚至用它来讲述更独特的故事。但无论如何,当DeepMind的研究员们开始和A24的导演们坐在一起讨论分镜,电影行业已经站上了一个再也回不去的路口。试图在冰冷的算法与滚烫的创作之间找到平衡,或许本身就是我们这个时代最值得书写的寓言——只是不知道,最后的镜头里,究竟是谁在执掌摄影机。
当人们还在争论Grok能否跻身一线AI模型时,埃隆·马斯克早已将目光投向了更稳赚的生意——把自己的超级计算机变成“算力房东”。最近,SpaceX与AI初创公司Reflection AI签下协议,租用价值63亿美元的英伟达算力,这标志着科尔苏斯(Colossus)数据中心正式向外部客户开放。
这个数据中心原是马斯克为训练Grok模型而建,但过去一年里,它逐渐转型为其他AI实验室的算力租赁中心。Reflection AI是其中最年轻的客户——这家公司去年10月才成立,致力于为政府和企业构建开源前沿系统,虽然至今尚未发布公开模型。与Reflection相比,其他租户的规模更为惊人:Anthropic每月租金高达12.5亿美元,谷歌每月支付9.2亿美元,而Cursor则被直接以600亿美元整体收购。
马斯克这步棋的妙处在于:不管Grok本身表现如何,算力短缺的市场已让科尔苏斯成为一台印钞机。SpaceX一边通过基础设施租赁赚取现金流,一边还在规划太空数据中心项目——无论模型竞赛结果如何,这家公司都已占据价值链上游。对于投资者和行业观察者而言,这或许比任何AI排行榜都更值得关注:真正的财富,往往不在算法里,而在那些支撑算法的轰鸣机房中。
当美国出口管制掐断Anthropic顶级模型Mythos和Fable的供应,日本AI初创公司Sakana AI却推出了一款名为Fugu的模型,它不依赖单一巨无霸,而是像一位幕后调度师,通过一个API,将每个请求分发给一群大小各异的模型。核心模型负责选助手、派任务、查结果、拼答案,整个多Agent编排过程对用户完全透明。Fugu提供两个版本:轻快的Fugu日常处理编程和聊天,沉重的Ultra则瞄准专利研究、安全测试这类硬仗。Sakana声称,在多个编程、推理和科学测试中,两个Fugu模型表现都接近甚至超过被禁的Fable 5和Mythos预览版。这背后的潜台词很直接:我们绕开了封锁,达到了前沿水平。然而,用户的反应与基准测试形成反差。有人反馈模型实际表现并未真正触及前沿,质疑其模型混合方式和成本效益,观望气氛浓厚。类似OpenRouter的Fusion,模型编排正引导实验室以创意方式冲击前沿。但Fugu底层模型的不透明性、高昂成本,以及早期评测与官方成绩的落差,让它在现阶段更像一枚等待验证的种子。多模型协作能否成为突破出口管制的钥匙?答案或许取决于其真实能力能否经得起更多用户的拷问。
在美国,每五个成年人中就有一个饱受骨关节炎折磨,这种疾病每年给医疗系统造成约650亿美元的沉重负担。然而至今,还没有一种获批药物能够真正延缓或逆转病情。关节置换手术往往是最后的无奈之选。但现在,斯坦福大学的研究人员发现了一个令人振奋的突破口:通过阻断一种名为15-PGDH的衰老相关蛋白,小鼠失去的膝关节软骨竟然奇迹般地重新生长出来。
这一切的起点,是对一个关键分子的探索。15-PGDH蛋白在衰老的关节中含量会翻倍,而斯坦福团队发现,无论是直接注射到关节腔,还是通过全身给药,只要把这个蛋白“关掉”,小鼠的软骨就能显著再生。更惊人的是,治疗后,原本负责构建健康透明软骨的细胞比例从令人沮丧的22%一跃升至42%,相当于让老化的软骨细胞重新“焕发青春”。
这些发现并非仅停留在动物实验。研究人员将人类因膝关节置换手术而取出的软骨组织放入培养皿,同样施加阻断15-PGDH的处理。仅仅一周后,那些原本正在退化的软骨表现出了更少的降解迹象,甚至出现了新生的软骨细胞。这意味着,人体可能也拥有类似的再生潜力,只是被年龄和疾病压制了。
更加令人期待的是,一种15-PGDH抑制剂早在之前就已经进入一期临床试验,用于对抗年龄相关的肌肉无力——在那里,它展现出良好的安全性,健康志愿者没有出现严重副作用。这为将其用于骨关节炎治疗铺平了道路。
这项研究与科罗拉多大学科学家开发的缓释注射技术相呼应,后者通过缓慢释放信号分子促使细胞重新生成软骨。整个再生医学领域正从“减缓损伤”转向“主动修复”。或许在不远的将来,那些因关节疼痛而步履蹒跚的人,不必再忍受冰冷的金属假体,而是迎来一次简单的注射,便能让自己的软骨重新长出灵动的光泽。
在德克萨斯州西部二叠纪盆地的荒漠中,一项为期20年的能源合作正在酝酿一场脱胎换骨的变革。雪佛龙旗下子公司Energy Forge One与微软签署了20年购电协议,共建名为“Kilby项目”的2.67吉瓦天然气发电数据中心综合体。这片占地2000英亩的场地位于里夫斯县,将采用通用电气Vernova和卡特彼勒的涡轮机,完全由雪佛龙在二叠纪盆地开采的天然气供能。
这个计划于2026年底前做出最终投资决定、2028年实现首次发电的项目,预计将带来超过100亿美元的税收收入。它将微软的数据中心与发电设施直接共址,电力绕过公共电网直接输送到服务器,既缓解了电网压力,又为雪佛龙创造了与油气价格波动脱钩的稳定现金流——无论天然气市场如何震荡,微软的算力需求都会持续付账。
此举背后,是科技巨头疯狂押注AI的必然结果。随着ChatGPT等生成式AI爆发,每个查询耗电量是传统搜索的10倍以上,大型科技公司被迫锁定十年以上的能源供给。雪佛龙与微软的合作,成为石油巨头最明确的信号:AI无休止的电力饥饿——而非能源转型——才是下一个增长前沿。当清洁能源的间歇性瓶颈尚未突破时,天然气正以其可靠性重新成为算力基座的燃料。这个项目也揭示了一个更深的逻辑:化石燃料公司正从开采商转型为“能源即服务”商,直接对接科技巨头的需求,而这个过程几乎不产生排放争议——毕竟,那些排放本应由微软的碳排放目标去对冲。
在荒原上,天然气燃烧的火苗将直接转化为硅基世界的智能涌动。这场联姻不仅是商业的,更是时代的注脚:当人类用越来越庞大的算力模仿大脑,驱动它的依然是从地壳中抽取的古老能量。
Instagram正在将触角伸向客厅电视屏幕。继去年12月登陆亚马逊Fire TV和谷歌电视设备后,如今其TV应用扩展至三星智能电视,迈出了争夺家庭娱乐时间的关键一步。它开始测试一系列全新格式:剧集式内容、长视频,以及直播创作者节目——这些都是Instagram此前从未支持过的。
这款TV应用新增了个性化频道功能,用户可以在电视上浏览Stories(快拍),还能直接将手机上的Reels(短视频)投屏到电视观看。更引人注目的是,Instagram开始招募创作者制作剧集式内容:将故事拆分成1到3分钟一集的系列短片。本月早些时候,Meta已经在Instagram和Facebook上测试了名为“Series”的剧集式Reels功能。
这一动作背后是流媒体格局的深刻变化。2025年,YouTube已经超越Netflix和其他流媒体服务,成为美国电视上最受欢迎的视频提供商。Instagram希望复制这一成功路径——让创作者成为吸引观众从手机转向客厅电视机的那股力量。如果剧集和直播格式能获得普及,Meta将正式加入争夺电视注意力的战局,而流媒体平台们为此已经花费了数十亿美元。
从手机竖屏到客厅大屏,从15秒短视频到系列剧集,Instagram的扩张既是顺应观众内容的习惯迁移,也是一场对注意力经济的豪赌。当每个人都在手机上刷着无穷无尽的短视频,他们是否真的会愿意坐下来,在电视前追完一部“手机剧”?这或许是一场关于习惯与耐心的实验。
Meta(脸书母公司)在一次全公司强制性的AI培训项目中,意外将员工的键盘敲击记录、鼠标移动轨迹以及私人对话内容暴露给比预期更多的同事。《连线》杂志报道了这一事件。
今年4月,Meta启动了“模型能力倡议”(MCI)项目,旨在收集大部分美国员工的键盘输入和鼠标移动数据,用于训练其人工智能模型。该项目被设定为强制性,但许多员工并不知情——他们不知道自己的每一次敲击、每一个鼠标点击,甚至是与同事的私人聊天记录,都在被悄悄记录并用于AI训练。
事情的转折点发生在员工偶然发现这些被收集的数据——包括他们自认为私密的对话——竟然可以被比预期更广泛的同事访问。一份内部报告随后被提交,指出数据可见范围严重超标。Meta将此事列为第二严重级别的安全事故(SEV 2),并立即暂停了该项目。公司对外宣称,没有迹象表明这些数据被不正当访问或滥用。
然而,这场风波并非毫无预兆。早在数据泄露事件发生之前,Meta内部就已经暗流涌动:一份由1500名员工联合签署的请愿书,明确反对这项数据收集计划。他们质疑的不仅是公司是否有权收集这类工作场所数据,更是对强制参与下数据安全性的根本怀疑。
现在,事情的性质已经超越了“企业应不应该收集员工数据”的争论。当员工被迫参与,而公司连基本的数据可见范围都无法把控时,信任的根基便已动摇。这起事件给所有科技公司敲响了警钟:在追逐AI训练数据的路上,如果不能妥善守护员工的隐私,最终失去的将远比数据本身昂贵。