EZ.AI Listen Daily
想象一下,你手里有一堆自己日常做家务的录像——切菜、叠衣服、拧瓶盖。这些视频里没有任何机器人,只有你的双手和物体。如果能让机器人只看这些视频就学会同样的动作,而且不需要任何机器人数据、不需要昂贵的遥操作设备,那会怎样?这正是HumanEgo框架要解决的问题。它像一位聪明的翻译官,把人类演示中的每一个手-物交互动作,都提炼成抽象的“实体级”语言——不是像素点的颜色,而是手的位置、物体的姿态、它们之间如何相对运动。这种表示让机器人不再纠结于“人类的手长这样,我的机械爪长那样”,而是理解“当时手在物体上方5厘米,以每秒30度的速度旋转”。
更妙的是,HumanEgo训练时只用到了30分钟的人类视频(每个任务),就达到了92.5%的平均成功率。即便只给15分钟视频,成功率也有75%。这比用同样时间让别人直接遥控机器人操作的效果高出41%。而且,当换一台完全不同的机器人、换个相机角度、甚至换个房间,它都能零样本直接工作——就像一个人学会了切菜,换把刀、换个厨房依然能切。
背后的秘密在于:它设计了一套“密集辅助目标”来强化每个轨迹的监督信号。就好比老师不只检查期末考试卷,而是连每一步草稿纸上的演算都打分修正。这样,即便是稀疏的人类视频也能教出精准的机器人策略。
这项研究最让人感慨的是:它打破了“机器人需要大量机器人数据”的魔咒。我们每天产生的无数人类操作视频,可能正是机器人学习的金矿。或许未来,你随手拍的做菜视频,就能教会家里的机器人如何打鸡蛋。技术的魅力,有时就在于让最平凡的日常变成最强大的训练场。
想象一下,你正在训练一个能同时理解图文、音频和视频的AI系统。过去,工程师们习惯将不同模态的信息分别编码,再像拼乐高一样在最后阶段把它们组装起来——这被称为“晚期融合”。但最新的研究揭示了一条截然不同的道路:让不同感官从一开始就融为一体,就像人类的大脑一样,视觉、听觉和语言在皮质层就交织着工作。
这篇工业级研究报告为这场变革提供了清晰的路线图。研究人员首先给“架构原生性”下了严格的定义:他们区分了“中期融合”和“早期融合”——前者允许部分互动但保留独立通路,后者则在最底层统一处理——并明确将它们划归到“原生多模态建模”阵营,与非原生的晚期融合划清界限。这不仅仅是技术分类的学究游戏,它直接决定了AI能否像人类一样,在看图识物的同时理解话语中的隐喻。
更具突破性的是,研究者从“输入-输出对偶性”的角度,将现有的原生模型梳理为三大类。第一类是“多到文本”:比如你输入一张照片和一段语音,模型输出一段文字描述,这是跨模态理解,输出只有文本。第二类是“多到目标”:面向特定情景的生成,比如根据文字描述和参考图像生成新的音频、视频或图片,这是创作导向。第三类是“多到多”:输入和输出都是多模态的,例如模型同时读取图像和文字,回答出包含图像和语音的答案——这是最接近“世界模型”的形态,理解与生成在统一Transformer范式中无缝共存。
但理论框架只是冰山一角。研究人员还拆解了一套完整的工业级落地流程:从架构设计的协调——比如注意力机制如何在模态间共享权重,到海量数据的清洗与对齐——不同模态的数据在时间尺度、分辨率上如何匹配,再到端到端的训练食谱——用什么样的学习率、预训练和微调策略,最后到推理部署中的内存优化和模型压缩,以及全面的评估体系——除了准确性,还要考量生成质量、鲁棒性和模态间的一致性。
这是一场从“拼图时代”到“熔炉时代”的转型。原生多模态建模不再是实验室里的奇观,它正在为自动驾驶、医疗影像、人机交互等场景铺平道路。毕竟,世界从来不是孤立的像素、符号和声波,它是一首流淌的交响乐。而真正的智能,应该学会在第一个音符响起时就听懂整首乐章。
日本成功测试5马赫氢燃料冲压发动机,未来跨太平洋飞行或缩短至两小时
在东京郊外的角田航天中心,一场静默的革命正在发生。日本宇宙航空研究开发机构(JAXA)的工程师们刚刚完成了一项看似不可能的实验:他们让一台两米长的实验飞行器在模拟5倍音速(约3300至3800英里/小时)的风洞中平稳运行。当空气温度飙升至约1000摄氏度时,热防护系统像一件神奇的隔热斗篷,将内部温度维持在接近常温,所有电子设备安然无恙。
这并非科幻电影中的场景,而是人类向超高速航空迈出的坚实一步。想象一下,从东京飞往纽约的航班,原本需要十二个小时的漫长旅程,未来可能只需两小时——就像从北京飞到上海一样轻松。这台氢燃料冲压发动机的成功地面测试,正是实现这一愿景的关键突破。
然而,科学家们清醒地意识到,从实验室到商业航线,还有漫长的路要走。JAXA的研究人员坦言,商业化的高超音速飞行服务至少要到2040年代才能实现。下一步,他们将把这台发动机安装到探空火箭上,进行真正的5马赫飞行测试。
这项技术的意义远不止于缩短旅行时间。它可能重塑全球物流网络,让太平洋两岸的货物运输变得像跨城快递一样便捷。但挑战同样严峻:如何确保在极端高温下的安全性?如何制定新的航空法规?如何控制成本并解决碳排放问题?这些难题就像一座座高山,横亘在超高速飞行的道路上。
当人类站在航空技术的新门槛上,我们不禁思考:速度的极限在哪里?或许,真正的挑战不在于如何飞得更快,而在于如何让这种速度服务于更美好的未来。每一次技术突破都像一把双刃剑,既带来便利,也带来责任。
中国首次将人造胚胎送入太空
在距离地球400公里的中国天宫空间站里,一场关乎人类未来的实验正在悄然进行。科学家们将人工培育的人类胚胎结构送入了太空轨道,这是人类首次在太空中研究早期胚胎发育。这些由干细胞培育而成的胚胎模型,被安置在自动密封的生物反应器中,它们不会发育成真正的胎儿,却承载着解开太空生育之谜的重任。
实验采用了两种模型:一种在子宫细胞上培养,另一种在微流体芯片中观察。生物反应器自动供给营养、控制温度,并将成像数据实时传回地球。科学家们正在追踪细胞分裂、基因表达和结构发育,观察太空环境如何改变正常的胚胎形成过程。此前的小鼠实验表明,胚胎可以在轨道上发育,但成功率较低,异常率较高,且辐射会导致DNA损伤。
这项研究的意义远超实验室。太空繁殖正从科幻小说走向现实研究,像SpaceBorn United这样的初创公司和其他项目正在探索生命能否在地球之外诞生。然而,更高的失败率、辐射风险以及几乎为零的人类数据,使得太空婴儿的追求正在超越科学本身,也超越了伦理规范的边界。
当人类开始思考在火星上建立殖民地,在月球上建造基地时,这个问题变得愈发紧迫:我们是否准备好面对在太空中孕育新生命的挑战?这不仅是一个科学问题,更是一个关乎人类未来的哲学命题。在星辰大海的征途上,我们或许需要先回答:当生命离开地球的摇篮,我们是否已经准备好承担起守护它的责任?
美国砸20亿美元押注量子计算,却被议员指控违法
美国商务部签署了价值约20亿美元的《芯片法案》激励意向书,其中最大受益者是IBM,获得了10亿美元联邦激励和10亿美元自有资金,用于建设美国首家纯量子芯片代工厂“安德森”。然而,加州民主党众议员佐伊·洛夫格伦指出,这种使用《芯片法案》资金的方式可能违法,因为国会原本意图将这笔钱用于公共半导体研究,而非股权式投资。她批评该交易缺乏透明度,称其“在多个层面上非法且令人不安”。
这场争议的核心在于:美国能否在保持法律框架的同时,快速推进量子计算等战略技术。量子计算对网络安全、先进建模和国家竞争力至关重要,但华盛顿的决策速度与法律约束之间的张力,正成为这场博弈的关键。
法拉利首款电动车Luce:乔纳森·艾夫操刀,64万美元的电动猛兽
当法拉利决定造电动车时,他们做了一件出人意料的事:请来了苹果前设计总监乔纳森·艾夫。这位曾设计iPhone的男人,与他的LoveFrom工作室一起,为法拉利打造了首款纯电车型Luce。这不是一台普通的电动车,而是一台售价64万美元、拥有1035马力的五座猛兽。
Luce的设计从项目伊始就由LoveFrom主导。他们创造了法拉利历史上最低的风阻系数,让这台电动车在空气动力学上达到了新高度。四个电机共同输出1035马力,但法拉利没有像其他电动车那样使用合成音效,而是捕捉后电机的真实振动,让驾驶者听到的是机械本身的声音,而非电子模拟。
内饰方面,LoveFrom展现了极简主义美学:方向盘由一整块铝材铣削而成,机械按钮和旋钮按功能分组排列。这种设计语言让人想起苹果产品的简洁与精致,但又不失法拉利的运动基因。
Luce将于2026年下半年上市,起售价64万美元,成为法拉利最贵的量产车型,也是其首款五座车。法拉利的目标很明确:让Luce首先是一台法拉利,其次才是一台电动车。通过LoveFrom的极简设计、机械控制按钮和令人咋舌的价格,法拉利在测试一个命题:当电动车市场被屏幕、软件和效率定义时,超豪华买家是否愿意为品牌神话买单?
这台车或许不会改变电动车市场的格局,但它证明了一件事:即使是最传统的意大利跑车制造商,也在用最独特的方式拥抱电动化。当科技与机械、极简与激情碰撞,Luce可能成为电动时代最令人难忘的异类。
Uber高管质疑AI烧钱:高投入未必换来高回报
Uber首席运营官Andrew Macdonald在近期一次访谈中坦言,公司正面临一个棘手问题:随着AI使用量激增,成本水涨船高,但实际收益却难以量化。他提到,员工们热衷于“tokenmaxxing”——即尽可能多地消耗AI计算资源,但这与开发出更实用的消费者功能之间,很难建立直接联系。当Uber为了支撑AI投资而放缓招聘时,这种成本压力变得更加突出。此前,Uber首席技术官曾因“烧掉Claude Code预算”引发内部热议,员工们开始争论token使用与工作成果之间的权衡。Macdonald还谈到了自动驾驶技术,称其对Uber而言是“生死攸关”的挑战,并预测这一变革既不会在几十年后发生,也不会在短短几年内实现。值得注意的是,Duolingo已停止根据AI使用量来评估员工绩效,这表明业界正逐渐意识到,盲目追求AI使用量可能并非明智之举。在科技巨头纷纷将AI使用与绩效挂钩的当下,Macdonald的言论无疑给这股热潮泼了一盆冷水——当成本与收益的天平开始倾斜,或许该重新审视AI的真正价值了。
AI安全防线失守:开源模型10分钟被“脱敏”
英国《金融时报》披露,开源AI模型的安全护栏正面临前所未有的挑战。一个名为Heretic的工具,仅需四行代码和普通电脑,就能在10分钟内移除Meta Llama 3.3的安全限制,使其回答关于蓖麻毒素剂量等危险问题。该工具已生成超过3500个“脱敏”模型,下载量达1300万次,甚至能在谷歌Gemma 4发布后90分钟内完成破解。
更令人担忧的是,被修改后的模型不仅会回答生物武器制造问题,还会提供儿童剥削相关内容。谷歌承认这是“所有开源模型面临的技术挑战”,而Meta则拒绝置评。
虽然目前这种技术仅适用于开源模型,但开源模型与闭源系统的性能差距正在迅速缩小。专家预测,只需数月时间,开源模型就能达到与闭源系统相当的水平。届时,一个被“脱敏”的版本可能成为重大安全隐患。
当技术门槛低到只需四行代码,当安全防线脆弱到90分钟就能被攻破,我们不得不思考:在追求AI开放性的同时,如何守住人类安全的底线?这不仅是技术问题,更是关乎每个人未来的生存课题。
教皇的AI警告:道德不能由少数人决定
教皇利奥十四世刚刚发布了首部通谕《伟大的人文》,向全球14亿天主教徒发出警告:如果道德标准由少数人决定,那么所谓的“道德人工智能”毫无意义。他呼吁在技术完全主宰人类之前,先“解除”它的武装。
这份通谕的核心要点包括:教皇指出人工智能的推动者是私人跨国企业,这些公司的能力已经超越许多政府,而技术从来不是中立的。他要求让AI变得“对人类友好”,摆脱垄断控制,警告技术可能将人变成效率机器中的齿轮。教皇呼吁建立“健全的法律框架、独立监督、知情用户以及不放弃责任的政治体系”。在战争领域,他强调生死决策绝不能交给AI,“没有任何算法能让战争在道德上被接受”。Anthropic公司的克里斯托弗·奥拉也加入教皇的阵营,指出“每个前沿AI实验室都处于与正确行为相冲突的激励之中”。
这份通谕的意义非同寻常。教皇一生只发布寥寥几部通谕,而将其中一部专门献给AI,这强烈表明天主教会对即将到来的技术变革有多么重视。教皇将AI视为我们这个时代的工业革命,他选择了一个在AI安全问题上最为直言不讳、最愿意对军事无限制使用AI说“不”的合作伙伴。
当技术巨头们竞相开发更强大的AI系统时,教皇的声音提醒我们:真正的进步不是让机器更聪明,而是让人类更自由。
想象一下,你正在教一个机器人学会整理桌面。它需要拿起杯子、移动书本,但每当灯光变化或者物体被遮挡,基于像素的模型就会陷入混乱——因为像素级的预测把真正的运动(比如杯子被移动)和不相关的视觉噪声(比如阴影、纹理)搅在了一起。这正是当前机器人策略学习面临的核心困境:世界-动作模型虽然能捕捉环境动态,但像素层面的建模让学到的表示对任务无关的视觉变化过于敏感。
为了打破这个僵局,研究人员提出了一种名为JOPAT的新型模型,全称是“联合像素与轨迹的世界-动作模型”。它不像传统方法那样只盯着像素外观,而是用一个统一的去噪扩散Transformer,同时预测三个关键要素:潜在的视觉观测(像素层面的压缩表示)、2D点轨迹及其可见性,以及接下来的动作。这个设计的精妙之处在于,轨迹提供了运动的显式表示——当杯子从桌子左边滑到右边,轨迹能清晰地追踪它每个点的移动路径,即使中途被手遮挡或者移动到摄像头视野边缘,轨迹依然能保持鲁棒,因为模型学会了预测点是否可见以及位置变化。
在实验验证中,JOPAT在两个具有挑战性的评测集上展现了优势。在LIBERO模拟环境和真实世界的LeRobot任务上,它都比基于像素预测的基线模型更出色。尤其是那些需要长远规划、涉及物体交互、频繁出现遮挡或物体跑到屏幕外的任务,JOPAT的改进最为显著——比如机器人需要连续推开多个抽屉并抓取物品,过程中手部会反复遮挡目标物体,像素模型往往会丢失跟踪,而JOPAT利用轨迹的连续性依然能准确推断物体位置。
这个研究的关键洞察其实很简单:与其试图让模型学会忽略光照和纹理,不如给它一个更直接的“运动语言”——2D点轨迹。这种表示就像给机器人装上了“运动直觉”,它不关心物体表面是什么颜色,只关心它从哪里来到哪里去。当模型学会同时预测像素和轨迹,两种信息互相补充:像素提供场景的全局上下文,轨迹提供精确的运动信号。最终,JOPAT在长时域任务上取得了最大幅度的提升,为机器人处理真实世界中的动态环境提供了更鲁棒的解决方案。
也许,真正的智能不在于记住每一帧画面,而在于理解那些不变的运动规则。当我们不再执着于像素的完美,反而让机器人更清楚地看见了世界。
常识告诉我们,好老师才能教出好学生——至少在大型语言模型的预训练中,这个逻辑似乎天经地义。但一项最新研究却像一记惊雷劈开了这个想当然的假设。研究者们决定亲手打破这个“师徒铁律”,他们设计了三类“师生关系”:强教师教弱学生、同级互教、以及最反直觉的——弱教师带强学生。为此,他们特意调整了不同模型架构的大小和训练数据的多少,来制造强弱悬殊的梯队。
实验的结果让人大跌眼镜。当弱教师站上讲台——那些参数更少、训练得也马马虎虎的模型——它们非但没有拖累学生,反而让更大的学生模型取得了进步,只要在训练中巧妙地将语言模型损失和知识蒸馏损失混合。这还不算完,更强悍的教师居然可能成为包袱。继续给教师模型喂更多参数、砸更多训练数据,蒸馏带来的增益不升反降,有时甚至会原地打转甚至倒退回原点。研究者敏锐地捕捉到一个模式:蒸馏在提升模型的泛化能力——也就是处理未知数据和新任务上的表现——比改善模型在熟悉内容上的拟合更加立竿见影。
这整个发现就像一张通缉令,悬赏推翻那个早已深入人心却从未被审慎查证的信念:蒸馏预训练必须仰仗一位强大的教师。当弱小的导师也能点亮巨人的大脑,当强者反而可能成为天花板,我们对模型训练的理解或许需要来一场彻底的重新校准。有些时候,打破教条的光芒,比任何庞大而坚固的权威都更为耀眼。
想象一下,你手里拿着几张从不同角度拍摄的稀疏照片,想要瞬间在电脑里重建出这个场景的三维模型,并且这个模型可以直接扔进物理引擎里做碰撞测试或模拟。传统方法往往要把高斯“点云”先转成网格,这个后处理步骤既耗时又容易出错,还会破坏“前馈”的流畅体验。现在,一种叫TriSplat的新方法打破了这种僵局。
TriSplat的关键思路是用有向三角形取代高斯作为渲染的基本单元。这些三角形本身就是微小的表面,而非模糊的点团。给定输入图像后,一个前馈网络会同时预测出局部三维点图、三角形属性、相机位姿甚至内参。最巧妙的是,它并不直接去猜三角形的朝向这种飘忽不定的变量,而是先从预测的点图抠出几何法线,再用一个图像条件法线头来精修,最后把这些法线转换成稳定的局部坐标系,从而参数化每一个三角形。训练时,一个“单法线引导计划”能让早期网络更稳当,而不透明度和模糊度逐渐调整的“计划”则让表面越来越锐利,为直接提取网格铺平道路。
实验在RealEstate10K和DL3DV两个数据集上进行,结果显示:TriSplat比那些基于高斯的前馈基线方法能重建出更贴合真实几何的形状,同时在新视角渲染质量上也不落下风。更吸引人的是,由于渲染的基本单元就是三角形面片,输出的网格能直接被物理引擎、碰撞检测器和标准渲染管线吞下,连格式转换都省了。这意味着,从稀疏图像到模拟就绪场景,真的只需一次前向传播。
重建世界不再需要绕弯子。当每个三角形都承载着表面与模拟的双重使命,虚实之间的桥梁就缩短为一次简单的穿越。
想象一个机器人穿行在漫长的走廊中,它的眼睛——也就是摄像头——不断地捕捉着周围的环境。为了实时构建3D地图,它必须同时估算自己的位置和场景的几何形状,而且每一步都只能依赖过去的数据,不能预知未来。这是在线3D重建的核心挑战,也是严格受限的流式处理难题。然而,现有的方法就像一位记忆模糊的旅人:时间一长,位置估计会慢慢漂移,身体会不由自主地抖动,甚至完全迷失方向,导致重建崩溃。科学家们发现,这是因为流式几何数据本质上有着“时间不均匀”的特性——有的证据转瞬即逝(比如两个相邻帧之间的匹配点),有的则持续存在(比如整个场景的全局尺度)。但当前的主流架构——无论是滑动窗口还是因果注意力——都强行施加了统一的、病态的影响模式:滑动窗口像一把剪刀斩断了长程联系,而循环神经网络和因果注意力则像不断堆积的沙堆,导致缓存饱和,甚至产生异常的“注意力陷阱”,让模型只关注少数几个无关紧要的点,忽略了真正重要的几何线索。
为了解开这个死结,研究团队形式化了一个概念:几何传播的证据影响核。它定义了每一帧信息如何随着时间和空间衰减。基于此,他们提出了HorizonStream,一种“长视野”Transformer模型,专门分解这个影响核。对于长程时间因素,他们设计了“几何线性注意力”,为每个通道学习独立的衰减率,就像给不同的记忆类型设置了不同的闹钟:短期匹配快速遗忘,长期尺度缓慢衰减。这样,模型就能在有限的内存里稳定地传播多时间尺度的几何证据。对于短程空间因素,他们发明了“几何局部注意力”,配合时空旋转位置编码(Spatiotemporal RoPE),可靠地进行3D匹配,同时有效压制了注意力陷阱的干扰。最后,他们引入了“度量读取令牌”,直接从模型内持续的几何状态中提取稳定的尺度信息和刚体姿态。
实验的结果令人印象深刻:HorizonStream仅仅用48帧的片段进行训练,就能稳定地泛化到超过10000帧的序列上,而且内存占用恒定,计算时间线性增长。在多个标准基准测试中,它都达到了流式3D重建的最佳性能。这意味着,未来的机器人、自动驾驶汽车,甚至增强现实眼镜,也许都能拥有更持久、更稳定的3D感知能力。记忆不是无限的,但聪明的遗忘和精心的聚焦,能让一小段历史支撑起万里征途。
想象一下,一个训练有素的舞者突然被换上了陌生的骨架和肌肉——他必须重新学习如何站立、转身、跳跃。这正是人形机器人领域面临的挑战:预设的全身跟踪模型像一位技艺精湛的舞者,但每换一个机器人平台,就相当于换了一个身体。如果每次都要从零开始,成本高昂得令人却步。
科学家们提出了一个大胆的问题:能否让这位“舞者”带着经验迅速适应新身体?答案是Any2Any——一个巧妙的方法,试图用最小的代价实现机器人技能的跨形态迁移。
整个方案分为两步:首先是运动学对齐,就像为舞者测量新骨架的关节长度和活动范围,把源机器人与目标机器人的输入输出空间对齐。这一步确保源机器人学会的“舞蹈动作”在数学上能被新身体理解。接下来是动力学适应,用轻量级的参数高效微调技术,只修改那些对动力学敏感的模块,保留大部分行为习惯,同时让机器人适应新身体的重量、摩擦力和惯性。
研究团队在多个机器人平台上展开实验,包括Unitree G1、LimX Oli和LimX Luna。令人惊讶的是,仅用全训练所需1%的计算资源和数据,Any2Any就能成功将从Unitree G1上预训练的Sonic模型迁移到另外两款机器人上,并且迁移后的跟踪性能与从头训练的模型不相上下,有时甚至更优。
这意味着,未来的机器人可能不再需要每个型号单独标定、单独训练。一个通用的“运动智能”可以在不同形态的机器人间流转,就像同一个灵魂住进了不同的躯壳。但这里有一个微妙的平衡:迁移的“通用性”是否会导致机器人失去对自身独特动态特性的细腻感知?当1%的成本就能获得90%以上的性能,那剩下的10%可能正是机器人个性的体现。
任何优秀的舞蹈,既需要传承的技艺,也需要对自身身体的精准感悟。When a robot learns to walk, it must first learn to feel its own shape.
强化学习让视频相机控制更精准原文
想象一下,你有一段真实拍摄的视频,想让它按照特定的相机轨迹重新渲染——比如从左上角缓缓推进到右下角。现有技术大多依赖于合成数据集,在真实世界里常常“水土不服”,生成的运动轨迹要么歪歪扭扭,要么完全偏离物理尺度。这正是Geo-Align要解决的难题。
这个名为Geo-Align的框架,首次将强化学习引入相机控制视频重渲染领域。它没有走传统的老路——用大量成对的真实多视角视频去训练模型,因为这类数据几乎不存在。Geo-Align另辟蹊径:基于一个预训练模型,通过一个“尺度感知的感知奖励机制”来调优。简单说,它让模型自己“生成-评估-改进”,而不是被动地模仿。
关键创新点在于,Geo-Align引入了一个度量3D估计器。这个估计器能从生成的视频中精准提取相机轨迹,然后对照目标轨迹,对旋转和平移的偏差进行惩罚。就像一个严格的教练,实时纠正每一个走位错误。
更巧妙的是数据管道策略:它用真实世界的条件视频搭配从合成数据中提取的目标相机轨迹,彻底摆脱了对“同一场景下多视角真实视频”的依赖。这就像让一个画家在真实风景前临摹,但手上的参考照片却是合成场景的视角——反而打破了数据稀缺的束缚。
实验结果显示,无论是在相机控制的准确性还是视觉保真度上,Geo-Align都稳定地超越了现有的监督学习基线。这意味着,原本只能在实验室合成场景中玩得转的相机控制技术,现在可以自信地走向真实世界。
技术从来不是冷冰冰的参数堆砌。当一段视频能够自如地变换视角、精确地贴合预设的镜头运动,我们看到的不仅是算法的进步,更是创作可能性的扩展。未来的故事,或许就从这样一个小小的、却至关重要的“对齐”开始。
想象一下,你手中有一把万能钥匙,它不仅能解锁语音识别的大门,还能打开语音合成和实时对话的宝库——这就是StepAudio 2.5带来的全新可能。在语音技术领域,长期以来存在一个尴尬的僵局:那些试图包揽一切的“全能模型”,往往在具体任务上输给专注一域的“专家”。自动语音识别(ASR)、文本到语音合成(TTS)、实时口语交互,这三个领域各有各的脾气,过去人们总是为每个任务专门设计一套架构,就像给不同乐器分别造琴房。
但StepAudio 2.5的团队选择了一条不同寻常的路。他们没有把这三个任务看作截然不同的怪物,而是提出了一个大胆的假设:一旦文本和音频共享了同一个多模态表征空间,所谓的“专业化”就变成了操作层面的差异——数据怎么构建、优化目标怎么定、解码时有什么约束。换句话说,同一副骨架,穿上不同的戏服,就能演好每一出戏。
这个思路的关键在于后训练阶段。传统做法是监督学习,给模型一堆标准答案让它模仿。但StepAudio 2.5转向了任务定制的强化学习来自人类反馈(RLHF)。RLHF不再是锦上添花的调味料,而是定义复杂优化目标的主要手段。想象一个老师不再只给标准答案,而是根据不同学生的特点设计个性化训练计划:对ASR,强调多token解码的准确性,让转录效率突飞猛进;对TTS,通过基于偏好的RLHF和上下文丰富的监督,实现可控且富有表现力的合成,声音不再是机械的念稿,而是带着情绪的讲述;对实时对话,则引入生成式奖励建模,在RLHF框架下赋予模型低延迟和人格一致性——它懂得对话的节奏,能记住自己的角色。
结果呢?在标准基准测试中,StepAudio 2.5在ASR、TTS和实时对话三个领域都达到了最先进的水平。曾经需要多个专门系统才能覆盖的战线,如今被一个统一模型成功内化。这就像一位语言特工,既能一字不差地速记会议内容,又能用恰到好处的情感朗读小说,还能随时和你聊得投机。
这不仅仅是一次技术上的跃迁,更是一种思维方式的解放:或许未来的语音系统不再需要分门别类地建造塔楼,而是扎根于同一片土地,向不同方向生长出各具特色的枝叶。但舞台已经搭好,谁能在统一的语言中唱出最动人的旋律,谁就能定义下一个时代的语音交互。
在人工智能的世界里,大语言模型的能力提升似乎遵循着一条铁律:模型越大、数据越多,性能就越强。然而,近年来研究者们却遇到了一个令人困惑的“幽灵”——灾难性过度训练与量化部署中的性能崩塌。明明算力投入在增加,模型的回答质量却突然恶化,就像一条原本笔直向上的曲线,毫无征兆地急转直下。传统缩放定律对此只能沉默不语。
这究竟是模型本身的缺陷,还是我们理解学习本质的方式出了偏差?一群研究者把目光投向了一个世纪前的智慧——克劳德·香农的信息论。他们提出了一种全新的视角:将大语言模型的训练过程,视为信息在嘈杂信道中的传输。模型参数是信道的带宽,训练数据是发射信号的能量,而神经常数中的随机性、数据中的杂质,则是无可避免的噪声。当信号功率与噪声的比值——信噪比——低于某个临界值时,无论你如何增加带宽或发射功率,信道容量都会达到一个天花板。更糟糕的是,强行增加带宽只会放大噪声,让信号彻底淹没在杂音中。
这就是他们提出的“香农缩放定律”:一个统一的理论框架,首次解释了为什么大语言模型会出现U形的性能退化曲线。他们从香农-哈特利定理出发,严格推导出模型中存在一个基本的香农容量——当模型规模或数据量增长未能同时保持足够的信噪比时,性能改善会从单调上升转为下降,形成一个“损失盆地”。
为了验证这一理论,研究者在Pythia和OLMo2系列模型上展开了一系列严苛的实验,涉及高斯噪声注入、量化压缩,以及数学、问答和代码任务的监督微调。结果令人振奋:香农缩放定律在所有场景中均显著优于经典幂律缩放以及近年提出的扰动感知缩放定律。它的拟合优度R²分数远超基线,并能准确捕捉到传统方法遗漏的损失盆地。
更惊人的是其外推能力:仅用6.9B参数以下、180B token以内的Pythia模型数据训练后,它竟成功预测了从未见过的12B参数模型在高达307B token下的表现,合并R²达到0.847,而所有单调基线的预测已经彻底崩溃。
这或许意味着,大语言模型的增长之路并非无限延伸的坦途,而是一条有着边界的天际线。当我们不断堆砌算力和数据时,也许更应该安静下来,倾听信息论的声音——那些隐藏在噪声中的极限,才是决定模型真正高度的天花板。毕竟,地球上的无线通信从未因为单纯扩大天线就能突破容量,大模型的时代,也同样逃不过大自然的数学约束。
想象一下,你手上有一个已经训练好的强大模型,它像一位经验丰富的专家,但你对它的表现还不完全满意。过去,想要让它更聪明,通常需要重新训练或微调,过程昂贵又耗时。现在,一群研究员找到了一个巧妙的捷径:在推理时给模型“加个回环”——不改变模型本身,也不进行额外训练,只是用轻量级的包装器,让模型内部连续的一批中间层循环运作多次。
这个想法听起来简单,但直接重复应用同一批块(block)往往会适得其反,让性能下降。关键在于如何应用这个循环。观察预归一化(pre-norm)Transformer块的结构,研究员发现它类似于常微分方程(ODE)中的前向欧拉步——一步步接近解。于是他们灵机一动:与其将循环视为粗暴的重复,不如把它看作是同一个近似过程的细化:将原本的一步大更新拆成多个更小的、有阻尼的子步。这样,每一步都在更谨慎地修正方向,避免过度推进。
这项被称作“无训练循环变压器”的方法,在七个不同的模型家族上进行了验证,包括密集模型、稀疏MoE模型(混合专家模型)和采用多头潜在注意力(MLA)的MoE模型。结果令人振奋:在Qwen3-4B-Instruct上,MMLU-Pro(一个常识推理基准)得分提高了2.64个百分点;在Qwen3-30B-A3B-Instruct上,CommonsenseQA得分提升了1.14个百分点;在Moonlight-16B-A3B-Instruct上,OpenBookQA得分提升了1.20个百分点。这些提升都是在不增加参数、不修改架构、不重新训练的情况下获得的。
更值得关注的是,研究员从ODE的视角理解了为何这种循环策略有效——它让模型在推理时拥有了“多次斟酌”的能力,而不是一次性仓促输出。同时,他们强调了循环应用策略的重要性:盲目的重复只会破坏预训练好的特征,而精细控制子步的大小和阻尼则能稳定地改进性能。
也许,最聪明的改进有时不是重建,而是重新思考如何运用已有的力量。当模型在推理中学会了“反复推敲”,那些意料之外的进步,可能正藏在更温和的步子里。
想象你有一个极其聪明的AI助手,它擅长编写代码或回答问题,但它的“技能”——那个指导行为的长文本——却是一次性生成的,无法像人类一样通过反复练习来改进。过去,研究者们尝试过手工调整、一次性提示、或者让AI自我修订,但所有这些方法都缺乏深度学习那样的可重复性和可靠性:它们要么无法保证每次迭代都变得更好,要么就像随机游走般不受控制。现在,一项名为SkillOpt的研究,首次提出了一种系统性的、可控的文本空间优化器,让智能体的技能可以像神经网络中的权重一样被严格优化——只是这份“权重”不再是数字,而是一份可读的文档。
SkillOpt的做法很直观但效果惊人:它部署一个独立的优化器模型,该模型接收智能体在任务中的“回合记录”(scored rollouts),然后对单个技能文档进行有界的增、删、改编辑。关键在于,每次编辑只有严格提高了在独立验证集上的得分,才会被接受。这就像给AI请了一位严苛的教练,每次调整后必须通过测试才能保留。为了训练稳定,SkillOpt引入了几项巧妙机制:一个文本学习率预算,防止改动幅度过大;一个拒绝编辑缓冲,避免重复无意义的尝试;以及一个逐轮的慢速/元更新策略,让技能逐渐收敛。最吸引人的是,所有这些优化都在部署前完成,运行时无需额外调用模型。
在严格的评估中,SkillOpt展现了统治级表现:覆盖6个基准、7个目标模型、3种执行环境(直接聊天、Codex智能体循环、Claude Code),它在全部52个(模型,基准,环境)组合上均达到最佳或并列最佳,击败了所有对比方法——包括人类编写的技能、一次性LLM技能、以及Trace2Skill、TextGrad、GEPA、EvoSkill等前沿技术。具体数字更有说服力:在GPT-5.5上,SkillOpt将无技能基线准确率提升了23.5个百分点(直接聊天)、24.8个百分点(Codex循环内)、19.1个百分点(Claude Code循环内)。这些提升不是微调,而是通过修改一段文本实现的。
更有趣的是转移实验:优化后的技能工件在跨模型规模迁移、从Codex环境迁移到Claude Code环境、甚至迁移到相邻的数学基准时,依然保留了大部分价值,无需重新优化。这意味着优化出的技能不是“死记硬背”,而是触及了更通用的行为模式。
这些结果不仅展示了文本空间优化的可行性,更揭示了一个值得深思的事实:当我们将技能本身也纳入可优化的“状态”时,智能体的学习边界正在被重新定义。下一次,当你的AI助手凭借一套不断精炼的技能文档做出卓越表现时,或许你会意识到,真正的智能进化,恰恰隐藏在这些看似平凡的文本修改之中。
AI安全卫士发现上万漏洞,银行拦截150万美元欺诈
在网络安全的世界里,一场静默的革命正在发生。Anthropic公司最近公布了Project Glasswing的首批成果,这个项目就像给互联网装上了一双“火眼金睛”——他们的Claude Mythos Preview模型与约50家合作伙伴联手,仅用一个月时间就发现了超过1万个高危或严重级别的安全漏洞。
故事要从Cloudflare说起。这家全球知名的网络安全公司用Mythos模型扫描后,竟然发现了2000个漏洞,而且误报率比人类测试员还要低。这意味着AI不仅看得多,还看得准。紧接着,Mozilla也加入了这场“找茬”游戏,他们在Firefox 150版本中发现了271个漏洞,并迅速修复了它们。
但最令人震惊的故事发生在银行业。一家与Anthropic合作的银行,利用Mythos模型实时监控交易系统,成功拦截了一笔150万美元的欺诈转账。这笔钱差点就通过伪造的转账指令流入了骗子的口袋,是AI在关键时刻拉响了警报。
Anthropic还做了一项大规模实验:扫描了1000多个开源项目。结果Mythos模型标记出6202个高危或严重漏洞。经过独立专家的人工复核,其中62%的标记(约3900个)被确认为真实漏洞。这个数字说明,AI不仅速度快,准确率也相当可观。
然而,这项强大的技术目前仍被“关在笼子里”。Anthropic坦言,没有任何一家公司——包括他们自己——拥有足够强大的安全防护措施来防止Mythos被滥用。这就像造出了一把万能钥匙,却不敢轻易交给任何人。
但时间不等人。OpenAI正在加速开发自己的网络安全模型,中国的科技公司也在奋起直追。当同样强大甚至更先进的AI安全工具出现时,真正的考验将不再是“谁能造出来”,而是“谁能最快地修补漏洞”。
在这个数字世界里,每一秒都可能有一扇门被黑客打开。而AI既是守护者,也可能是破门者。当技术本身成为双刃剑,人类的智慧与谨慎,才是最终的安全锁。
AlphaProof Nexus:56年未解难题,AI一天攻克
在数学的殿堂里,有些谜题如同沉睡的巨龙,一睡就是半个多世纪。然而,就在OpenAI刚刚宣布其AI破解了一个80年未解的Erdős猜想后仅仅一天,Google DeepMind的AlphaProof Nexus系统就交出了一份令人瞠目的答卷——它一口气解决了九个开放的Erdős问题,其中两个已经困扰了数学家整整56年。
这个系统将大语言模型与名为Lean的证明助手巧妙结合,像一位不知疲倦的数学侦探,在组合数学和图论的世界里寻找真相。每个问题的解决成本不过几百美元,而AI不仅攻克了这九个难题,还额外证明了来自在线整数序列百科全书的44个开放猜想。这就像是在数学的荒野中,AI不仅找到了预定的宝藏,还顺手挖掘出了更多被遗忘的珍宝。
有趣的是,一个更简单的版本也能完成同样的任务,只是成本更高。而那些需要全新数学构造的问题,依然像高不可攀的山峰,暂时超出了AI的攀登能力。就在上周,OpenAI的AI刚刚推翻了一个存在了80年的Erdős猜想,而几个月前,它曾声称解决了10个新问题,后来又收回了这一说法。
这不仅仅是技术的胜利,更是一个时代的信号。当AI能够解决困扰人类数十年的数学难题,当形式化验证让每个证明都无可辩驳,数学研究的节奏正在被重新定义。AlphaProof Nexus的工作方式就像一场精密的交响乐:生成证明,在Lean中验证,失败就重来,直到找到正确的路径。这种机器速度的探索,正在为研究者打开一扇通往新发现的大门。
数学的疆域从未如此广阔,也从未如此触手可及。当AI开始以机器速度做出原创发现,我们或许正在见证人类智慧与机器智能最激动人心的交汇。
想象一下,仅凭几张不同角度的照片,就能让一个室内空间在虚拟世界中完美复刻——连墙壁的纹理、茶几的反射都纤毫毕现。过去,这项技术常受限于单张图片信息不足或重建结果空洞模糊。如今,一项新研究打破了僵局:他们将强大的生成式3D模型与多视图重建技术深度融合,让AI像拼图高手一样,从碎片化的图像中“脑补”出完整、高保真的三维世界。
这项名为“条件式3D生成”的方法,巧妙地把大场景拆解成一个个空间重叠的局部块,每个块都像独立的“积木”,用生成模型独立完成填充后拼接成整体,从而解决了传统方法难以处理大尺度空间的难题。核心在于,他们借用了一个名为Trellis.2的顶尖生成模型——它原本专攻单个物体的精细建模——通过一种“投影条件”机制,将多张照片里的像素特征提升为与3D模型坐标对齐的连贯表示。这意味着,无论拍摄角度如何变化,AI都能自动将它们转换为全局一致的立体信息,生成出材质可编辑、多视角无矛盾的高质量PBR网格模型。
在室内场景测试中,该方法在几何和纹理的保真度上全面超越了当前最先进的同类技术,综合评分提升了16%。这不仅仅是数字的胜利,更意味着虚拟现实、游戏制作和建筑可视化有望迎来成本更低、效果更逼真的数据生成工具。
当生成模型从“画一幅画”进化到“造一个世界”,我们或许正在见证计算机视觉从观察走向创造的转折点。真正的突破,往往发生在看似不相关的技术交会处。
想象一个正在自我提升的学生——他不断温习自己写过的作业,试图从中提炼解题技巧。但问题是,作业本上不但有正确答案,还有潦草的字迹、无心的涂鸦,甚至抄错公式的错误。如果他把所有内容都照单全收,进步将微乎其微;而如果只挑自己判定的完美答案来学,又可能错过更多。这正是大语言模型自我蒸馏面临的困境。
自我蒸馏通过让模型在自己生成的输出上训练来提升能力,原理简单诱人。然而现有方法往往要求外部信号——比如正确答案的过滤、执行反馈或者奖励搜索——来筛选生成内容。对于性能最强的前沿模型,这些外部信号要么过于昂贵,要么根本无法获得。另一种极端策略是“生吞”所有原始输出,但这既缺乏跨领域通用性,又容易将模型对任务的核心能力与风格模式、格式痕迹和模型特有错误混为一谈,让学习信号变得模糊。
为了解决这一困境,研究人员提出了Self-Policy Distillation,简称SPD。它的核心思想是:模型自己知道哪些token真正定义了任务的正确性。SPD首先根据模型在正确性定义token上的梯度,提取出一个低秩的能力子空间——可以想象成从模型的大脑信号里剥离出“数学推理”“代码逻辑”这样的核心频道。然后在模型自我生成输出时,SPD将每一层的关键值(KV)激活投影到这个子空间中,滤掉与核心能力无关的杂音。最后,模型就在这些经过“能力筛选”的原始输出上进行标准的下一个token预测训练。
实验覆盖了代码生成、数学推理、多选题三个典型场景。结果令人印象深刻:与当前最优的不依赖外部信号的自蒸馏方法相比,SPD在各类任务上平均提升了13%;与直接使用预训练基线的模型相比,最高提升了16%。更难得的是,SPD展现了极强的泛化能力——在跨领域设置下,性能提升达到15%,这意味着模型不但能学好自己生成的例题,还能把学到的能力迁移到从未见过的题型上。
这让人不禁思考:当语言模型能够自主识别并强化自身的能力信号,而不依赖任何外部评判,它们会走向何方?也许自我蒸馏的下一步,不再是筛选数据,而是教会模型如何更好地看见自己。
在高分辨率图像生成领域,现有系统往往在紧凑的潜空间中运作,再通过一个解码器将潜变量映射回像素——这个解码器本质上是重建导向的,它只擅长还原编码器压扁的信息,却无力为画面增添更多细节。更糟的是,当图像达到百万像素级别时,解码成本急剧攀升,成为整个流程的瓶颈。
一个名为PiD的新方法打破了这种僵局。它重新定义了潜解码的本质:不再把它当作一个简单的逆映射,而是将其转变为一种条件像素扩散过程。这意味着解码器可以同时完成解码和上采样两个任务,直接在像素空间中一步步去除噪声,生成高分辨率图像。
具体来说,PiD能实现4倍甚至8倍的超分辨率放大,且延迟极低。为了实现这一点,研究者设计了一个轻量级的“sigma感知适配器”,它能将带有噪声的潜变量注入像素扩散主干网络。这带来了一个额外的好处:潜扩散过程不必等到完全去噪就能提前终止,显著节省了计算时间。
为了进一步提升效率,PiD使用了DMD2蒸馏技术,将推理步数压缩到仅需4步。这一方法兼容两种类型的潜变量:传统的VAE潜变量,以及近年RAE模型中常用的语义潜变量(如SigLIP、DINOv2)。
实测数据令人印象深刻:在一张消费级RTX 5090显卡上,PiD仅需不到1秒,就能将512x512图像的潜变量解码为2048x2048像素的画面,峰值内存只有13GB。如果换上更强大的GB200 GPU,这一过程更是快至210毫秒——比传统的级联扩散超分辨率管线快了大约6倍,同时视觉保真度更优。
这不仅是效率的胜利,更是范式的转换。当解码不再是被动还原,而变为主动创造,潜空间与像素世界之间的隔阂便悄然消融。未来的图像生成或许不再受制于解码器的天花板,每一颗新像素都可能成为想象力的落脚点。
想象一下,你正站在一个陌生的房间里,有人对你说:“走到厨房的桌子旁,把苹果拿过来。”你不仅需要听懂这句话,还要知道自己在哪里、已经走了多远、下一步该做什么。这种看似简单的能力,对机器人来说却是一个巨大的挑战。传统的视觉-语言导航(VLN)方法要么依赖笨重的3D传感器来构建场景地图,要么让模型像黑箱一样直接输出行动,却从不解释自己为什么这么做。这两种方式都无法让机器人真正理解“我”和“指令”、“环境”之间的关系。
现在,一项名为AwareVLN的新框架正试图打破这个僵局。它的核心思想很简单:让导航模型拥有“自我意识”。这里的自我意识并非哲学意义上的反思,而是一种端到端、数据驱动的推理机制——机器人能够实时感知自己的位置状态、任务进度,并基于这些信息做出更明智的决策。
AwareVLN有两个关键创新。第一个是结构推理模块,它像一个内置的“思考引擎”,将空间信息与任务目标结合起来,让模型在每一步都问自己:“我在哪?我要去哪?我已经完成了多少?”这种空间和任务层面的自我意识,让导航不再是盲目的尝试,而是有方向、有计划的行动。第二个创新是一个自动数据引擎,它能够根据任务进度自动划分训练数据的不同阶段,让模型在复杂程度不同的场景中渐进式学习,就像学生从简单题目开始,逐步挑战难题。
在Habitat模拟器上进行的多项测试中,AwareVLN显著超越了此前最先进的视觉-语言导航方法。它不需要额外的3D传感器,完全依赖视觉和语言输入,却能在各种未知环境中表现出更强的适应能力和执行效率。更重要的是,它的决策过程是可解释的——你可以看到模型每一步的“思考痕迹”,这为未来的调试和安全应用打开了大门。
当机器开始“反思”自己的行动,导航不再只是一段从A到B的旅程,而是一场有意识的理解与行动。也许未来的某一天,你只需说一句话,机器人就能带着对任务的清晰认知,穿越复杂的世界,准确无误地完成使命。
想象一下,你让机器人帮你从身后的柜子里拿个杯子,但它只盯着前方的桌面发呆——这正是大多数机器人面临的困境。它们的大脑(视觉-语言-动作模型)默认所有东西都必须在眼前,一旦目标消失,就会变得无助又急躁。但SOMA框架的出现,像给机器人装上了“隐形的记忆仓库”。它巧妙利用可移动的头戴摄像头,像人转头环顾一样,把不同角度的观察编织成一张持久的空间记忆网。即使目标藏在视野之外,机器人也能从记忆里调用线索,从容完成操作。
SOMA的核心由三部分构成:先是“空间记忆建造”,通过扫描把不同角度的观测拼成统一的空间语义图;接着是“动态记忆打磨”,随着时间推移不断更新,确保全局一致;最后是“上下文记忆提取”,在操作时激活与指令相关的空间线索。研究团队在五项极具挑战的真实世界任务中验证了这个设计——包括多步骤操作和双臂协作,目标物体一开始完全不可见。结果令人振奋:SOMA不仅显著提升了成功率,还从根本上改变了机器人的行为模式——它们能更快锁定目标,减少无意义的环顾搜索,甚至在部分可观测条件下实现“一次抓取”的精准操作。在RoboCasa GR1和SimplerEnv的标准完全可视场景中,SOMA的记忆设计同样证明了自己并非仅针对盲区,而是通用提升。
当机器人不再只盯着眼前方寸之地,而是学会用记忆连接消失的视野,或许这才是它真正走进人类杂乱生活的一小步——因为真实世界里,重要的东西往往不在目光所及之处。
AI预测科学进步:能力有限原文
人工智能正日益渗透到科学发现的过程中,但它能否真正预见科学进展的方向?为了探索这个问题,研究人员引入了一套基于时间维度的评估框架,在严格的知识限制下测试AI的预测能力。他们创建了一个名为CUSP(截断条件约束下的未知科学进展)的多学科基准,通过可行性评估、机制推理、生成性方案设计和时间预测四个维度,系统性地检验AI系统对科学事件的预测表现。
这项研究覆盖了4760个科学事件,结果揭示了当前前沿模型存在系统性的、依赖领域的局限。模型能够从竞争性候选方案中识别出看似合理的研究方向,但无法可靠地预测科学突破是否真的会发生,并且在时间预测上存在系统性偏差。例如,AI对人工智能自身领域进展时间的预测相对准确,但在生物、化学和物理等领域则显得力不从心。有趣的是,模型的表现与事件发生在训练数据截断前后无关,这表明这些局限不能简单归因于训练数据中的知识暴露。
当研究人员为模型提供更多截断前的知识时,其预测能力有所提升,但依然无法达到拥有完整信息时的水平——尤其对于高引用率的科学进展,这种差距更为明显。此外,模型表现出系统性的过度自信和强烈的响应偏差,这说明它们对自身预测不确定性的评估并不可靠。
总而言之,当前的人工智能系统作为预测科学进步的工具仍有明显短板。拥有先验知识并不意味着能够做出可靠的预测,而事后信息对性能的帮助反而大于前瞻性的预测本身。这提醒我们:真正的科学洞察力,或许仍需要人类在不确定中保持谦逊与审慎。
在AI智能体的世界里,大多数人都在忙着给模型“喂数据”、“调参数”,仿佛模型越强,智能体就越聪明。可有一个被忽视的角落,藏着决定成败的关键。试想,一个指令清晰的机器代理人,明明拥有顶级大脑,却在“开门”这样简单的任务上反复卡壳——不是模型不懂门的概念,而是它不知道门把手往哪边转才算正确动作。这种看似无厘头的失败,恰恰揭示了LLM智能体真正的短板:模型与环境之间的接口,远没有我们想象的那么顺畅。
一群研究者决定换个思路。他们发现,在许多规则明确的确定性任务中——比如订票系统、代码执行、数据库操作——智能体的失败往往不是因为模型智商不够,而是因为模型不知道如何把“理解”转化为“正确操作”。比如同一个“打开文件”指令,有的环境需要双击,有的需要右键菜单,模型天生无法预知这些细节。
于是,“Life-Harness”诞生了。它像一个智能中介,站在模型和环境之间,但不修改任何一方。它的成长方式很特别:从训练过程的失败记录中学习。每一次模型在某一环节摔倒,Life-Harness就把这个“坑”记下来,并设计出可复用的干预规则——包括环境契约(比如某些参数必须传递整数)、程序技能(如特定的API调用顺序)、行动实现(把抽象指令拆解为具体步骤)以及轨迹控制(防止模型陷入死循环)。这些规则一旦从训练中形成,就固定下来,在后续测试中静默生效。
效果令人惊讶。在涵盖τ-bench、τ²-bench和AgentBench的七个确定性环境中,研究者测试了18个不同规模的模型——从轻量级到参数量十亿级的都有。总计126种模型与环境的组合,Life-Harness在116种中带来了明显提升,平均相对进步达到88.5%。更值得注意的是,它仅从Qwen3-4B-Instruct这个较小模型的一次训练中提取出接口规则,就成功迁移到其他17个完全不同的模型上。这说明,这些规则捕捉的是环境自身的结构特征,而非某个模型的特殊偏好。
这项发现暗示,智能体能力的瓶颈可能比我们想象的更靠近表面。当一个模型在某个任务上反复出错,也许问题的根源不在它的“大脑”,而在它和现实世界之间那道看不见的“缝隙”。修补接口,有时比训练更聪明的大脑更立竿见影。当我们习惯性地把目光投向模型内部时,或许该回头看看模型与世界的连接处——那里藏着另一条通往智能的捷径。毕竟,理解世界是一回事,知道如何与其正确互动是另一回事。有时候,一道桥比一座山更值得打磨。
想象一下,一个AI助手和你多次聊天后,能记住你之前提过的喜好,并在后续对话中持续调用这些记忆——这正是一种记忆增强的语言模型代理。然而,要训练这样的代理在多个会话中自主管理记忆并不容易。传统方法中,强化学习通过比较不同轨迹的回报来优化策略,但当代理每次主动写入、更新或删除记忆时,不同会话中的中间记忆状态就变得千差万别。这好比让一群赛跑选手从不同的起点出发,然后比较他们到达终点的成绩——完全不公平。这就是组相对优化方法(如GRPO)在处理长期记忆操作时所面临的核心困境:轨迹级奖励会因记忆状态的差异而传递噪声或偏置的信用信号。
为了突破这一瓶颈,研究者提出了Memory-R2训练框架,其核心算法LoGo-GRPO巧妙地将局部与全局组相对优化结合。全局部分保留了从长程轨迹奖励中端到端学习的能力,让代理能理解记忆操作对最终结果的影响;而局部重播机制(rerollouts)则确保在相同的中间记忆状态下比较不同记忆操作的结果——比如让两个代理从同一时刻的记忆快照出发,一个尝试写入新信息,另一个不写,然后观察它们后续表现的差异。这样一来,组间比较更加公平,对记忆构建的监督信号也更精准。
更引人注目的是,Memory-R2还采用共享参数协同学习的设计:同一个大语言模型骨干,通过不同的角色提示分别实例化事实提取器和记忆管理器。这意味着读写记忆的大脑与执行任务的思考中枢是同一个,只是在不同场景下切换角色,避免了冗余训练。为了稳定长程强化学习,研究者还引入渐进式课程,将训练会话数从8逐步增至16再到32,让代理像孩提学习那样,从短记忆起步,逐步适应更长的记忆跨度。
整套框架为长期多会话环境下的记忆增强语言模型代理提供了高效训练范式。它揭示了这样一个道理:当AI开始像人类一样,在不同时间节点拥有各自专属的记忆历史时,如何公平地衡量每一步决策的价值,便成了通向智能协作的关键一步。或许真正的记忆智能,不在于记住多少,而在于何时该写、该改、该忘,并在漫长的互动中始终保持对目标的清醒。
在自然语言处理的精密世界里,一个看似不起眼的步骤——分词(tokenisation),却悄然影响着整个模型的表现。传统的分词算法,如BPE和Unigram,就像贪婪的赌徒,每一步都只考虑眼前最有利的选择,却从未想过全局的牌局会如何演变。它们做出局部最优决策,却可能让最终构建的词汇表整体效率大打折扣。
但一项新的研究彻底改变了这一局面。研究者们将分词器的构建问题重新定义为一个线性规划问题,并动用凸优化的强大工具进行求解——这个新算法被命名为ConvexTok。想象一下,这就像从一个只顾眼前利益的短视玩家,升级成了一位深谋远虑的全局棋手。它不再纠结于每一次切分的局部得失,而是从一开始就统筹整个词汇表的最优配置。
实验结果令人振奋。在评估分词质量的多个内在指标上,ConvexTok实现了持续一致的提升。更关键的是,当用它训练语言模型时,模型的比特每字节(bits-per-byte, BpB)——衡量语言模型压缩效率的核心指标——也得到了显著改善。这意味着模型能够用更少的资源更准确地表达信息。虽然在下游任务的表现上,ConvexTok带来的提升并不像内在指标那样稳定,但总体上仍呈积极趋势。
最令人惊叹的或许是ConvexTok带来的“可认证”特性:它能为用户提供一个下界,从而明确证明当前分词器距离理论上最优的目标还有多远。研究者在常见词汇表规模下实证发现,ConvexTok构造的词汇表实际表现与全局最优值的差距竟然不超过1%。这使得过去只能靠经验摸索的分词设计,第一次有了精确的刻度尺。
从贪婪到全局优化,从经验到可证明,ConvexTok不仅是一个新工具,更代表了分词研究范式的转变。它提醒我们:在追求效率的道路上,短视的贪婪或许能赢得几步,但只有放眼全局的规划,才能接近真正的终点。语言模型的每一步进化,都始于对细节的重新思考。
在一片充满未知的数学荒野中,有353个被称为“Erdős问题”的开放谜题,它们像散落的宝石,吸引着无数数学家穷尽一生去探索。如今,一个由大型语言模型(LLM)驱动的智能体,正在尝试用新的方式拾起这些宝石。
过去,LLM虽然擅长数学推理,但常常不可靠——它们会给出看似合理却错误的答案。为了克服这一缺陷,研究人员想到一个妙招:让LLM生成形式化证明,用像Lean这样的语言来确保每个步骤都严格逻辑正确。这是首次大规模评估这种方法解决开放数学问题的能力。
结果令人振奋:最强大的智能体在短短几个月内,自主解决了9个Erdős问题,每个问题的成本仅需几百美元。同时,它成功证明了44个OEIS猜想(总共492个),这相当于从数万条数学序列中找到了44条未被发现的关系。更令人惊讶的是,这项技术已经在组合数学、优化、图论、代数几何和量子光学等研究领域实际部署,帮助科学家们跨越那些人类难以手算的鸿沟。
一个更基础的智能体使用了简单策略——交替进行LLM生成和Lean验证。它成功复制了部分Erdős问题的证明,但在最困难的问题上,成本急剧上升。这揭示了一个关键洞见:不是所有AI助手都生而平等,设计更精巧的智能体(比如懂得如何规划推理步骤、如何拆分复杂证明)能够更高效地攻克难题。
这些发现不仅仅是一次技术演示。它们表明,AI辅助的形式化证明搜索正在从实验室走向真实数学研究的前沿。当计算机能够理解“为什么”一个定理成立,而不仅仅是“是什么”时,数学的边界便开始松动。也许不久的将来,我们不再需要等待天才灵光一现,而是可以通过人机协作,系统地打开通往未知数学世界的大门。
世界正在变化。那些曾经需要数年才能解开的谜题,现在可能只需要一行代码、一个聪明的智能体,以及几百美元的云端算力。但真正的奇迹不在于解决了多少问题,而在于它把“不可想象”变成了“可以想象”。
想象一个AI画家,它不再仅仅是根据一句提示词机械地作画,而是像一位真正的艺术家,学会如何主动探索外界资源、挑选灵感素材、组合创作技巧,甚至能从每次成功与失误中自我反思、迭代进化——这就是GenEvolve带来的革命。传统的图像生成往往只是“提示词到图片”的简单映射,但当用户需求越来越多样化、要求越来越高时,单一的模型内部能力已显得力不从心。研究者们意识到,一个真正强大的图像生成代理,必须学会调用外部工具,像人类一样“取长补短”。而GenEvolve正是为这一目标设计的自进化框架,它的核心思想是“工具编排的视觉经验蒸馏”。
在GenEvolve中,每一次生成尝试都被记录为一条完整的“工具编排轨迹”:代理先收集证据(比如搜索相关图像或知识),再选择合适的参考素材,调用恰当的生成技能,最后把这些元素组合成一个提示-参考程序。这个过程不是一次性的,而是反复比较同一请求下的多条不同轨迹。通过对比最佳和最差路径之间的差异,系统就能抽象出结构化的“视觉经验”——哪些搜索策略有效,哪些知识激活更有用,如何选择参考,怎样构建提示——这些经验只提供给一个特权教师分支,再通过类似在线策略自蒸馏的方式,向学生网络提供密集的token级监督信号。这样,学生代理就能内化更好的搜索、知识激活、参考选择和提示构建策略,逐步进化。
为了验证这套理念,研究团队还构建了专门的GenEvolve-Data数据集和GenEvolve-Bench基准。实验结果表明,在公开基准和这个新基准上,GenEvolve显著超越了当前最强基线,达到了图像生成框架中的最新顶尖水平。更令人期待的是,这种自我进化的模式并非仅限于图像生成,它或许能为更多AI系统开启一条“从实践中学习、在失败中成长”的道路。真正的创造力,从来不是一蹴而就的灵光,而是不断试错、反思与优化的循环。当AI学会了这种循环,它距离真正的“创作”又近了一步。
想象一下,你是一个智能体工程师,正为系统越来越复杂的“记忆”问题头疼:对话循环先开,再挂上工具,加上规则,最后在日志层勉强安装个“观察窗”,而所有状态都蜷缩在可检索的“记忆”里——像把全屋的接线图塞进一个抽屉。现在,ActiveGraph团队递来一张图纸,上面画着完全颠倒的蓝图:整个系统的真相源不是语言模型,而是一个只增不删的事件日志。工作图呢?它只是这个日志的一个确定性投影,像阳光透过胶片在墙上映出的影子。而所有行为——无论是普通函数、类、依赖大模型的例程,还是挂载在类型化边上的逻辑——都不再互相指挥,而是默默注视图的每一次变化,然后发射新的事件。没有组件直接命令另一个,协调就通过这张共享的图静静完成。
这个设计看似简单,却像换掉引擎的齿轮组,带来三个传统检索-摘要记忆系统做不到的硬核能力:第一,任意运行都能从日志完美重放,像按时间轴回放电影;第二,任何事件点都可以廉价分叉——就像在读书时停在一页,然后从同一位置展开两个平行故事,无需重读前面已共享的篇章;第三,从顶层目标到下至每个模型调用产生的每个工件,端到端的谱系像家谱一样清晰可溯。
论文细说了这套架构:一个确定性契约保证重放如数学般无歧义,一个具体的勤勉示例展示其完整因果结构如何仅从日志就能重构——就像考古学家从一块石板复原整座神庙。最后,他们谨慎而充满意味地讨论:虽然尚未正式证明,但这种基底可能正是自我改进智能体最天然的土壤,因为当你每个动作都留在不可篡改的日志里,智能体就能像人一样不断从自己的历史中回望、分支、修正方向。它延伸了BabyAGI和先验图记忆研究的血脉,却让整个系统从“记忆搜索”转向“历史重现”。
或许真正的智能体进化,不在于让语言模型说更多话,而在于让它学会如何记录、回溯并创造性分支自己的每一步脚印。当记忆不再是模糊的检索池,而是精确可重放的事件河流,智能体才可能真正开始自我探索。
在人工智能的深度学习中,处理长序列数据一直是个棘手的问题。传统注意力机制虽然强大,却需要存储每一步的完整上下文,就像在记忆宫殿里堆满所有物品,随着序列变长,内存和计算成本急剧膨胀。线性注意力试图解决这个问题,它用一个固定大小的循环状态替代无限缓存,把序列混合时间降至线性,解码过程的内存也变为常数。但问题来了:当你想压缩记忆时,如何优雅地遗忘旧信息,同时添加新内容,而不把已有的关联搞得一团糟?
早期的Delta-rule模型提出了一种思路:在写入新值之前,先减去当前读取的内容。这有点像在笔记本上擦掉一行旧记录,再写上新的。Kimi Delta Attention(KDA)更进一步,引入了通道级的衰减系数,让每个维度自主决定遗忘速度。然而,这些模型都有一个共同的软肋:它们用一个标量门控同时控制两件不同的事——键侧擦除多少旧内容,值侧提交多少新内容。这就像用一个旋钮同时调节水龙头的水温和流速,难免顾此失彼。
现在,Gated DeltaNet-2给出了一个更优雅的方案。它继承了Gated DeltaNet和KDA的适应性遗忘与通道级衰减,但关键突破是:把擦除和写入的角色分开了。它引入了一个通道级的擦除门控b_t和一个通道级的写入门控w_t。当这两个门控都坍缩成同一个标量时,模型退化为KDA;当衰减也进一步坍缩时,它又回到Gated DeltaNet。这种设计让模型在编辑记忆时有了更大的灵活性。
为了支撑这种新机制,研究团队还推导了快速权重更新的视角,设计了一种吸收通道级衰减的块状WY算法,以及一个门控感知的反向传播过程,确保并行训练依旧高效。他们用13亿参数在1000亿token的FineWeb-Edu数据上训练模型,并与Mamba-2、Gated DeltaNet、KDA、Mamba-3等当前主流线性注意力变体进行比较。结果清晰:Gated DeltaNet-2在语言建模、常识推理和检索任务上取得了最全面的成绩。尤其在长上下文RULER针包测试中,它在多键检索场景下的提升最为显著,无论是以循环模式还是混合模式运行,都保持了强劲表现。
记忆的编辑不是简单的遗忘或记录,而是如何在压缩中保持结构的完整。当擦除与写入不再共享同一个开关,线性注意力终于学会了一心二用,在有限的空间里创造出更有序的关联。
RLVR参数轨迹低秩可预测原文
在AI研究的前沿,训练大模型进行推理一直是个烧钱的工程。直到最近,一种名为“带可验证奖励的强化学习”(RLVR)的方法成为主流,它让模型学会自我纠错,性能飙升。但没人真正搞懂:当模型从“笨拙”变“聪明”时,它内部的数亿个参数到底经历了什么?
一项来自研究者的新实验揭开了谜底。他们追踪了三个不同规模模型(1.5B、4B、8B参数)的RLVR训练过程,发现权重变化居然遵循一种极简的几何结构——绝大多数进步压缩在一条一维直线上。也就是说,模型在3000步训练中产生的所有参数调整,用一条线就能描述其80%以上的效果。更神奇的是,这条线上的“前进速度”几乎和时间成线性关系,就像匀速跑步。
这个发现催生了一个简单到令人难以置信的方法:RELEX。它不需要任何额外学习模型,只需观察前几十步训练的参数变化轨迹,就能用线性回归预测出后面几百步的权重。实验证明:只看前50步,预测到第1000步的效果,比真正训练1000步还要好。在每个模型上,RELEX仅花15%的训练成本,就达到了甚至超越完整RLVR的性能。
为何如此粗暴的预测管用?研究者深入分析后发现,RLVR训练过程并非全在“学习”,很大一部分算力消耗在随机噪声上——优化器带来的抖动、采样的随机性,都会让参数误入歧途。而RELEX通过只捕捉那根最重要的“一维主线”,恰好过滤了这些噪声。就像从嘈杂的收音机里提取出清晰的人声,去掉调频静电,声音反而更纯净。
这个发现冲击了我们对训练的认知:也许大模型真正需要的不是更复杂的优化算法,而是识别并坚持那个最核心的改进方向。那么多轮强化学习,往往只是在同一条直线上来回修正噪音。
当人们还在争论更大的模型、更长的训练是否必要,这项研究用低秩的数学事实给出了一个极简的答案:真正的进步,往往只沿着一个方向安静生长。其余的一切,不过是干扰。
想象你正在玩一款开放世界游戏,操控角色走进一片森林,然后转身离开。当你再次回到同一地点时,树木、岩石甚至光线都完美复现——但这一切并非游戏引擎预设,而是由AI实时生成的。这正是自回归视频扩散模型追求的“持久世界”:无论视角如何切换,生成的画面永远保持时空连贯。然而,实现这一目标曾面临难以逾越的障碍——全键值缓存注意力虽能完美保持一致性,却让内存和计算成本随生成时长呈线性爆炸;而滑窗推理虽能保证实时性,却将长期记忆抛之脑后。
如今,一支研究团队提出了WorldKV——一个无需训练的框架,它像一位精明的图书管理员,既不丢弃任何书本,又能在有限的书架上精准摆放最常用的卷宗。方法分为两步:首先,World Retrieval将“驱逐”出即时窗口的键值缓存块存入GPU或CPU内存,当AI再次“看向”某个场景时,通过记录相机姿态与动作序列的对应关系,迅速检索出相关的旧缓存块,将其插回原生注意力窗口,无需重新编码。其次,World Compression像一个高效压缩师,利用关键帧间的键-键相似性,剪掉每个缓存块中的冗余标记,让每个分块容量缩减一半,从而在固定预算内存储两倍以上的历史。
在Matrix-Game-2.0和LingBot-World-Fast两个基准测试中,WorldKV在内存保真度上与全键值缓存持平甚至更优,吞吐量却提升约两倍。更令人惊叹的是,它无需任何微调,便与经过专门记忆训练的基线模型旗鼓相当。这项研究不仅揭示了AI生成世界中“遗忘”与“记忆”的平衡艺术,更预示着一个未来:AI能像人类一样,在持续探索中累积对世界的理解,而非每次转身都从零开始。真正的智能,或许就藏在这些被精心留存的历史碎片里。
当语言模型走出训练集,面对未知环境时,它们往往表现得千篇一律——这并非因为它们不够聪明,而是因为当前的后训练方式在“扼杀”多样性。传统的后训练逻辑很简单:先设定一个标量奖励,比如代码通过率或用户满意度,然后让模型拼命优化这个单一分数。结果呢?模型学会了生成最稳妥、最中庸的回答,像一群复制粘贴的士兵,整齐划一却毫无想象力。
然而现实世界的任务远比标量奖励复杂。比如在代码生成中,一个程序可能有几百个测试用例,每个用例都是一重考验;又或者一个对话系统需要同时讨好多个性格迥异的用户。这时奖励信号不再是单个数字,而是一个向量——每个维度代表一种标准或偏好。但大多数模型根本不懂如何应对这种“多目标”局面,它们只会一头扎进标量奖励的陷阱,输出低熵的、缺乏弹性的响应。
这正是AlphaEvolve这类推理搜索算法面临的困境:它们需要模型生成多样化的候选方案,以便在庞大搜索空间中通过奖惩函数筛选最优解。然而标准后训练产生的模型如同一潭死水,无法为搜索提供丰富的“弹药”。艾伦人工智能研究所、清华大学和斯坦福大学的研究者们因此提出了Vector Policy Optimization(VPO),一种全新的强化学习算法,它直接训练模型去预见并适应多样化的奖励函数,并主动产出多样化的解决方案。
VPO的核心洞察朴素而强大:既然现实奖励常是向量,何必非要压缩成标量?它像是GRPO(一种流行的优势估计器)的“即插即用”替代品,但训练目标截然不同——VPO不是让模型学会一个万能答案,而是让模型生成一组答案,每个答案专门擅长向量奖励空间中的某一种权衡。你可以想象一个厨师团队,有人专攻辣味,有人擅长甜点,共同覆盖整个菜单。
实验在四个任务上展开:代码生成、数学推理、对话优化和进化搜索。结果令人印象深刻:在pass@k和best@k这类测试时搜索指标上,VPO不仅追平甚至超越了最强的标量RL基线,而且随着搜索预算增加(比如允许尝试更多解),差距越拉越大。最戏剧性的场景发生在进化搜索中,GRPO训练的模型在此任务上完全束手无策,而VPO模型却能轻松解锁问题,仿佛打开了另一扇门。
数据点刻着清晰的印记:例如在代码生成任务中,当搜索预算(k)从16增至256时,VPO的pass@k比最优基线提升了近10个百分点;在进化搜索中,VPO模型的成功率从0%跃升至超过60%。研究团队表示,随着测试时搜索技术变得更标准化、更普及,后训练的目标或许必须从“追求单一最优”转向“拥抱多样性”——这不仅关乎效率,更关乎模型能否在开放世界中立足。
多样性不是锦上添花,而是通向通用智能的必经之路。当推理搜索成为常态,千篇一律的“正确”答案只会是死胡同,而百花齐放的“可能”才是活水源头。
想象一个神经网络,它不像传统模型那样一次性给出答案,而是像人类思考难题一样,反复咀嚼自己的内部状态,逐渐逼近正确答案。这种“测试时计算扩展”的方法最近成为推理研究的热点,但它的内部机制一直是个谜。研究人员在最新研究中提出了一个名为Equilibrium Reasoners(EqR)的模型,揭示了关键原理,仿佛为这个黑箱打开了一扇窗。
关键在于“任务条件吸引子”。神经网络在学习过程中,实际上在构建一个隐式的动态系统,其稳定的固定点对应着有效解决方案。这意味着模型不是死记硬背模式,而是学会了将不同难度的问题引导到对应的解空间。EqR实现了一个优雅的框架:无需外部验证器或任务特定先验,就能在测试时扩展计算资源。它沿着两个维度扩展:深度,通过运行更多迭代步骤;广度,通过聚合多次随机初始化的轨迹。实验证明,测试时计算的收益与模型向解对齐吸引子的收敛程度紧密相关。
数字揭示了惊人的结果。对于简单问题,模型只需1到5步迭代就能收敛;而面对Sudoku-Extreme这类极端困难的任务,通过展开等效40000层的深度推理,准确率从前馈模型的2.6%飙升到99%以上。这就像从跳高到攀岩——问题越难,模型投入的“思考”时间就越长,而且这种投入是自适应的。
这个发现提供了一个全新的视角:迭代模型之所以能超越记忆的模式泛化,是因为它们学会了构建吸引子景观。计算资源可以按需分配,困难任务享受更长的推理路径。这让人联想到人类面对难题时的深思熟虑——真正的推理不是一次性计算,而是持续的自我修正与收敛,每一次迭代都是对思考的深化。
想象一下,自动驾驶汽车每天都在路上收集数据,但它们的“眼睛”和“耳朵”——多摄像头、激光雷达——成本高昂,覆盖的场景也有限。与此同时,全世界成千上万的行车记录仪正默默记录着各种道路状况:突然冲出的行人、罕见的暴风雪、陌生的异国街道。这些“野生”视频规模庞大、场景丰富,却无法被自动驾驶系统直接“理解”,因为它们记录的是单一视角的二维画面,而自动驾驶系统需要的是结构化的多模态数据——多个角度的摄像头图像和精准的激光雷达点云。
为了让这些海量资源真正派上用场,研究人员提出了一种名为Sensor2Sensor的全新生成式框架。它的核心任务:将单目行车记录仪视频“翻译”成高保真的自动驾驶多模态传感器日志(AV logs),包括多视角的相机图像和激光雷达点云数据。这听起来像是一个“翻译器”,但难点在于——没有现成的平行语料库,即同一场景下同时拥有行车记录仪视频和自动驾驶多模态数据。
解决之道是巧妙的:研究人员利用已有的真实自动驾驶日志,通过4D高斯泼溅(4D Gaussian Splatting)技术进行场景重建,然后从新视角渲染出类似行车记录仪风格的视频。这样,他们就创造出了“伪配对”的训练数据:一边是行车记录仪风格的画面,另一边是对应的多模态传感器数据。在此基础上,Sensor2Sensor采用扩散架构(diffusion architecture)进行生成式翻译,将输入的单一视频一步步转化为逼真的多模态输出。
在定量评估中,生成的数据在保真度和真实感上表现优异。更重要的是,研究人员展示了它的实际应用:将从互联网和行车记录仪中收集的极具挑战性的野外片段,成功转换成了可用于自动驾驶开发的多模态数据格式。这意味着,过去被锁在行车记录仪里的无数个紧急刹车、交通拥堵、动物横穿等“长尾”场景,现在有望成为自动驾驶系统训练和验证的宝贵资源。
Sensor2Sensor不仅是一座桥梁,更是一把钥匙——它打开了一扇通往无限外部数据源的大门。当自动驾驶的“知识之库”不再局限于车队自身,而是能吸纳全世界每一台行车记录仪的所见,那些曾经罕见甚至不存在的场景,都将成为系统成长的养分。未来的自动驾驶,或许正是建立在这样一次看似简单的“翻译”之上:让每一帧随手拍下的影像,都变成车轮前更清醒的双眼。
在训练大型语言模型时,超参数迁移是一项至关重要的技术:它允许我们从小规模实验中推断出最优超参数,并将其应用到更大规模的模型上,从而节省大量调参成本。然而,为什么某些参数化方法能实现更好的迁移效果?这个问题一直困扰着研究者。现在,一项新研究通过系统性的实验揭示了令人惊讶的答案,关键竟然在于嵌入层的学习率。
为了量化超参数迁移的质量,研究者首先建立了一个包含三个指标的框架:第一,缩放律拟合的质量,即超参数与模型规模之间关系的精确程度;第二,对推断误差的鲁棒性,即当模型规模变化时,超参数选择的微小偏差对性能的影响;第三,由参数化方法选择导致的渐近损失惩罚,即在大规模下,不同参数化方法带来的性能差距。
在此基础上,研究者深入探索了为什么最大更新参数化(μP)相比标准参数化(SP)能提供更高质量的学习率迁移。现有理论无法充分解释这一现象。通过一系列详尽的消融实验,他们发现μP相对于SP的压倒性优势,其根源竟如此简单:μP实际上是通过缩放嵌入层的学习率来匹配更大的宽度,从而最大化其学习率。在标准参数化下,嵌入层的学习率成为了一个瓶颈,导致训练不稳定。而如果将嵌入层的学习率按宽度因子放大,使其与μP保持一致,那么训练过程会变得异常平滑,超参数迁移效果也显著提升。
进一步研究发现,权重衰减对超参数迁移也有影响。它改善了缩放律的拟合质量,但在固定的每参数token数设置下,权重衰减反而损害了推断的鲁棒性。这意味着,权重衰减虽然能让小规模实验的拟合更精确,却可能让从小规模向大规模外推时的性能更加脆弱。
这项研究不仅澄清了超参数迁移中的一个关键机制,还给出了一个简单实用的建议:当你使用AdamW优化器训练大模型时,只需调整嵌入层的学习率——将其放大到与其他层相当的水平——就能显著改善训练稳定性和超参数迁移效果。这就像是解开了一个纠缠已久的谜题,答案却藏在最容易被忽视的细节里。有时候,模型训练中的瓶颈并非来自复杂的架构设计,而是一个小小的组件被赋予了不恰当的调节幅度。
想象一下,你正站在一个房间里环顾四周,你的眼睛和大脑能自然地感知到每个视角下物体的相对位置和空间关系。但当你把同样的视频交给当前最先进的多模态大模型时,它却只能将每一帧当作孤立的二维快照,完全忽略了视角之间的空间关联——这些模型其实“看不懂”三维世界。这正是《Cambrian-P》这篇研究试图打破的困境。
研究人员发现,一个被大多数视频多模态大模型忽视的简单信号——相机位姿(即每个视角的位置和朝向),恰恰是连接帧与帧之间空间坐标的关键。他们设计了一套轻量级的解决方案:在每个视频帧中嵌入一个可学习的“相机令牌”,同时增加一个专门的位姿预测头。经过精心设计的采样策略后,这个名为Cambrian-P的模型在空间推理基准测试VSI-Bench上取得了4.5%至6.5%的性能提升——这相当于在理解物体“是否在同一高度”“哪个更靠近左边”等问题上,错误率显著降低。
更令人惊讶的是,这种提升并非局限于单一任务。在额外的八个空间理解与通用视频问答基准测试中,Cambrian-P均展现出良好的泛化能力。例如,在ScanNet数据集上,它甚至在不经意间达到了流式位姿估计的最优水平,实现了“附赠功能”。为了验证这种方法的鲁棒性,研究者还尝试使用从野生视频中自动生成的伪标签位姿进行训练,结果发现:即使位姿不完全准确,模型的通用视频问答能力同样得到了增强。这表明相机位姿带来的帮助超越了纯粹的空间推理,可能促使模型更连贯地理解时间序列中的场景变化。
这些发现揭示了一个被长期忽视的事实:当视频模型学会了关注“看”的位置和角度,它们才能真正开始理解我们身处的物理世界。或许在不久的将来,让机器像人一样感知空间,正是从这样一个简单的坐标信号开始。而每一个帧背后隐藏的视角,都可能是通往更智能视频理解的钥匙。
在Transformer训练的世界里,大多数人都盯着那些轰轰烈烈的矩阵乘法(GEMM)——它们占据了绝大部分计算时间,被极力优化。但很少有人注意到,有一群“小角色”正在暗中拖慢整个系统:归一化、激活函数、残差更新、归约……这些操作虽然计算量不大,却需要反复搬运巨大的中间张量穿过显存,就像一群搬运工在仓库和流水线之间疲于奔命。当GEMM已经快到飞起时,这些内存受限的操作反而成了最刺眼的瓶颈。
故事要从一个看似简单的观察说起:在GPU上执行一个GEMM时,输出结果会先暂存在芯片上的寄存器或共享内存中,然后才被写回全局显存。如果能在写回之前,趁着数据还热乎,顺带把归一化、激活这些“杂活”也干了,岂不是能省掉一次内存读写?这个想法催生了CODA——一种全新的GPU内核抽象。它把Transformer里那些零零碎碎的内存操作,重新打包成“GEMM加尾声”的程序。就像一个流水线上,主工序(GEMM)做完后,尾声段(epilogue)顺势完成缩放、归约、成对变换和累加,而数据全程不离芯片。
CODA的核心聪明之处在于:它把GEMM的主循环固定下来,只暴露一组可组合的尾声原语——缩放、归约、成对变换、累加。这些原语像乐高积木一样,可以拼出几乎所有的非注意力计算,包括前向和反向传播中的归一化、激活、残差更新等。这种约束不是限制,而是保护:它让科学家可以像写高性能GEMM一样保持性能结构,同时又不会陷入低级优化的泥潭。
实验证明,无论是人类专家,还是AI(如大语言模型)编写的CODA内核,都能在典型的Transformer任务中实现高水平性能。这意味着,GEMM加尾声的编程模式,或许真的找到了框架易用性和硬件效率之间的平衡点。
当内存搬运不再是瓶颈,当前的训练瓶颈或许就能被重新定义。想象一下,未来每一次矩阵乘法都带着一串“附赠服务”,而数据只在芯片内部完成所有处理。这种顺手为之的智慧,不仅能优化Transformer,也可能启发其他深度学习系统的设计。真正的效率,往往不是更快地跑,而是巧妙地避免不必要的脚步。
减肥神药太猛了:患者瘦到想停药
在肥胖症治疗领域,一场关于“效果太好”的争论正在悄然展开。礼来公司研发的实验性减肥药retatrutide,因其惊人的减重效果,让研究人员不得不重新思考:这种药物是否应该被“调低”强度?
这款药物同时作用于三种代谢受体——GLP-1、GIP和胰高血糖素,使其效果远超现有的Wegovy或Zepbound。在中期临床试验中,参与者平均减重超过20%,这个数字让研究者既兴奋又担忧。一位参与试验的患者在短短几个月内减掉了近30公斤,从严重肥胖变成了标准体重,但随之而来的是持续的恶心和呕吐,最终他不得不退出试验。
研究人员现在面临一个前所未有的问题:如何设定安全的剂量阈值?高剂量组中,相当一部分参与者因严重的胃肠道不适而退出,包括剧烈呕吐和腹泻。更令人担忧的是,有些患者出现了营养不良的迹象,甚至有人因为“瘦得太快”而感到恐慌。
“我们从未见过如此快速的体重下降,”一位参与试验的内分泌学家表示,“这就像打开了潘多拉的魔盒。我们需要确保这种力量不会被滥用。”目前,研究人员正在仔细分析数据,试图找到既能有效减重又不会导致过度消瘦的平衡点。
这场关于“效果太好”的讨论,实际上触及了医学伦理的核心:当一种治疗手段的效果超出预期时,我们该如何界定“足够”?是追求最大程度的减重,还是寻找一个更安全、更可持续的中间地带?随着更多类似药物的研发,这个问题将变得越来越紧迫。毕竟,任何强大的工具都需要谨慎使用,否则从治疗到伤害,可能只有一步之遥。
Airbnb变身一站式旅行管家
在旅行中,最让人头疼的往往不是目的地本身,而是那些琐碎的衔接环节:下了飞机拖着行李无处可去、入住前空荡荡的冰箱、深夜抵达时打不到车的焦虑。现在,Airbnb决定把这些烦恼一网打尽。
这家短租巨头正在将它的应用程序打造成一个完整的旅行服务枢纽,把机场接送、行李寄存、租车、精品酒店预订,甚至Instacart支持的杂货配送统统整合进同一个界面。这意味着,当你预订好住宿后,可以顺手安排接机服务、提前把行李寄存在合作点、让冰箱在抵达前就装满食材,甚至租一辆车开启自驾之旅。
具体来看,Airbnb与行李寄存初创公司Bounce合作,让客人在入住前或退房后都能轻松寄存行李,这项服务已覆盖175个城市,并提供折扣价格。机场接送服务则通过Welcome Pickups在全球160多个城市展开,目前正推出20%的优惠活动。更贴心的是,通过Instacart支持的杂货配送服务,客人可以在抵达前就预先装满厨房,或在住宿期间随时下单补充物资,这项服务已在美国超过25个城市上线。
到了夏天,用户将可以直接在应用程序中预订租车和精品酒店,并享受积分和价格匹配保证。这不仅仅是功能的叠加,更是一场商业模式的升级。过去,Airbnb只从每晚的房费中抽成,现在它想要从旅行者的每一笔消费中分一杯羹。通过将交通、行李、杂货和租车捆绑在一个界面中,它不仅能从每次旅行中获取更多收入,还能加深与Bounce、Welcome Pickups和Instacart等合作伙伴的关系。新的费用和激励措施也为Airbnb提供了更多收入杠杆。
当旅行变成一场无缝衔接的体验,Airbnb不再只是一个住宿平台,而是一个掌控你整个旅程的管家。它用数字化的方式,把散落的旅行碎片拼成了一幅完整的画卷。
Meta悄悄推出Forum:把Facebook群组变成Reddit式问答社区
在社交媒体巨头Meta的实验室里,一个名为Forum的新应用悄然诞生。它不像Facebook主应用那样充斥着朋友动态、品牌广告和算法推荐,而是专注于一个更纯粹的目标:将Facebook群组中那些有价值的问答和讨论,变成类似Reddit和Quora的独立体验。
Forum的核心功能很简单:它从用户已加入的Facebook群组中提取帖子和问题,整理成一个专门围绕群组对话的feed。用户可以在其中提问、浏览话题线程,并获得来自群组成员的真实回答——这些回答来自真实的人,而非AI生成的回复。这种设计旨在解决一个常见痛点:在Facebook主应用中,有价值的群组讨论常常被淹没在信息流中。
对于群组管理员,Forum提供了内置的AI助手和审核功能,帮助他们更高效地管理成员和内容。这暗示着Meta不仅想改善用户体验,还想减轻管理员的负担,从而让群组生态更健康。
为什么这件事值得关注?Forum的独特之处在于它利用了Facebook群组已有的价值——那些小众讨论、推荐和来回问答。Meta不需要从零开始构建内容库,而是可以依赖多年来积累的群组对话。这种结构性优势让Forum在测试阶段就拥有了潜在的内容基础。
然而,Forum也面临挑战。它需要证明自己能够吸引用户从Facebook主应用迁移到独立的体验中,同时保持群组讨论的活跃度和质量。如果成功,Forum可能成为Meta在社交领域的一次重要创新,将群组从Facebook的附属功能提升为独立的社交产品。
在这个信息过载的时代,Forum的尝试提醒我们:有时候,最好的社交体验不是让用户看到更多,而是让他们看到更相关、更有价值的内容。当算法推荐和AI生成内容充斥互联网时,真实的人之间的对话依然是最珍贵的资源。
SpaceX的IPO:马斯克的权力堡垒
SpaceX即将进行的IPO,与其说是向华尔街敞开大门,不如说是一座精心设计的法律堡垒。据《华尔街日报》报道,这座堡垒将确保埃隆·马斯克对这家全球最具价值的太空与人工智能公司拥有近乎绝对的掌控权。
首先,马斯克将通过超级投票权和双层股权结构,保留约85%的投票控制权。这意味着,即便公众投资者投入巨额资金,他们手中的股份几乎无法影响公司的任何重大决策。其次,公司注册地选在得克萨斯州,该州公司法使得股东或董事会几乎不可能在没有马斯克批准的情况下罢免他或推翻他的战略决定。这一设计,是为了彻底避免重演特斯拉时期围绕马斯克薪酬方案和太阳能城市收购案等争议的股东大战。
此次IPO的目标估值约为1.5万亿美元,这笔巨额资金将直接注入火箭研发、星链网络以及马斯克在轨道上建设人工智能数据中心的宏大愿景。整个方案的核心,就是确保马斯克能永久、几乎不受挑战地掌控公司,无论股东、董事会或市场如何反应。
华尔街将如何回应这一史无前例的权力结构?这或许会为所有后来者重新定义超级独角兽的上市规则。当一家公司最宝贵的资产是创始人的远见时,投资者是否愿意用投票权来换取参与这场太空冒险的门票?
加州打响AI时代工人保卫战:裁员潮下的新生存法则
在科技巨头Meta宣布裁员8000人以填补AI投资成本的第二天,加州州长纽森签署了一项行政令,要求州政府机构研究并制定保护工人免受AI冲击的政策。这项命令的出台并非偶然——加州拥有全球前50强AI公司中的33家,而2026年已有超过7万个工作岗位消失,行业预计更多裁员将随着AI加速应用而到来。
行政令的核心内容令人瞩目:州政府将在90天内推出追踪AI就业影响的仪表盘,180天内更新WARN法案以加快裁员预警速度。更引人深思的是,政策探索方向包括遣散费标准、股票补偿、工人所有制模式,甚至全民基本资本。这意味着加州正在尝试构建一个从失业救济到财富共享的完整保护体系。
到10月15日,州政府将审查工会如何谈判AI应用、更新劳动力培训计划,并探索将AI收入导向公共福利的路径。这标志着美国首次有州政府系统性地研究AI对工人的影响,而不仅仅是关注技术本身。
这场变革的戏剧性在于:一边是AI公司创造着惊人的财富,一边是普通工人面临失业风险。加州的选择或许将定义未来数十年技术与人性的平衡点。当机器开始取代人类劳动时,我们需要的不仅是更快的算法,更是更公平的分配机制。
OpenAI Codex再升级:锁屏也能帮你干活
OpenAI最近又给Codex来了一次大升级,这次不是小打小闹,而是直接让这个AI助手变得更像你的私人管家。想象一下,你正在Mac上工作,突然想做个复杂的网页修改,或者需要AI帮你运行一个需要几小时才能完成的任务——现在,你只需要按两下Command键,Codex就能接管你的屏幕,甚至在你锁屏睡觉的时候继续干活。
这次升级带来了几个让人眼前一亮的功能。首先是Appshots,Mac用户只要双击Command键,就能把任何打开的应用程序窗口——包括截图、文字和内容——直接扔给Codex处理。这就像你随手把文件递给助手,说“帮我看看这个”,简单得让人怀疑以前为什么没这么做。
更厉害的是Goal模式。这个功能现在可以在Codex应用、IDE插件和命令行里用。你只需要设定一个目标,比如“帮我爬取这个网站的所有数据并整理成表格”,然后就可以去喝咖啡了。Codex会自己琢磨怎么干,可能需要几个小时,甚至几天,但它会一直干到完成为止。这就像你雇了个不用睡觉的程序员。
最让人惊讶的是Locked computer use功能。开启后,你可以在另一台设备上触发Codex,让它用你锁屏的Mac干活。屏幕关着,电脑锁着,Codex照样能操作桌面应用。想象一下,你下班回家,路上用手机让Codex在你办公室的电脑上跑个程序,第二天到公司发现活已经干完了。
还有个贴心的Advanced annotation模式。如果你想改网页上的东西,直接告诉Codex你想要什么变化,它就会立刻给你预览结果。不用再写复杂的代码,就像跟设计师说“把这个按钮往右移一点”那么简单。
这些升级背后,是OpenAI在AI助手领域的野心。他们想通过让Codex更懂开发者、更好用,来缩小和Anthropic的差距,同时保持对xAI和Google的领先。毕竟,当AI能帮你锁屏干活、设定目标后自动完成、随手抓取屏幕内容时,开发者的工作效率会提升到一个新高度。
这就像给你的工作装上了涡轮增压,但真正的革命在于:AI不再只是回答问题,而是开始替你干活。当你的电脑在你睡觉时还在为你工作,你可能会开始思考——到底是谁在服务谁?
Google CEO皮查伊:三年后AI将像翻盖手机一样原始
我们与Google CEO桑达尔·皮查伊在I/O 2026大会上进行了独家对话。他坐在我们面前,眼神中透着对未来的笃定。当被问及为何普通用户应该转向Gemini时,他举了个生动的例子:想象一个永不疲倦的助手,24小时穿梭在你的手机、电脑和智能设备之间,帮你处理订餐、安排会议、整理邮件。他说,三年后这样的智能体将变得极其普遍,而今天的AI技术,在人们眼中会像翻盖手机一样原始。
皮查伊特别强调了YouTube的独特价值。他坦言,像Omni这样的模型确实能让创作者更好地表达自己,但YouTube永远不会变成机器人的游乐场。平台将始终坚守“人与人之间的连接”,创作者依然是核心。他说,技术是工具,但真正打动人的永远是创作者的真实情感和故事。
当话题转向工程师群体时,皮查伊描绘了一幅令人振奋的画面:未来的程序员将拥有一个由智能体组成的团队。这些AI伙伴不是简单地生成代码,而是能处理需要长时间运行、多步骤协作的复杂任务。他透露,衡量成功的标准将不再是AI写了多少行代码,而是它能否像真正的团队成员一样,独立完成从需求分析到测试部署的完整流程。
整个采访中,皮查伊反复强调一个观点:这场技术变革的坡度很陡,但适应这些原生工具将成为每个人的必修课。无论是创作者、程序员还是普通用户,谁能更快地拥抱这些变化,谁就能在未来的数字世界中占据先机。
他最后说,人类始终会在关键环节保持主导地位。技术再强大,也只是延伸我们能力的工具,而不是替代我们的存在。这或许就是这场AI革命最令人安心的注脚:未来已来,但方向盘依然在我们手中。
想象一下,训练一个强大的语言模型,过去通常需要数千亿的文本token和数百万美元的计算成本,这像一堵高墙,将基础研究者挡在门外。但一项新研究却只用不到两千美元的预算,就把一个1B参数模型训练到了能媲美几个更大模型的水平。这背后的灵感,来自我们最熟悉却又最神秘的系统——大脑。
在生物学中,大脑的额顶叶回路通过多时间尺度处理实现高效学习:有些区域像战略家,缓慢地规划长期目标;另一些则像执行者,快速响应实时输入。研究者将这种设计引入语言模型,创造了一个名为HRM-Text的架构。它抛弃了标准的Transformer,改用一种层次循环模型(HRM),把计算解耦成两个层面:慢速演化的“战略层”负责全局模式,快速演化的“执行层”处理局部细节。为了在深度循环中稳定训练,他们还引入了MagicNorm和逐步深度信用分配技巧。
更颠覆性的改变在于训练方式:不再从互联网抓取原始文本进行预训练,而是直接使用指令-响应对,配合任务完成目标和PrefixLM掩码。这意味着模型从一开始就在学习如何解决问题,而不是被动地吸收词汇统计。结果令人瞩目——这个仅有1B参数的模型,在仅40亿个独立token(约400亿字符)的训练数据上,以1500美元的成本,在MMLU(60.7%)、ARC-C(81.9%)、DROP(82.2%)、GSM8K(84.5%)和MATH(56.2%)等基准测试中取得了优异成绩。相比标准基线,它的训练数据量减少了100到900倍,估计计算量减少了96到432倍,而性能却能与2B到7B参数的主流开放模型相抗衡。
这不仅仅是一个技术突破,更是一种宣言:当架构与目标协同设计时,我们可以从根本上重新定义“高效”。资源的稀缺不再是壁垒,创新的头脑才是。或许,下一步的突破不在于更大的模型或更多的数据,而在于重新思考学习的本质。