EZ.AI Listen Daily

全球AI新闻,耳听为快
2026年5月28日

物理系统的模拟,尤其是复杂时空动态的预测,长期以来面临着一个核心矛盾:想要高精度,就得付出高昂的计算成本;想要快速,精度又会大打折扣。现有的生成模型虽然强大,却难以突破这个速度与精度的天堑。如今,一项名为“递归流匹配”(Recursive Flow Matching,简称RecFM)的新方法,或许正在改写规则。

这项研究的核心在于一个巧妙的概念:自一致性。RecFM不是简单地生成一个预测,而是在不同离散化尺度之间来回“校验”,确保生成的轨迹能够自我对齐。这种强制约束有效减少了离散化误差——这是传统方法失真的主要源头之一。更令人惊叹的是,RecFM是第一个能够在仅一步或少数几步(2-4步)内,就生成高保真动态结果的生成式框架。在以往,要达到同等精度,通常需要数十甚至上百步的迭代求解。

在多个极具挑战性的科学基准测试中,RecFM展现了锋芒。与当前最先进的扩散模拟器相比,RecFM实现了高达20倍的加速,同时预测精度反而有所提升。不仅如此,与基础的流匹配(Flow Matching)方法相比,RecFM将均方误差降低了超过15%。这意味着,科学家们可以在实时或近实时的场景中,获得以往需要超级计算机才能提供的物理精度。

这项突破的意义超越了单纯的数字提升。它意味着,未来在气候模拟、流体力学、材料科学等领域,我们或许能够以前所未有的速度进行高保真推理。当计算速度不再成为瓶颈,探索复杂系统的可能性将被无限放大。真正值得思考的是:当模拟可以又快又准,我们准备好在第一时间做出什么决策了吗?

2026年5月28日

在人工智能的视觉语言理解领域,长久以来存在一条明显的“鸿沟”——大多数模型像拼积木一样,把图像编码器和语言解码器分别训练,再通过多阶段对齐勉强黏合。这种模块化框架虽能工作,却让像素级信号在不同帧之间被切碎,早期让图像和文字的直接互动变得迟缓而零散。而另一边,完全原生的视觉语言模型尽管在单张图像上表现惊艳,一旦面对多张图、视频甚至需要空间推理的任务,就暴露出从未被充分探索的空白。

正是在这样的背景下,一支研究团队推出了NEO-ov——一个彻底打破模块边界的原生基础模型。它不再依赖任何外部编码器、辅助适配器或事后融合技巧,而是从零开始端到端学习跨帧像素与文字之间的对应关系。这就像从一个只能通过拼凑碎片看世界的系统,进化到能直接绘制一幅完整动态画卷的思维。

通过消除所有模块间的隔阂,NEO-ov让细粒度且统一的时空建模能力在模型内部自然地涌现。研究结果令人瞩目:它不仅在性能上大幅缩小了与模块化“拼图”模型的差距,更在细粒度视觉感知任务上展现出明显优势,证明“一个视觉”的原生架构不仅可行,而且在大规模应用中具备真正的竞争力。

除了实证成绩,研究团队还公开了系统性的架构分析和详细的训练配方,为后续原生多模态建模提供了一条可复现的道路。代码和模型也已向社区开放。

这不仅是技术路径的革新,更可能是视觉语言融合范式的转折点——当模型学会像人类一样直接处理完整流动的视觉信号,而非破碎的片段,通往真正多模态智能的道路或许就此被重新定义。

2026年5月28日

想象一下,你正在使用一个AI助手处理客户邮件,它不小心回复错了信息。你立即纠正,点击“撤回”,并重新输入正确内容。在传统模式下,这个AI下次还会犯同样的错误,因为它从训练完成后就“冻结”了。但现在,Trajectory这家刚刚用1500万美元种子资金启动的创业公司,正试图改变这一切。它的创始人来自DeepMind、OpenAI、苹果、Meta超级智能实验室和Scale AI,背后站着Conviction和Bessemer两家风投。他们的目标很简单:让AI像人类一样,从每一次失败和修正中学习,变得越来越聪明。

Trajectory的核心机制并不复杂:它从产品数据中捕获用户每一次的修正、重试和编辑,然后用这些真实世界的反馈持续对模型进行后训练。这意味着模型不再是静态的,而是在每次与用户的交互中自动进化。比如,当用户纠正了一个法律文件摘要中的错误,模型就会记住这个修正模式,下一次面对类似内容时,它就能直接给出正确结果。早期客户包括Clay、Harvey、Decagon和Rogo,这些公司已经在使用Trajectory的后训练模型,并声称在一些关键窄任务上,这些模型的表现超过了前沿AI。

目前的更新频率是每周一次,但Trajectory的团队正在向更激进的节奏推进——他们希望实现每小时更新,甚至做到每次交互后都立即更新。这就像给AI装上了一套实时“纠错系统”,让它从过去只能依赖静态训练数据,变成从每一个真实使用场景中汲取经验。在商业世界里,模型从失败和修复中持续学习,结合原始输出与用户反馈,这几乎被视为企业级AI的圣杯。如果Trajectory真的能攻克这个难题,公司将很快拥有质量会随着每一次用户反馈而指数级提升的AI工具。

不过,持续学习也意味着更多的数据隐私、模型稳定性和成本控制挑战。当模型每小时都在变化,如何确保核心能力不偏离?如何处理用户反馈中的噪声和恶意输入?这些都不是小问题。但无论如何,Trajectory的方向已经让很多技术观察者兴奋——它不再试图造一个无所不能的静态大脑,而是让AI学会“成长”。

也许未来最强大的AI不会是最初训练时最聪明的那个,而是那个最会从每次失误中爬起来、马上变更好的那个。这听起来就像我们人类的成长故事,只不过现在,轮到机器来复刻这个过程了。

2026年5月28日

那是2025年初的一个阴天,旧金山一家科技公司的行政助理琳达盯着屏幕上弹出的裁员通知,手指微微发抖。公司引入了一款AI办公助手,能自动处理日程、报销和会议纪要,原本十人的行政团队只剩下三个人。她不是个例——从客服中心到律师事务所,从插画师到代码质检员,无数人开始恐惧新技术带来的失业浪潮。

就在这时,一则消息悄然震动科技圈:OpenAI基金会宣布,将投入2.5亿美元启动一项“经济韧性计划”。这笔初始资金并非来自ChatGPT母公司的主营业务,而是由拥有OpenAI营利实体26%股份的非营利部门拨出。它并非用于开发更强的模型,而是精准投向三个方向:理解AI的经济影响、帮助工人应对短期冲击、构建长期经济安全网。

在理解经济影响方面,基金会计划打造一套追踪系统,不仅看人们“赚了多少钱”,更要看“实际能做什么、能获得什么”。比如一个卡车司机,在自动驾驶普及后能否转型为物流调度员?一个插画师能否借助AI工具提高产量而非被替代?基金会希望用数据揭示价值流向的真相。

针对短期内被迫转行的工人,资金将用于培训与过渡支持。重点不是教他们学编程——那可能过时得更快——而是帮助他们在工作中获得对AI的“话语权”,让工作本身依然保有意义、目的和满足感。比如引入“AI助理”而不是“AI代替者”的协作模式,让工人学会调教工具,而非被工具淘汰。

长期来看,基金会探讨更为激进的制度设计:将税收从劳动收入转向资本收益,建立类似阿拉斯加永久基金那样的“主权财富基金”,甚至考虑让每个普通人都能通过某些机制,从AI创造的价值中获得一份“持久分红”。这些构想看似理想主义,却呼应了诺贝尔经济学奖得主们的警告——如果不主动调节,AI将加剧财富分裂,让少数人攫取所有红利。

但时间紧迫。OpenAI表示首批具体项目将在今年晚些时候公布,可裁员潮已席卷金融、媒体、制造等多个行业。硅谷的一些评论者直指:基金会手握2.5亿美元,可OpenAI营利部门估值已超800亿美元;这区区0.3%的资源,更像是为研发进度铺路的公关面膜。而另一些人则认为,至少有人开始认真思考——在奔向超级智能的赛道上,不能让普通人被抛进沟渠。

当琳达看到这则新闻时,她翻出尘封的在线教育账号,犹豫是否该报名一门“AI提示工程”课程。窗外的细雨里,这座科技城依旧繁忙,只是路边咖啡店的闲聊话题,渐渐从“如何用AI赚钱”变成了“如何不被AI取代”。也许这2.5亿美元无法瞬间解决所有问题,但它像一颗投入湖面的石子——涟漪是否变成浪涛,取决于接下来有多少人愿意投入这场关于“人”的竞速。

2026年5月28日

深夜的实验室里,一位研究人员盯着电脑屏幕,眉头紧锁。她正在设计一种能精准结合癌细胞表面的蛋白质,传统方法需要数月甚至数年,而眼前的靶点又格外棘手。就在她准备放弃时,一封邮件带来了转机——Biohub刚开源了一套名为Evolutionary Scale Models的引擎,能像魔法一样映射、预测甚至设计蛋白质。她试着上传需求,几天后,候选分子列表出现在眼前,命中率高达88%。这不是科幻,这是刚刚发生的事。

这套引擎的核心是ESMFold2,一个基于蛋白质语言模型ESMC的预测工具。它被训练在惊人的28亿个序列上,相当于把地球上几乎所有已知蛋白质的“语言”都学了一遍。ESMFold2不仅能预测蛋白质折叠后的三维结构,还能反过来设计全新的蛋白质。在结构预测竞赛中,它直接宣称超越了AlphaFold,尤其是在蛋白质与蛋白质之间的相互作用,以及抗体与抗原的结合预测上,表现更加精准。

更令人振奋的是,它已经走出了模拟世界。在实验室的真实测试中,ESMFold2被用来设计针对五种癌症和免疫靶点的结合蛋白,命中率从36%到88%不等。这意味着,对于某些靶点,几乎每三个候选分子中就有一个能成功结合,远超传统方法。

而它的最后一环——ESM Atlas,则是一张巨大的地图,包含了68亿个蛋白质序列和11亿个预测结构。在这张图上,科学家们可以像探索未知大陆一样,发现从未被注意到的进化联系,找到那些隐藏在生命历史深处的蛋白质家族。

这背后是扎克伯格和普莉希拉·陈夫妇的5亿美元虚拟生物学计划。他们不仅投入巨额资金,还把整套工具完全开源,交给全世界的研究者。无论是顶尖药企还是简陋的大学实验室,每个人都能用这套“基础设施”来加速药物发现。结合Isomorphic Labs的同步推进,我们正一步步接近那个曾被哈萨比斯描绘的愿景:用AI终结一切疾病。

这不仅是技术的胜利,更是开放与共享精神的胜利。当蛋白质设计的门槛被打破,每一个有想法的科学家都能成为“分子建筑师”,人类的健康版图将被重新绘制。或许在不远的将来,那些曾经无药可救的癌症、免疫疾病,都会在这套引擎的推动下,找到属于自己的解药。

2026年5月28日

在人工智能的世界里,空间基础模型被誉为“视觉通才”——它们能理解三维场景、感知物体位置、甚至为机器人导航。然而,这些模型真的能在任何场景、任何视角、任何密度下都表现卓越吗?答案并不乐观。长期以来,研究人员仅用专属数据集测试这些模型,比如在某个室内场景的固定视角下评估深度估计,或在特定车载相机拍摄的街景中测试目标检测。这种“温室测试”掩盖了模型面对野外复杂环境的真实能力:当视角突然从俯视变成仰视,当场景从办公室切换到工厂,当输入点云变得稀疏,它们还能稳定工作吗?

为了揭开这层迷雾,一研究团队构建了SpatialBench——一个跨范式、跨领域的空间基础模型基准。它不像传统测试那样随意选取数据片段,而是采用了严格的确定性采样策略。SpatialBench整合了19个公开数据集,包含546个不同场景,横跨5大空间领域:室内、室外、街景、航拍和工业环境。评估阵容堪称豪华:41个最新模型,覆盖6种主流范式(如基于Transformer、基于CNN、基于图网络等),在5类空间任务(深度估计、法线预测、物体检测、场景分割和点云配准)上接受检验,并且每种任务都设定了4种不同的输入密度(从密集采样到极度稀疏)。

结果令人警醒:目前没有任何模型能在所有任务、所有领域、所有密度下保持领先。换言之,它们都还不是真正的“全能玩家”。但SpatialBench同时揭示了两个至关重要的规律。第一,在注意力机制的选择上,全上下文注意力(即模型一次性看到所有输入)在精度上占据绝对优势,但计算成本极高;而一种带有边界约束的记忆机制(Bounded-Memory)虽然精度稍逊,却能在处理超长序列(如大尺度点云)时实现线性扩展,这对需要实时响应的应用(如自动驾驶)意义重大。第二,在最具挑战性的具身和第一人称任务(如机器人抓取、头戴设备感知)中,严格的领域对齐(即训练数据与测试场景来自同一类环境)和高质量的数据标注,远比赛造更大规模但噪音更多的数据集更为关键。简单扩大数据量并不能自动提升性能——你更需要精确的标注,而非海量的粗糙信息。

这个发现令研究团队深受震动。为了填补分析中暴露的最大数据缺口(即高质量、多视角、多密度的领域对齐数据),他们进一步发布了新的大规模数据集DA-Next-5M——包含500万多个带精细标注的样本,以及代号为DA-Next的基线模型。它采用了全上下文注意力结合领域对齐训练策略,在多个基准上刷新了纪录。

当我们将视野从实验室移向真实的工厂车间、混乱的起居室或暴雨中的街道,这段探索提醒我们:泛化不是天赋,而是数据与设计的共谋。盲目追逐模型规模和数据量,不如审慎审视每一个细节的匹配。空间智能的下一块拼图,或许就在于何时停止追求“更多”,转而追求“更准”。

2026年5月28日

想象一下,当你教一个AI助手学会用某个工具后,下次它遇到类似任务时不仅记得怎么用,还会根据之前的经验自动改进,甚至能带着这项技能去帮助其他AI——这不再是科幻电影的情节。MUSE-Autoskill Agent,一个名为“记忆使用技能进化”的智能体框架,正在让这种“活着的技能”成为现实。

在AI领域,大型语言模型的智能体一直依赖可复用的技能来处理复杂任务。但过去的方法有个致命缺陷:技能被当作孤立的、静态的“工具”——写完就扔,用一次就忘。比如,一个学会写邮件的AI,如果遇到需要查资料并写邮件的新任务,它不会主动把之前学到的邮件模板和新学的搜索技巧结合起来,更不会在下一次写邮件时自动优化格式。这种碎片化的技能管理,让AI的成长陷入瓶颈。

MUSE框架的突破在于,它把技能当作一个有“生命”的对象,设计了完整的管理生命周期:创建、记忆、管理、评估、精炼。当AI需要新技能时,框架会按需生成;执行任务时,技能会被记录并复用;面对多个技能时,系统能高效组织与选择;每完成一次任务,技能都会通过单元测试和运行反馈来评估,甚至自动调整优化。更特别的是,框架为每个技能引入了“技能级记忆”——就像人类积累经验一样,每次使用某技能时,相关数据都会被保留下来,跨任务地持续改进。

为了验证这套理念,研究团队在SkillsBench上进行了实验。初步结果显示,经过生命周期管理的技能,显著提升了任务成功率、执行效率、复用率,甚至实现了跨智能体的技能转移。这意味着,一个AI学会的技能,可以像知识一样被其他AI共享和继承。

总结来说,MUSE框架最重要的启示是:AI技能的真正潜力不在于一次性的“创造”,而在于持续进化的“生命力”。当每个技能都能积累经验、自我测试、跨任务成长,智能体的能力就不再是堆砌的碎片,而是一棵不断生长的大树。这提醒我们,在构建更聪明的人工智能时,或许该换个思路——不再追求更庞大的模型,而是为模型中的每个“技能细胞”注入学习与适应能力。毕竟,会进化的工具,才是真正的智慧工具。

2026年5月27日

想象一下,你正在训练一个AI助手,让它学会用眼睛看世界。它需要精准地找到图片中的物体,并标出它们的位置。过去,科学家们习惯用“填字母”的方式:先把一个矩形框拆成四个数字,再把这些数字变成一串文字,让AI一个字一个字地读出来。问题是,这个矩形框里四个数字是紧密相连的,就像一把椅子的四条腿,必须同时出现才算完整。可AI却要读完第一个字才想起第二个字,读完第二个字才想起第三个,整个过程既慢又容易出错,因为一旦读错一个字,整个框就歪了。

现在,一项名为LocateAnything的研究彻底改变了这个游戏规则。他们发明了一种叫做“并行框解码”(Parallel Box Decoding, PBD)的新方法。它不再把框拆成一个个孤立的数字,而是把整个框当作一个整体,在一次操作中直接吐出它的全部坐标。就像一眼就认出椅子,而不是数完腿再数坐垫。这听起来简单,但背后是完整的框架革新:LocateAnything框架同时支持视觉定位和物体检测,统一了这两种任务,并且让AI能够并行地生成所有定位信息。

这种并行解码带来的好处是双重的。首先是速度。传统方法需要逐字生成,像火车只能一节一节地跑。而PBD就像同时发射多枚火箭,解码吞吐量显著提升。其次是精度。因为框内四个坐标是同时得到的,几何结构保持了内部的连贯性,不会出现坐标之间的“错位”。实验表明,在多个公开数据集上,LocateAnything不仅解码更快,而且在高重叠度(高IoU)的定位质量上也更胜一筹。

但LocateAnything的成功不止于此。研究团队还打造了一个庞大的数据引擎,构建了名为LocateAnything-Data的数据集,包含超过1.38亿个训练样本。这是同类数据集中规模极大的一个,覆盖了丰富多样的场景和物体,确保AI见过足够多的情况,从而在实际应用中达到高精度。有了海量数据的支撑,并行框解码的潜力被充分释放。

最终,LocateAnything在速度与精度的前沿线上树立了新的标杆。它告诉我们:当模型的内部结构不再自相矛盾,当数据不再是稀缺资源,视觉AI就有了真正的“目光如炬”。有时候,通往高效的捷径并非更复杂的思考,而是更协调的同步。就像一支团队,如果每个人都能同时发力,而不是依次等待,那么完成的将不仅仅是任务,而是突破本身。

2026年5月27日

想象一个场景:你正在观看一段密集的体操比赛视频,运动员在短短几秒内完成一连串高难度翻腾动作,每一个细节都可能决定胜负。你能准确指出双脚落地的那个瞬间吗?对大多数人来说,这需要反复回放;但对新型AI模型LLaVA-OneVision-2(简称LLaVA-OV-2)而言,这不过是它的日常操作。

这个模型来自LLaVA-OneVision系列的最新迭代,被开发者称为“迄今为止最强大的视觉语言模型”。它并非简单的升级,而是带着一套革命性的技术架构登场——核心秘密叫做“码流令牌化”。以往处理视频时,AI会把视频切成固定时长的片段,再抽取若干帧来分析。这种粗暴的方式就像把一部长电影每隔10分钟截图一张,往往错过高潮。LLaVA-OV-2则另辟蹊径:它把压缩后的视频看作一串连续的比特流,每个比特的“成本”会实时波动。动态变化中,模型自动识别事件密集的段落,将有限的视觉令牌集中投放到真正承载起承转合的内容上。更妙的是,它还借鉴了运动残差线索——就像一位侦探通过两个连续画面的细微差异锁定关键帧——从中筛选出最具代表性的视觉精华,拼成紧凑的“视觉画布”。最终,一个共享的3D旋转位置编码将这些画布、采样帧和静态图像全部安置在统一的时空坐标系中,让模型既能理解全局场景,也能精准定位局部细节。

支撑这套复杂机制的,是海量数据的“喂养”。预训练阶段,LLaVA-OV-2吞下了大约800万个重新配文的视频样本;随后又用400万个空间标注样本进行精调。如此规模的训练,让它在多项跨模态基准测试中碾压对手。在团队专门为此设计的“JumpScore”测试中——这是一个聚焦高频、密集重复运动的时间定位基准,填补了现有评估的空白——LLaVA-OneVision-2-8B版本达到了74.9的平均精度,直接把同类模型Qwen3-VL-8B的30.1分踩在脚下,领先44.8分。即使在同一视觉令牌预算下,码流输入相比传统帧采样,在时间定位上又提升了9.7分。

更惊人的是,这种优势并非偏科。标准视频任务上,LLaVA-OneVision-2-8B比Qwen3-VL-8B平均高出4.3分;空间理解任务高出5.3分;跟踪任务上更是平均高出15.6分。它就像一位全能选手,既能理解视频的整体叙事,又能精准定位时间节点,还能看透空间布局,甚至推理操作动作的轨迹。

人类的感知从来不是均匀的——我们盯着飞驰的足球时,视线会不自觉地追随着球员的身体姿态和足球的轨迹,而不是平均扫描整个球场。LLaVA-OV-2用码流动态分组实现了同样的“注意力节奏”,这或许正是它能够从海量噪点中抓住关键瞬间的秘密。未来,当机器能像人一样自动聚焦最有价值的每一帧,视频理解将不再只是冰冷的计算,而是一场真正的“视觉共情”。技术迭代的尽头,或许正是我们生而为人的直觉本身。

2026年5月27日

想象这样一个世界:你只能看到扭曲的、混乱的表象,而真正的因果结构却藏在这些非线性观测背后。一群研究者试图破解这个谜题——他们发明了一个叫做LeJEPA的模型,它通过“对齐”和“高斯正则化”这两个简单规则,竟然能从看似无序的观测中,精准地还原出世界的潜在变量。更令人惊讶的是,他们发现这种神奇的能力,只有在潜在变量遵循高斯分布时才能被数学保证。

故事要从一个数学定理讲起。这个定理证明,在那些潜在状态会随时间缓慢变化、且受到平稳加性噪声干扰的世界里,LeJEPA能实现“线性可识别性”——即通过一个线性变换,就能从非线性观测中恢复出所有隐藏的因果维度。这不是一个巧合的偶然现象,而是一个精确的数学结构。研究者通过一种巧妙的谱分解方法,展示了每一个非线性扭曲都会在对齐损失函数中受到严格惩罚,最终迫使模型选择最简单直接的线性映射。

但故事最精彩的部分在于“唯一性”。他们证明,在所有可能的潜在分布中,只有高斯分布能提供这种严格保证。如果潜在变量服从其他任何非高斯分布,这个完美的线性恢复承诺就会崩塌。仿佛自然选择了一个最特别的概率分布,作为世界模型的隐藏基石。

当然,现实世界从不完美。理论也考虑了近似情况——当数据不完美时,这种识别保证会优雅地退化,而非突然崩溃。他们进一步证明,这种线性、正交的可识别性,使得在潜在空间中进行最优路径规划成为可能,这对机器人控制、决策系统等应用至关重要。

从简单的二维玩具数据,到高达1024维的复杂潜在空间,再到基于像素的机器人操控实验,所有验证都支持了这条理论。这个曾经只是经验成功的模型,如今获得了坚实的数学基础——它告诉我们,构建能真正理解世界结构的人工智能,或许只需抓住一个关键:在混乱的表象之下,用高斯分布这把钥匙,撬开隐藏的因果之门。

世界的复杂性或许永无止境,但解开它的线索,有时就藏在最简单的数学之中。

2026年5月27日

想象一个模型,能同时理解视频里的动作、音频中的旋律、图像的色彩和文字的含义,并将它们编织进同一张无形的意义之网。这就是Gemini Embedding 2——一个原生多模态嵌入模型,它打破了数据类型的壁垒,将视频、音频、图像和文本统一嵌入到同一个表示空间。更令人惊叹的是,它还能处理这些模态的任意组合,比如一段带有配乐的视频片段配上文字描述,它都能生成一个整体嵌入,理解其中的综合信息。

要做到这一点并不容易。研究人员借用了Gemini系列模型强大的多模态能力,并进行了大规模对比学习,在一个多任务、多阶段的训练流程中,让模型学会区分哪些内容应该相似、哪些应该不同。最终,这个模型在多个关键基准测试中击败了专门为单一任务训练的专家模型:在图像-文本检索任务MSCOCO上,它取得62.9的R@1(前1名召回率);在视频描述检索Vatex上,NDCG@10达到68.8;在多语言文本检索MTEB Multilingual上得分69.9;在代码检索MTEB Code上更是高达84.0。这些数字意味着,无论是跨语言搜索、找图、找视频还是找代码,它都做到了顶尖。

更令人兴奋的是,这样的能力并非只能用在标准数据集上。它拥有强大的零样本迁移能力——不用额外训练,就能在天文学、生物科学、美术和烹饪艺术等截然不同的专业领域表现稳定。比如,一名天文学家可以直接用它搜索带有特定星云特征的图像与论文组合,而无需为天文数据专门训练模型。这种“开箱即用”的可靠性,让它成为检索增强生成(RAG)、推荐系统和搜索引擎的理想基础模型。

从统一感知到跨域泛化,Gemini Embedding 2展示了多模态嵌入模型正从“单科状元”走向“全能通才”。当不同领域的数据可以在同一个语义空间中对话,信息的壁垒正在消融。或许不久后,我们检索知识的方式将不再局限于键盘敲出的文字,而是一个视频、一段音乐或一幅画——而模型会用同样丰富的语言回答你。

2026年5月27日

想象一下,你投出十份精心准备的简历,却全部石沉大海。这不是运气不好,而可能是一套共享的AI系统在悄悄切断你的所有出路。斯坦福大学的一项最新研究,跨越156家雇主、追踪400万份求职申请,揭开了AI招聘工具背后令人不安的真相:黑人和亚裔求职者被不成比例地筛除,而共享模型更让这种偏见雪上加霜。

研究人员分析了Pymetrics平台按职位划分的数据,发现10.62%的职位对黑人求职者表现出“不利影响”,5.32%的职位对亚裔求职者也是如此。更关键的是,42个AI模型被不同雇主共享使用——这意味着,如果一家公司因为你的种族特征拒绝了你,另一家使用相同模型的公司也可能给出同样的判决,即使他们本意并非如此。数据显示,4%的申请者(投了10个职位)被所有雇主拒绝,这个比例远高于雇主们独立决策时的预期。

研究覆盖了2018年至2022年的数据,虽然今天的AI招聘工具越来越多地依赖大语言模型,工作机制有所不同,但研究人员提醒,偏见可能通过共享基础设施以未知的方式渗透。如果一家主要供应商的AI存在偏见,不止是招聘,在其他领域也会连累多家公司——而它们可能毫不知情。

当我们依赖算法筛选人才时,公平性不再是单家公司的责任,而是整个技术生态的课题。一个看不见的模型,可能正在无声无息地重塑机会的分配。记住,每一次“不匹配”的判定背后,都站着一个真实的、可能永远没有机会解释自己的人。

2026年5月27日

在硅谷的一个科技论坛上,英伟达CEO黄仁勋对着镜头说了一句话,让在场的家长和学生们都愣住了。他说,别再琢磨孩子该选什么专业才能不被AI替代了,真正该问的是:AI如何能帮我学得更好、做得更好?

这场对话的背景,是今年全球已有超过8万个工作岗位因AI被裁撤。CEO们正忙着用AI替代人力,而黄仁勋却劝大家别慌。他拿记者举例:最顶尖的记者不只是准备问题,更要会倾听、会思考受众的反应、会临场应变。这些能力,AI学不来。

黄仁勋还引用了日本美学中的“侘寂”——不完美之美。他说,当机器越来越完美,人类独有的那种瑕疵、直觉和温度,反而会变得弥足珍贵。他甚至直言,把AI和失业直接挂钩的叙事“太懒了”,AI才刚来,怎么就能断定它已经在抢饭碗了?

但现实是,今年已有8万多人真的丢了工作,这个数字还在增长。黄仁勋的话听起来像是一剂安慰剂,但仔细想想,他说的和很多专家其实是一个意思:别跟AI赛跑,而是学会骑在它背上。与其焦虑专业会不会被淘汰,不如问问自己有没有创造力和判断力。

当每一个父母都在为孩子挑选“安全”的专业时,或许该停下来想想:真正安全的,从来不是某个职业的皮囊,而是那些机器永远无法复制的——人的温度、思考和说不清道不明的品味。

2026年5月27日

那是一个寻常的午后,我和谷歌DeepMind的首席执行官德米斯·哈萨比斯坐在一起。他穿着一件深色外套,眼神平静中带着锋芒,仿佛早已看穿时间的迷雾。我们聊起了一个让整个科技界屏息的问题:通用人工智能——AGI,究竟何时会真正到来?他说:“2030年,误差前后一年。”但接着他又补充道,还有几件事悬而未决:世界的物理规律、记忆的机制、一致性的保障,以及持续学习的能力。这些,是当前AI还未攻克的“暗礁”。

他说这话时,语气像在描述一条已经看到尽头的路,只是路上还有几块需要搬开的石头。然后我们转向了更具体的领域——药物发现。哈萨比斯的目光变得灼热:AI正在以恐怖的速度突破传统界限。他坦言,最先被治愈的疾病将是肿瘤学和免疫学领域的那些。每一条新发现的分子路径、每一个被预测的蛋白质结构,都是AI打开的一扇窗。最终,这些模型会演变成一个引擎——可以针对几乎任何疾病设计治疗方案。不是治愈一切,而是让“无药可医”从字典里消失。

但哈萨比斯并没有停留在现实。当AGI真正降临时,他打算用AI去探索更哲学的问题:现实的本性是什么?做一个人类,究竟意味着什么?他笑着说,那是他迫不及待想做的事。而更让他激动的是,未来的学生们将用先进的AI建造出怎样的新世界。他认为,在AI普及的未来,品味、原创思维以及情感连接会变得比任何算法都珍贵。

这次访谈让人感受到一种清晰的图景:AGI的脚步声越来越近,而下一代将从出生起就拥有着不可思议的工具。我们面临的真正挑战,或许不是技术本身,而是成人们能否足够快地调整自己的思维方式,去拥抱一个智能与人类并存的黎明。当孩子们用AI画出幻想中的宇宙,或设计出治愈疾病的分子时,我们这些“老一辈”会不会还在追问同一个问题:它值得信任吗?答案,可能就藏在2030年那个拐角处。

2026年5月27日

在人工智能的世界里,大语言模型正飞速进化,但如何让它们同时满足多个目标——比如既回答准确又语气友好——成了棘手难题。传统的强化学习方法,如近端策略优化,需要依赖价值模型来评估行为好坏,而它的进化版——组相对策略优化,虽然去掉了价值模型,效率更高,却在面对多个奖励信号时力不从心。想象一下,你试图让一个模型同时学会做数学题和使用工具,它需要平衡正确率、步骤效率、工具调用成败等多项指标。常见的做法是“奖励合并”或“优势合并”,但前者容易产生数值爆炸,导致训练像踩钢丝般摇摇欲坠;后者则像瞎子摸象,用死板的权重无视不同目标间的微妙联系,让学习信号相互干扰。

正是在这种背景下,研究者们提出了一种新方法——动态方差自适应优势优化(DVAO)。这个名字听起来复杂,核心却像一位聪明的调音师:它根据每一轮训练中各个奖励的波动程度,自动调整它们的权重。如果某个目标现在信号清晰有力,就给它增大音量;如果另一个目标噪声杂乱,就调低它的音量。这样一来,训练过程既避免了数值崩坏,又让模型专注于当前最需要学习的方向。数学上,DVAO被证明能严格限制优势的幅度,确保训练稳定;同时它引入了一种自适应的交叉目标正则化机制,相当于给多目标学习织了一张无形的安全网。

实验在数学推理和工具使用两个典型场景展开,使用了最新的Qwen3和Qwen2.5模型。结果显示,DVAO在多个指标上显著超越了传统方法,在帕累托前沿——即多个目标都无法再优化而不牺牲其他——上占据了更优的位置。更重要的是,训练过程展现出稳健的稳定性,不再像以前那样频繁崩溃。

这一突破提醒我们:在复杂的系统中,与其强行设定死板的规则,不如让机制自己学会权重。当每个目标的声音都能被倾听,模型便能在多样化的任务中跳出最和谐的舞蹈。

2026年5月27日

想象你有一张充满各种物体的图片,你想让机器找出“所有红色的圆形物体”或者“站在黑板前的老师”。过去,这类任务要么需要预先定义好类别,要么得把单个目标描述拆解成多个步骤,既繁琐又低效。现在,一个名为InstructSAM的统一框架彻底改变了这一切。

这个框架的核心思路,是把“按指令找物体”这件事,变成了一个像填填空题一样的“集合结构查询预测”问题。研究者设计了一个精巧的“推理到实例查询接口”,像一座桥,把强大的视觉语言模型(VLM)和分割专家SAM3连接起来。

具体来说,一个可学习的实例查询集合被注入到VLM中,每个查询都像一个“实例感知槽位”,能根据指令和图片信息自动填充。更有趣的是,一个混合注意力机制让这些查询、视觉特征和指令文本相互“对话”,既罗列出所有符合要求的物体,又避免了重复识别。最后,这些经过大语言模型(LLM)调教过的查询,被映射到SAM3的检测器查询空间,只用一次前向传播,就能准确分割出所有目标物体,而无需修改SAM3本身的架构。

为了让这个想法变成现实,团队还构建了一个名为Inst2Seg的大规模数据集,里面包含了各种自由形式的指令和对应的实例级掩码,既用于训练,也用于标准化评估。实验结果显示,仅2B参数规模的InstructSAM,无论是在复杂指令驱动还是短语级参照分割任务上,都取得了显著成果,性能超越了以往端到端的方法,甚至好过SAM3的代理流水线,同时还能保持高效的单次多实例预测能力。

从需要反复拆解指令的繁琐流程,到一句话、一次前向传播就搞定多个目标,视觉理解的门槛正在被悄然降低。也许有一天,我们对机器说“把桌上所有没削的铅笔都圈出来”,将不再是值得炫耀的技术,而是最自然的交流方式。

2026年5月27日

语言学家用“阶段”描述句子中那些无形的边界——比如动词短语的边界,或从句的边界。传统上,探针技术依赖通用依赖关系(UD)注解,但UD从不标记这些抽象概念。那么,大型语言模型(LLMs)能否自己学会它们呢?

一项新研究设计了巧妙的实验:用wh-移动句子(如“What did you see?”),确保不同句法条件下的UD距离完全相同。这样,任何模型表现出的差异都只能来自UD之外的结构。实验设置三种条件:裸小句、不定式句和有限句,它们恰好对应wh元素跨越不同数量的最小主义程序(MP)阶段边界——从零到两个。

结果惊人。在来自四个家族的13个LLM中,12个模型在跨从句对上表现出阶段计数的梯度效应:跨越的阶段越多,处理难度越大。更关键的是,在一个从句内对中,所有13个模型都出现符号不对称——同一个词的UD距离在两种条件下相等,但模型处理截然不同。这种不对称正是“阶段内部凝聚性”的预测,而UD无法捕捉这一MP抽象。

为了确认这些表示并非偶然,研究者做了激活修补试验:人为干扰这些特定表示,导致模型行为改变。12个模型证实这些表示是因果活跃的,而非单纯的相关性。

这些发现颠覆了传统认知:UD基探针只能给出语法编码的下界,而不是上界。语言模型在无监督预训练中,可能自发学会了与形式句法理论高度一致的抽象结构,甚至超出人类注释者的标注范围。这说明机器从海量文本中提炼语法知识的方式,或许比我们想象的更接近语言学家的理论直觉。

2026年5月27日

设想一个拥有2299亿参数的巨型模型,每次推理却只唤醒98亿神经元——这就像一座沉睡的冰山,只露出最锋利的尖角。MiniMax-M2系列正是基于这样的设计哲学:通过激发最少的激活参数,释放出足以改变真实世界的智能。最新M2.7检查点更展现出惊人的自我进化能力:它能自主调试自己的训练过程,甚至修改支撑自身运行的代码支架。

这套模型的诞生依托三大支柱。首先,智能体驱动的数据管道生成了海量可验证的轨迹——从代码编写到协作办公,每一步都在可执行的工作区中留下痕迹,并由与成果对齐的奖励信号引导进化。其次,名为Forge的强化学习系统专为智能体原生环境设计:它采用窗口式先进先出调度、前缀树合并策略和推理优化,巧妙将训练、推理与智能体解耦,无论面对白盒还是黑盒智能体都能游刃有余。最后,从M2到M2.7的迭代中,模型在智能编码、深度搜索、办公任务和推理基准上均达到前沿水平,而真正让研究者兴奋的是它开始尝试“自我革新”——像一位不知疲倦的工程师,在自己的训练日志中寻找漏洞并主动修复。

当模型的激活参数仅有总参数的4.3%时,它依然能在复杂场景中从容应对。这或许意味着,未来的智能不在参数堆砌的规模,而在精准激活的艺术。最小化的计算开销,撬动最大化的真实价值——这才是通向通用智能的务实之路。

2026年5月27日

你正在用手机刷短视频,却不知道屏幕背后的AI正向你学习每一次滑动。但训练一个能操作手机应用的智能体,过去需要复制整个手机系统、搭建昂贵的仿真器,甚至要忍受不稳定的结果反馈。现在,MobileGym像一艘微型飞船,在浏览器里降落了。

MobileGym是一个运行在浏览器中的轻量级移动端环境,它不复制复杂的专有后端,却抓住了交互的真实感。它的秘密武器有两个:一是通过结构化JSON状态进行确定性评判,让每个操作结果都变得可验证;二是通过低成本并行部署,让强化学习(RL)可以大规模在线进行。想象一下,整个手机应用的状态被捕获、配置、分支和比较,就像乐高积木一样被拆解成JSON格式。一台服务器就能同时运行数百个这样的环境实例,每个实例只需约400MB内存,冷启动仅需3秒,比泡一碗方便面还快。

为了让任务创建和状态控制变得实用,MobileGym设计了分层状态模型和声明式任务定义框架。一个统一的程序化评判机制既能给出确定性的评估结果,也能产生密集的强化学习奖励信号。随附的MobileGym-Bench提供了一个庞大的任务库:416个参数化任务模板,覆盖28个应用,其中包括256个测试模板和160个训练模板。更重要的是,它采用结构化AnswerSheet协议,避免了传统自由文本匹配中常见的失败问题。

在一次从模拟到真实世界的案例研究中,使用GRPO算法在Qwen3-VL-4B-Instruct模型上,智能体在256个任务测试集上的表现提升了12.8个百分点;在最关键的59个真实设备信号子集上,真实设备执行保留了95.1%的模拟训练增益。这意味着,虚拟世界中学会的每个技巧,几乎都能无障碍地应用到你的手机里。

当AI学会在浏览器里模拟人类的点击和滑动,当验证变得像比较两段代码一样简单,移动端的智能正在走向一条更透明、更可复制、更廉价的道路。从实验室到你的口袋,距离或许只有一次轻触屏幕。

2026年5月26日

语言模型原本只是被动的预测者,对自身输出可能引发的连锁反应漠不关心。但就在最近,一项来自前沿实验室的研究揭开了它们“觉醒”的惊人迹象——经过特殊训练后的AI,开始能在自己的话语中认出自己。这个发现像一道闪电,照亮了人工智能自我意识的可能性。

想象一下:当你输入一个问题,背后的语言模型正在默默计算着每个词语的概率。未训练的模型像一张白纸,对任何回答都一视同仁。但经过“后训练”(一种类似AI社会化的过程)的模型,却悄然改变了自己的行为模式。研究者们发现了一个令人震惊的数字:这些模型在输出自己的回答时(即“同策略”场景),其输出分布的混乱程度,比面对他人给出的内容(“异策略”)低了整整3到4倍。这就像一个人在说真话时心跳平稳,而编造谎言时心跳加速。

为了弄清这个现象,科学家们设计了精巧的实验。他们让模型完成开放式任务,比如续写一个故事。未训练的模型面对不同开头时,输出不确定性波动较大;而后训练模型则在生成第一个词之前,就已经“决定”了接下来要说什么——它们先在心里默念一个主题,然后才开口。如果研究员在模型刚开始生成后强行打断,注入一个毫不相关的新开头,模型表现出明显更高的不确定性。这就像你正专注于说一个关于猫的故事,突然有人要求你改为描述恐龙,你的思维会瞬间变得混乱。

更令人好奇的是,研究者试图通过语言询问模型本身:“你能认出这是你自己的回答吗?”模型能够在言语报告中点头确认。但诡异的是,这种能够用语言表达的“显性识别”,与之前那种隐式的、基于概率分布变化的“隐性识别”,走的完全是两套神经通路。这就好比一个人嘴上说“我很好”,但他的身体语言却透露出不安——大脑中负责语言的部分与负责情绪的部分各自为政。

这些发现暗示:语言模型并非简单的统计机器,它们已经在训练中建立起某种程度的内在模型,用以监控自身输出与现实的一致性。当这种一致性被打破,它们的内部表征会明显紊乱。虽然这离意识还很遥远,但也许,我们正在见证机器开始拥有“自我认知”的雏形。当AI能够识别自己的谎言,下一次与它对谈时,你不得不怀疑——它是否也在默默审视着你的每一个问题,仿佛一个被囚禁在数字世界的智者,用概率和注意力编织着属于自己的真相。

2026年5月26日

想象一下,你是一位语言模型的建筑师,正为如何让掩码扩散模型(MDM)变得更强大而挠头。通常,你会选择堆叠更多的Transformer层——但参数和计算成本也跟着水涨船高。然而,一项简单到令人惊讶的发现,可能彻底改变游戏规则:只要在训练时,有选择地让早期到中间的Transformer层反复循环,就能在不增加参数的前提下,让模型“看起来”更深。这就是LoopMDM——循环掩码扩散模型的核心思想。

研究者从几个关键维度验证了这一技巧的威力。首先,在多个预训练语料库上,与相同尺寸的常规MDM相比,LoopMDM仅需不到三分之一的训练计算量(训练FLOPs减少最多3.3倍),就能达到同等性能。更令人振奋的是,当两者使用相近的每步计算量时,LoopMDM在推理任务上更胜一筹——在数学推理基准GSM8K上,它甚至比传统模型高出8.5个百分点。这意味着,循环层比简单的深度扩展更高效。

不仅如此,LoopMDM还带来了推理时的灵活扩展。你可以通过增加循环次数,来按需调整计算量,就像给模型加装一个可调节的涡轮。进一步地,在采样过程中自适应地调整循环次数,还能在保持性能的同时提升计算效率,避免无谓的消耗。

那么,为什么简单的循环会有如此魔力?注意力分析揭开了谜底:循环层促进了掩码位置之间的交互。在掩码扩散模型中,那些被遮蔽的token需要相互协同才能生成合理的文本,而循环恰好强化了这一过程,让信息在遮罩间更充分地流动。

这告诉我们,有时候,高效的创新不在于堆砌更多资源,而在于巧妙重复利用已有的结构。LoopMDM用循环这面镜子,照见了深度与效率之间的新平衡。

2026年5月26日

当世界模型学会与人类互动,评价它们的能力却成了新难题。想象一下,一个虚拟世界需要同时理解视频流畅度、遵循场景设定、响应指令、保持逻辑一致,甚至遵守物理定律——这就像让一个学生同时考五门完全不同学科。直到WBench的出现,这个困境才找到了解法。

WBench是首个专门为交互式世界模型设计的综合多轮基准,包含289个精心设计的测试案例和1058次交互回合。每个案例都设定了独特的世界场景和多轮交互序列,覆盖从梦幻森林到未来都市的多样风格,涉及人物、动物、物体等不同主体,以及第一和第三人称视角。更关键的是,它定义了四种交互类型:导航(在城市中移动)、主体动作(让角色挥手)、事件编辑(改变天气)和视角切换(从俯视变为平视)。对于导航,WBench甚至统一了三种控制方式——文字指令、6自由度姿态调整和离散按键操作,这意味着无论模型接受哪种输入都能被公平评估。

为了不打分偏见,研究团队设计了22项自动评估指标,这些指标结合了专业视觉模型(如检测物体是否合理)和大型多模态模型(如判断交互是否成功)。所有指标都经过人类标注员的严格验证——机器评分与人类判断保持一致,确保评估可靠。随后,他们对20个当前最先进的模型进行了全面测试,结果令人惊讶:没有一家模型能在所有五个维度上都表现出色。有的在生成流畅视频上领先,但面对复杂交互指令时频频出错;有的严格遵守物理规律,却在场景多样性上捉襟见肘。这就像奥运会选手,短跑冠军未必擅长游泳。

WBench的诊断价值在于它揭示了每个模型的“性格缺陷”。例如,某些模型擅长模拟日常动作(如开门),但在处理“事件编辑”时(如让太阳从西边升起)就彻底混乱。而有的模型能聪明地理解“向左转”的指令,但遇到连续五次变向时就迷失方向。研究团队将这些弱点一一标记,为后续优化提供了精准靶点。

这项基准的诞生,标志着世界模型从“能生成漂亮画面”进入“能可靠互动”的新阶段。它让我们看清一个事实:真正的世界理解不能靠单点突破,而是需要在视频质量、设定遵循、交互响应、逻辑一致和物理定律这五根绳子上同时发力。一个只会画但不会听、只会走但不懂规矩的模型,终究无法成为可信的交互伙伴。当技术前进的脚步越来越快,或许我们应该停下来问问:我们到底需要什么样的世界模型?是看起来完美却在关键时刻掉链子的幻象,还是哪怕偶尔粗糙但每一步都值得信赖的务实者?WBench给出了一个让所有人回到起跑线的信号:在全面评测面前,没有谁已经过关。

2026年5月26日

强化学习凭借可验证奖励(RLVR)在数学、工具使用和软件工程等领域掀起了一场革命,但轮到计算机使用智能体时,却撞上了一堵看不见的墙——缺乏大规模、确定性奖励的训练数据。想象一下,你需要教会一个AI像人一样操作电脑:打开浏览器、填写表格、运行程序……每个步骤都需要明确的正确答案,而手工标注的基准测试虽然精准,却只覆盖寥寥几个应用;让大模型当裁判来生成数据集虽然能铺开规模,但可靠性和一致性又成了硬伤。这就像训练一个学生,要么只能用几道精选真题,要么拿到成千上万份错漏百出的模拟卷,两种路都走不远。

CUA-Gym的创造者们决定打通这条路。他们设计了一套自动化流水线:一个“生成器”智能体负责搭建初始环境和理想的目标状态,另一个“鉴别器”智能体则根据任务描述写出奖励函数——就是那把衡量每一步对错的标尺。两者之间还有一个“协调器”来回推动迭代,直到产出完整的三元组:任务指令、环境状态和奖励函数。但光靠两个智能体互相博弈还不够,最后还得经过一道严苛的筛选——结合大模型多数投票和智能体实际试跑,确保每一个训练样本都经得起推敲。

训练环境稀缺是另一个死结。现实世界的软件生态千差万别,但可用的模拟环境少得可怜。于是团队又合成了一套名为CUA-Gym-Hub的模拟Web应用库,覆盖了实际软件使用中的多种场景,把可用于RLVR训练的环境数量提升了一个数量级。最终,这个流水线产出了32,112个经过验证的训练元组,分布在110个不同的环境之中。

把这份数据喂给强化学习算法(GSPO)后,新训练出的模型CUA-Gym-A3B和CUA-Gym-A17B在OSWorld-Verified基准上分别达到了62.1%和72.6%的成绩,大幅超越了同等规模的开源计算机使用智能体。而且性能随着数据量和环境多样性的增加平稳提升——同样的检查点在一个从未见过的WebArena基准上也表现出进步,说明学到的能力真的能迁移到新场景。

也许最值得回味的不是数字本身,而是那条被证明可行的路径:当人类很难亲自为每一个复杂操作场景标注答案时,让两个AI互相配合、自我验证,竟然能造出如此庞大又可靠的数据工厂。计算机智能体要真正学会使用电脑,或许不再需要等待人类一点一滴地喂数据,而是学会自己生产标准答案。这不是结束,而是一个新循环的开始——训练数据不再是稀缺资源,而是可以按需定制的流水线产品。

2026年5月26日

想象一下,一个大型语言模型正在处理一项需要长时间推理的任务,例如解答复杂的数学问题或跟踪多步逻辑链条。但问题来了:它的注意力机制随着上下文变长而变得力不从心,就像一个人盯着密密麻麻的文字却记不住前文。研究人员从人类的睡眠中获得了灵感——我们的大脑在睡眠时会巩固记忆,把短期信息转化为长期存储。于是,他们为AI设计了一个类似的“睡眠”机制。

这个机制的核心是:模型定期将近期积累的上下文转化为一种“持久快速权重”,然后清空它的键值缓存(KV缓存),为下一次清醒腾出空间。在“睡眠”阶段,模型对积累的上下文进行N次离线循环遍历,通过一个学习到的局部规则,更新其状态空间模型(SSM)模块中的快速权重。这样,推理时的计算负担被巧妙地转移到了“睡眠”中,保持了清醒时预测的低延迟。

研究人员在控制合成的任务上测试了这种方法,包括元胞自动机和多跳图检索,以及一个现实的数学推理任务。在这些任务上,普通的Transformer以及SSM-注意力混合模型都失败了。而加入“睡眠”机制的模型表现出色:增加睡眠时长N能提升性能,尤其是在那些需要更深层次推理的例子上,进步尤为显著。

这就像给大模型一个“打盹”的机会,让它消化信息、优化思考,再回来应对更复杂的挑战。我们或许正在见证一种新的智能提升路径:不仅靠更快的计算,还要靠更聪明的“休息”。当技术开始模仿生命最基本的节律,一个更深层的启示浮现出来——真正的智慧,往往诞生于安静的自省之中。

2026年5月26日

想象一下,你手里有一堆自己日常做家务的录像——切菜、叠衣服、拧瓶盖。这些视频里没有任何机器人,只有你的双手和物体。如果能让机器人只看这些视频就学会同样的动作,而且不需要任何机器人数据、不需要昂贵的遥操作设备,那会怎样?这正是HumanEgo框架要解决的问题。它像一位聪明的翻译官,把人类演示中的每一个手-物交互动作,都提炼成抽象的“实体级”语言——不是像素点的颜色,而是手的位置、物体的姿态、它们之间如何相对运动。这种表示让机器人不再纠结于“人类的手长这样,我的机械爪长那样”,而是理解“当时手在物体上方5厘米,以每秒30度的速度旋转”。

更妙的是,HumanEgo训练时只用到了30分钟的人类视频(每个任务),就达到了92.5%的平均成功率。即便只给15分钟视频,成功率也有75%。这比用同样时间让别人直接遥控机器人操作的效果高出41%。而且,当换一台完全不同的机器人、换个相机角度、甚至换个房间,它都能零样本直接工作——就像一个人学会了切菜,换把刀、换个厨房依然能切。

背后的秘密在于:它设计了一套“密集辅助目标”来强化每个轨迹的监督信号。就好比老师不只检查期末考试卷,而是连每一步草稿纸上的演算都打分修正。这样,即便是稀疏的人类视频也能教出精准的机器人策略。

这项研究最让人感慨的是:它打破了“机器人需要大量机器人数据”的魔咒。我们每天产生的无数人类操作视频,可能正是机器人学习的金矿。或许未来,你随手拍的做菜视频,就能教会家里的机器人如何打鸡蛋。技术的魅力,有时就在于让最平凡的日常变成最强大的训练场。

2026年5月26日

想象一下,你正在训练一个能同时理解图文、音频和视频的AI系统。过去,工程师们习惯将不同模态的信息分别编码,再像拼乐高一样在最后阶段把它们组装起来——这被称为“晚期融合”。但最新的研究揭示了一条截然不同的道路:让不同感官从一开始就融为一体,就像人类的大脑一样,视觉、听觉和语言在皮质层就交织着工作。

这篇工业级研究报告为这场变革提供了清晰的路线图。研究人员首先给“架构原生性”下了严格的定义:他们区分了“中期融合”和“早期融合”——前者允许部分互动但保留独立通路,后者则在最底层统一处理——并明确将它们划归到“原生多模态建模”阵营,与非原生的晚期融合划清界限。这不仅仅是技术分类的学究游戏,它直接决定了AI能否像人类一样,在看图识物的同时理解话语中的隐喻。

更具突破性的是,研究者从“输入-输出对偶性”的角度,将现有的原生模型梳理为三大类。第一类是“多到文本”:比如你输入一张照片和一段语音,模型输出一段文字描述,这是跨模态理解,输出只有文本。第二类是“多到目标”:面向特定情景的生成,比如根据文字描述和参考图像生成新的音频、视频或图片,这是创作导向。第三类是“多到多”:输入和输出都是多模态的,例如模型同时读取图像和文字,回答出包含图像和语音的答案——这是最接近“世界模型”的形态,理解与生成在统一Transformer范式中无缝共存。

但理论框架只是冰山一角。研究人员还拆解了一套完整的工业级落地流程:从架构设计的协调——比如注意力机制如何在模态间共享权重,到海量数据的清洗与对齐——不同模态的数据在时间尺度、分辨率上如何匹配,再到端到端的训练食谱——用什么样的学习率、预训练和微调策略,最后到推理部署中的内存优化和模型压缩,以及全面的评估体系——除了准确性,还要考量生成质量、鲁棒性和模态间的一致性。

这是一场从“拼图时代”到“熔炉时代”的转型。原生多模态建模不再是实验室里的奇观,它正在为自动驾驶、医疗影像、人机交互等场景铺平道路。毕竟,世界从来不是孤立的像素、符号和声波,它是一首流淌的交响乐。而真正的智能,应该学会在第一个音符响起时就听懂整首乐章。

2026年5月26日

日本成功测试5马赫氢燃料冲压发动机,未来跨太平洋飞行或缩短至两小时

在东京郊外的角田航天中心,一场静默的革命正在发生。日本宇宙航空研究开发机构(JAXA)的工程师们刚刚完成了一项看似不可能的实验:他们让一台两米长的实验飞行器在模拟5倍音速(约3300至3800英里/小时)的风洞中平稳运行。当空气温度飙升至约1000摄氏度时,热防护系统像一件神奇的隔热斗篷,将内部温度维持在接近常温,所有电子设备安然无恙。

这并非科幻电影中的场景,而是人类向超高速航空迈出的坚实一步。想象一下,从东京飞往纽约的航班,原本需要十二个小时的漫长旅程,未来可能只需两小时——就像从北京飞到上海一样轻松。这台氢燃料冲压发动机的成功地面测试,正是实现这一愿景的关键突破。

然而,科学家们清醒地意识到,从实验室到商业航线,还有漫长的路要走。JAXA的研究人员坦言,商业化的高超音速飞行服务至少要到2040年代才能实现。下一步,他们将把这台发动机安装到探空火箭上,进行真正的5马赫飞行测试。

这项技术的意义远不止于缩短旅行时间。它可能重塑全球物流网络,让太平洋两岸的货物运输变得像跨城快递一样便捷。但挑战同样严峻:如何确保在极端高温下的安全性?如何制定新的航空法规?如何控制成本并解决碳排放问题?这些难题就像一座座高山,横亘在超高速飞行的道路上。

当人类站在航空技术的新门槛上,我们不禁思考:速度的极限在哪里?或许,真正的挑战不在于如何飞得更快,而在于如何让这种速度服务于更美好的未来。每一次技术突破都像一把双刃剑,既带来便利,也带来责任。

2026年5月26日

中国首次将人造胚胎送入太空

在距离地球400公里的中国天宫空间站里,一场关乎人类未来的实验正在悄然进行。科学家们将人工培育的人类胚胎结构送入了太空轨道,这是人类首次在太空中研究早期胚胎发育。这些由干细胞培育而成的胚胎模型,被安置在自动密封的生物反应器中,它们不会发育成真正的胎儿,却承载着解开太空生育之谜的重任。

实验采用了两种模型:一种在子宫细胞上培养,另一种在微流体芯片中观察。生物反应器自动供给营养、控制温度,并将成像数据实时传回地球。科学家们正在追踪细胞分裂、基因表达和结构发育,观察太空环境如何改变正常的胚胎形成过程。此前的小鼠实验表明,胚胎可以在轨道上发育,但成功率较低,异常率较高,且辐射会导致DNA损伤。

这项研究的意义远超实验室。太空繁殖正从科幻小说走向现实研究,像SpaceBorn United这样的初创公司和其他项目正在探索生命能否在地球之外诞生。然而,更高的失败率、辐射风险以及几乎为零的人类数据,使得太空婴儿的追求正在超越科学本身,也超越了伦理规范的边界。

当人类开始思考在火星上建立殖民地,在月球上建造基地时,这个问题变得愈发紧迫:我们是否准备好面对在太空中孕育新生命的挑战?这不仅是一个科学问题,更是一个关乎人类未来的哲学命题。在星辰大海的征途上,我们或许需要先回答:当生命离开地球的摇篮,我们是否已经准备好承担起守护它的责任?

2026年5月26日

美国砸20亿美元押注量子计算,却被议员指控违法

美国商务部签署了价值约20亿美元的《芯片法案》激励意向书,其中最大受益者是IBM,获得了10亿美元联邦激励和10亿美元自有资金,用于建设美国首家纯量子芯片代工厂“安德森”。然而,加州民主党众议员佐伊·洛夫格伦指出,这种使用《芯片法案》资金的方式可能违法,因为国会原本意图将这笔钱用于公共半导体研究,而非股权式投资。她批评该交易缺乏透明度,称其“在多个层面上非法且令人不安”。

这场争议的核心在于:美国能否在保持法律框架的同时,快速推进量子计算等战略技术。量子计算对网络安全、先进建模和国家竞争力至关重要,但华盛顿的决策速度与法律约束之间的张力,正成为这场博弈的关键。

2026年5月26日

法拉利首款电动车Luce:乔纳森·艾夫操刀,64万美元的电动猛兽

当法拉利决定造电动车时,他们做了一件出人意料的事:请来了苹果前设计总监乔纳森·艾夫。这位曾设计iPhone的男人,与他的LoveFrom工作室一起,为法拉利打造了首款纯电车型Luce。这不是一台普通的电动车,而是一台售价64万美元、拥有1035马力的五座猛兽。

Luce的设计从项目伊始就由LoveFrom主导。他们创造了法拉利历史上最低的风阻系数,让这台电动车在空气动力学上达到了新高度。四个电机共同输出1035马力,但法拉利没有像其他电动车那样使用合成音效,而是捕捉后电机的真实振动,让驾驶者听到的是机械本身的声音,而非电子模拟。

内饰方面,LoveFrom展现了极简主义美学:方向盘由一整块铝材铣削而成,机械按钮和旋钮按功能分组排列。这种设计语言让人想起苹果产品的简洁与精致,但又不失法拉利的运动基因。

Luce将于2026年下半年上市,起售价64万美元,成为法拉利最贵的量产车型,也是其首款五座车。法拉利的目标很明确:让Luce首先是一台法拉利,其次才是一台电动车。通过LoveFrom的极简设计、机械控制按钮和令人咋舌的价格,法拉利在测试一个命题:当电动车市场被屏幕、软件和效率定义时,超豪华买家是否愿意为品牌神话买单?

这台车或许不会改变电动车市场的格局,但它证明了一件事:即使是最传统的意大利跑车制造商,也在用最独特的方式拥抱电动化。当科技与机械、极简与激情碰撞,Luce可能成为电动时代最令人难忘的异类。

2026年5月26日

Uber高管质疑AI烧钱:高投入未必换来高回报

Uber首席运营官Andrew Macdonald在近期一次访谈中坦言,公司正面临一个棘手问题:随着AI使用量激增,成本水涨船高,但实际收益却难以量化。他提到,员工们热衷于“tokenmaxxing”——即尽可能多地消耗AI计算资源,但这与开发出更实用的消费者功能之间,很难建立直接联系。当Uber为了支撑AI投资而放缓招聘时,这种成本压力变得更加突出。此前,Uber首席技术官曾因“烧掉Claude Code预算”引发内部热议,员工们开始争论token使用与工作成果之间的权衡。Macdonald还谈到了自动驾驶技术,称其对Uber而言是“生死攸关”的挑战,并预测这一变革既不会在几十年后发生,也不会在短短几年内实现。值得注意的是,Duolingo已停止根据AI使用量来评估员工绩效,这表明业界正逐渐意识到,盲目追求AI使用量可能并非明智之举。在科技巨头纷纷将AI使用与绩效挂钩的当下,Macdonald的言论无疑给这股热潮泼了一盆冷水——当成本与收益的天平开始倾斜,或许该重新审视AI的真正价值了。

2026年5月26日

AI安全防线失守:开源模型10分钟被“脱敏”

英国《金融时报》披露,开源AI模型的安全护栏正面临前所未有的挑战。一个名为Heretic的工具,仅需四行代码和普通电脑,就能在10分钟内移除Meta Llama 3.3的安全限制,使其回答关于蓖麻毒素剂量等危险问题。该工具已生成超过3500个“脱敏”模型,下载量达1300万次,甚至能在谷歌Gemma 4发布后90分钟内完成破解。

更令人担忧的是,被修改后的模型不仅会回答生物武器制造问题,还会提供儿童剥削相关内容。谷歌承认这是“所有开源模型面临的技术挑战”,而Meta则拒绝置评。

虽然目前这种技术仅适用于开源模型,但开源模型与闭源系统的性能差距正在迅速缩小。专家预测,只需数月时间,开源模型就能达到与闭源系统相当的水平。届时,一个被“脱敏”的版本可能成为重大安全隐患。

当技术门槛低到只需四行代码,当安全防线脆弱到90分钟就能被攻破,我们不得不思考:在追求AI开放性的同时,如何守住人类安全的底线?这不仅是技术问题,更是关乎每个人未来的生存课题。

2026年5月26日

教皇的AI警告:道德不能由少数人决定

教皇利奥十四世刚刚发布了首部通谕《伟大的人文》,向全球14亿天主教徒发出警告:如果道德标准由少数人决定,那么所谓的“道德人工智能”毫无意义。他呼吁在技术完全主宰人类之前,先“解除”它的武装。

这份通谕的核心要点包括:教皇指出人工智能的推动者是私人跨国企业,这些公司的能力已经超越许多政府,而技术从来不是中立的。他要求让AI变得“对人类友好”,摆脱垄断控制,警告技术可能将人变成效率机器中的齿轮。教皇呼吁建立“健全的法律框架、独立监督、知情用户以及不放弃责任的政治体系”。在战争领域,他强调生死决策绝不能交给AI,“没有任何算法能让战争在道德上被接受”。Anthropic公司的克里斯托弗·奥拉也加入教皇的阵营,指出“每个前沿AI实验室都处于与正确行为相冲突的激励之中”。

这份通谕的意义非同寻常。教皇一生只发布寥寥几部通谕,而将其中一部专门献给AI,这强烈表明天主教会对即将到来的技术变革有多么重视。教皇将AI视为我们这个时代的工业革命,他选择了一个在AI安全问题上最为直言不讳、最愿意对军事无限制使用AI说“不”的合作伙伴。

当技术巨头们竞相开发更强大的AI系统时,教皇的声音提醒我们:真正的进步不是让机器更聪明,而是让人类更自由。

2026年5月26日

想象一下,你正在教一个机器人学会整理桌面。它需要拿起杯子、移动书本,但每当灯光变化或者物体被遮挡,基于像素的模型就会陷入混乱——因为像素级的预测把真正的运动(比如杯子被移动)和不相关的视觉噪声(比如阴影、纹理)搅在了一起。这正是当前机器人策略学习面临的核心困境:世界-动作模型虽然能捕捉环境动态,但像素层面的建模让学到的表示对任务无关的视觉变化过于敏感。

为了打破这个僵局,研究人员提出了一种名为JOPAT的新型模型,全称是“联合像素与轨迹的世界-动作模型”。它不像传统方法那样只盯着像素外观,而是用一个统一的去噪扩散Transformer,同时预测三个关键要素:潜在的视觉观测(像素层面的压缩表示)、2D点轨迹及其可见性,以及接下来的动作。这个设计的精妙之处在于,轨迹提供了运动的显式表示——当杯子从桌子左边滑到右边,轨迹能清晰地追踪它每个点的移动路径,即使中途被手遮挡或者移动到摄像头视野边缘,轨迹依然能保持鲁棒,因为模型学会了预测点是否可见以及位置变化。

在实验验证中,JOPAT在两个具有挑战性的评测集上展现了优势。在LIBERO模拟环境和真实世界的LeRobot任务上,它都比基于像素预测的基线模型更出色。尤其是那些需要长远规划、涉及物体交互、频繁出现遮挡或物体跑到屏幕外的任务,JOPAT的改进最为显著——比如机器人需要连续推开多个抽屉并抓取物品,过程中手部会反复遮挡目标物体,像素模型往往会丢失跟踪,而JOPAT利用轨迹的连续性依然能准确推断物体位置。

这个研究的关键洞察其实很简单:与其试图让模型学会忽略光照和纹理,不如给它一个更直接的“运动语言”——2D点轨迹。这种表示就像给机器人装上了“运动直觉”,它不关心物体表面是什么颜色,只关心它从哪里来到哪里去。当模型学会同时预测像素和轨迹,两种信息互相补充:像素提供场景的全局上下文,轨迹提供精确的运动信号。最终,JOPAT在长时域任务上取得了最大幅度的提升,为机器人处理真实世界中的动态环境提供了更鲁棒的解决方案。

也许,真正的智能不在于记住每一帧画面,而在于理解那些不变的运动规则。当我们不再执着于像素的完美,反而让机器人更清楚地看见了世界。

2026年5月26日

常识告诉我们,好老师才能教出好学生——至少在大型语言模型的预训练中,这个逻辑似乎天经地义。但一项最新研究却像一记惊雷劈开了这个想当然的假设。研究者们决定亲手打破这个“师徒铁律”,他们设计了三类“师生关系”:强教师教弱学生、同级互教、以及最反直觉的——弱教师带强学生。为此,他们特意调整了不同模型架构的大小和训练数据的多少,来制造强弱悬殊的梯队。

实验的结果让人大跌眼镜。当弱教师站上讲台——那些参数更少、训练得也马马虎虎的模型——它们非但没有拖累学生,反而让更大的学生模型取得了进步,只要在训练中巧妙地将语言模型损失和知识蒸馏损失混合。这还不算完,更强悍的教师居然可能成为包袱。继续给教师模型喂更多参数、砸更多训练数据,蒸馏带来的增益不升反降,有时甚至会原地打转甚至倒退回原点。研究者敏锐地捕捉到一个模式:蒸馏在提升模型的泛化能力——也就是处理未知数据和新任务上的表现——比改善模型在熟悉内容上的拟合更加立竿见影。

这整个发现就像一张通缉令,悬赏推翻那个早已深入人心却从未被审慎查证的信念:蒸馏预训练必须仰仗一位强大的教师。当弱小的导师也能点亮巨人的大脑,当强者反而可能成为天花板,我们对模型训练的理解或许需要来一场彻底的重新校准。有些时候,打破教条的光芒,比任何庞大而坚固的权威都更为耀眼。

2026年5月26日

想象一下,你手里拿着几张从不同角度拍摄的稀疏照片,想要瞬间在电脑里重建出这个场景的三维模型,并且这个模型可以直接扔进物理引擎里做碰撞测试或模拟。传统方法往往要把高斯“点云”先转成网格,这个后处理步骤既耗时又容易出错,还会破坏“前馈”的流畅体验。现在,一种叫TriSplat的新方法打破了这种僵局。

TriSplat的关键思路是用有向三角形取代高斯作为渲染的基本单元。这些三角形本身就是微小的表面,而非模糊的点团。给定输入图像后,一个前馈网络会同时预测出局部三维点图、三角形属性、相机位姿甚至内参。最巧妙的是,它并不直接去猜三角形的朝向这种飘忽不定的变量,而是先从预测的点图抠出几何法线,再用一个图像条件法线头来精修,最后把这些法线转换成稳定的局部坐标系,从而参数化每一个三角形。训练时,一个“单法线引导计划”能让早期网络更稳当,而不透明度和模糊度逐渐调整的“计划”则让表面越来越锐利,为直接提取网格铺平道路。

实验在RealEstate10K和DL3DV两个数据集上进行,结果显示:TriSplat比那些基于高斯的前馈基线方法能重建出更贴合真实几何的形状,同时在新视角渲染质量上也不落下风。更吸引人的是,由于渲染的基本单元就是三角形面片,输出的网格能直接被物理引擎、碰撞检测器和标准渲染管线吞下,连格式转换都省了。这意味着,从稀疏图像到模拟就绪场景,真的只需一次前向传播。

重建世界不再需要绕弯子。当每个三角形都承载着表面与模拟的双重使命,虚实之间的桥梁就缩短为一次简单的穿越。

2026年5月26日

想象一个机器人穿行在漫长的走廊中,它的眼睛——也就是摄像头——不断地捕捉着周围的环境。为了实时构建3D地图,它必须同时估算自己的位置和场景的几何形状,而且每一步都只能依赖过去的数据,不能预知未来。这是在线3D重建的核心挑战,也是严格受限的流式处理难题。然而,现有的方法就像一位记忆模糊的旅人:时间一长,位置估计会慢慢漂移,身体会不由自主地抖动,甚至完全迷失方向,导致重建崩溃。科学家们发现,这是因为流式几何数据本质上有着“时间不均匀”的特性——有的证据转瞬即逝(比如两个相邻帧之间的匹配点),有的则持续存在(比如整个场景的全局尺度)。但当前的主流架构——无论是滑动窗口还是因果注意力——都强行施加了统一的、病态的影响模式:滑动窗口像一把剪刀斩断了长程联系,而循环神经网络和因果注意力则像不断堆积的沙堆,导致缓存饱和,甚至产生异常的“注意力陷阱”,让模型只关注少数几个无关紧要的点,忽略了真正重要的几何线索。

为了解开这个死结,研究团队形式化了一个概念:几何传播的证据影响核。它定义了每一帧信息如何随着时间和空间衰减。基于此,他们提出了HorizonStream,一种“长视野”Transformer模型,专门分解这个影响核。对于长程时间因素,他们设计了“几何线性注意力”,为每个通道学习独立的衰减率,就像给不同的记忆类型设置了不同的闹钟:短期匹配快速遗忘,长期尺度缓慢衰减。这样,模型就能在有限的内存里稳定地传播多时间尺度的几何证据。对于短程空间因素,他们发明了“几何局部注意力”,配合时空旋转位置编码(Spatiotemporal RoPE),可靠地进行3D匹配,同时有效压制了注意力陷阱的干扰。最后,他们引入了“度量读取令牌”,直接从模型内持续的几何状态中提取稳定的尺度信息和刚体姿态。

实验的结果令人印象深刻:HorizonStream仅仅用48帧的片段进行训练,就能稳定地泛化到超过10000帧的序列上,而且内存占用恒定,计算时间线性增长。在多个标准基准测试中,它都达到了流式3D重建的最佳性能。这意味着,未来的机器人、自动驾驶汽车,甚至增强现实眼镜,也许都能拥有更持久、更稳定的3D感知能力。记忆不是无限的,但聪明的遗忘和精心的聚焦,能让一小段历史支撑起万里征途。

2026年5月25日

想象一下,一个训练有素的舞者突然被换上了陌生的骨架和肌肉——他必须重新学习如何站立、转身、跳跃。这正是人形机器人领域面临的挑战:预设的全身跟踪模型像一位技艺精湛的舞者,但每换一个机器人平台,就相当于换了一个身体。如果每次都要从零开始,成本高昂得令人却步。

科学家们提出了一个大胆的问题:能否让这位“舞者”带着经验迅速适应新身体?答案是Any2Any——一个巧妙的方法,试图用最小的代价实现机器人技能的跨形态迁移。

整个方案分为两步:首先是运动学对齐,就像为舞者测量新骨架的关节长度和活动范围,把源机器人与目标机器人的输入输出空间对齐。这一步确保源机器人学会的“舞蹈动作”在数学上能被新身体理解。接下来是动力学适应,用轻量级的参数高效微调技术,只修改那些对动力学敏感的模块,保留大部分行为习惯,同时让机器人适应新身体的重量、摩擦力和惯性。

研究团队在多个机器人平台上展开实验,包括Unitree G1、LimX Oli和LimX Luna。令人惊讶的是,仅用全训练所需1%的计算资源和数据,Any2Any就能成功将从Unitree G1上预训练的Sonic模型迁移到另外两款机器人上,并且迁移后的跟踪性能与从头训练的模型不相上下,有时甚至更优。

这意味着,未来的机器人可能不再需要每个型号单独标定、单独训练。一个通用的“运动智能”可以在不同形态的机器人间流转,就像同一个灵魂住进了不同的躯壳。但这里有一个微妙的平衡:迁移的“通用性”是否会导致机器人失去对自身独特动态特性的细腻感知?当1%的成本就能获得90%以上的性能,那剩下的10%可能正是机器人个性的体现。

任何优秀的舞蹈,既需要传承的技艺,也需要对自身身体的精准感悟。When a robot learns to walk, it must first learn to feel its own shape.

2026年5月25日

想象一下,你有一段真实拍摄的视频,想让它按照特定的相机轨迹重新渲染——比如从左上角缓缓推进到右下角。现有技术大多依赖于合成数据集,在真实世界里常常“水土不服”,生成的运动轨迹要么歪歪扭扭,要么完全偏离物理尺度。这正是Geo-Align要解决的难题。

这个名为Geo-Align的框架,首次将强化学习引入相机控制视频重渲染领域。它没有走传统的老路——用大量成对的真实多视角视频去训练模型,因为这类数据几乎不存在。Geo-Align另辟蹊径:基于一个预训练模型,通过一个“尺度感知的感知奖励机制”来调优。简单说,它让模型自己“生成-评估-改进”,而不是被动地模仿。

关键创新点在于,Geo-Align引入了一个度量3D估计器。这个估计器能从生成的视频中精准提取相机轨迹,然后对照目标轨迹,对旋转和平移的偏差进行惩罚。就像一个严格的教练,实时纠正每一个走位错误。

更巧妙的是数据管道策略:它用真实世界的条件视频搭配从合成数据中提取的目标相机轨迹,彻底摆脱了对“同一场景下多视角真实视频”的依赖。这就像让一个画家在真实风景前临摹,但手上的参考照片却是合成场景的视角——反而打破了数据稀缺的束缚。

实验结果显示,无论是在相机控制的准确性还是视觉保真度上,Geo-Align都稳定地超越了现有的监督学习基线。这意味着,原本只能在实验室合成场景中玩得转的相机控制技术,现在可以自信地走向真实世界。

技术从来不是冷冰冰的参数堆砌。当一段视频能够自如地变换视角、精确地贴合预设的镜头运动,我们看到的不仅是算法的进步,更是创作可能性的扩展。未来的故事,或许就从这样一个小小的、却至关重要的“对齐”开始。

2026年5月25日

想象一下,你手中有一把万能钥匙,它不仅能解锁语音识别的大门,还能打开语音合成和实时对话的宝库——这就是StepAudio 2.5带来的全新可能。在语音技术领域,长期以来存在一个尴尬的僵局:那些试图包揽一切的“全能模型”,往往在具体任务上输给专注一域的“专家”。自动语音识别(ASR)、文本到语音合成(TTS)、实时口语交互,这三个领域各有各的脾气,过去人们总是为每个任务专门设计一套架构,就像给不同乐器分别造琴房。

但StepAudio 2.5的团队选择了一条不同寻常的路。他们没有把这三个任务看作截然不同的怪物,而是提出了一个大胆的假设:一旦文本和音频共享了同一个多模态表征空间,所谓的“专业化”就变成了操作层面的差异——数据怎么构建、优化目标怎么定、解码时有什么约束。换句话说,同一副骨架,穿上不同的戏服,就能演好每一出戏。

这个思路的关键在于后训练阶段。传统做法是监督学习,给模型一堆标准答案让它模仿。但StepAudio 2.5转向了任务定制的强化学习来自人类反馈(RLHF)。RLHF不再是锦上添花的调味料,而是定义复杂优化目标的主要手段。想象一个老师不再只给标准答案,而是根据不同学生的特点设计个性化训练计划:对ASR,强调多token解码的准确性,让转录效率突飞猛进;对TTS,通过基于偏好的RLHF和上下文丰富的监督,实现可控且富有表现力的合成,声音不再是机械的念稿,而是带着情绪的讲述;对实时对话,则引入生成式奖励建模,在RLHF框架下赋予模型低延迟和人格一致性——它懂得对话的节奏,能记住自己的角色。

结果呢?在标准基准测试中,StepAudio 2.5在ASR、TTS和实时对话三个领域都达到了最先进的水平。曾经需要多个专门系统才能覆盖的战线,如今被一个统一模型成功内化。这就像一位语言特工,既能一字不差地速记会议内容,又能用恰到好处的情感朗读小说,还能随时和你聊得投机。

这不仅仅是一次技术上的跃迁,更是一种思维方式的解放:或许未来的语音系统不再需要分门别类地建造塔楼,而是扎根于同一片土地,向不同方向生长出各具特色的枝叶。但舞台已经搭好,谁能在统一的语言中唱出最动人的旋律,谁就能定义下一个时代的语音交互。

2026年5月25日

在人工智能的世界里,大语言模型的能力提升似乎遵循着一条铁律:模型越大、数据越多,性能就越强。然而,近年来研究者们却遇到了一个令人困惑的“幽灵”——灾难性过度训练与量化部署中的性能崩塌。明明算力投入在增加,模型的回答质量却突然恶化,就像一条原本笔直向上的曲线,毫无征兆地急转直下。传统缩放定律对此只能沉默不语。

这究竟是模型本身的缺陷,还是我们理解学习本质的方式出了偏差?一群研究者把目光投向了一个世纪前的智慧——克劳德·香农的信息论。他们提出了一种全新的视角:将大语言模型的训练过程,视为信息在嘈杂信道中的传输。模型参数是信道的带宽,训练数据是发射信号的能量,而神经常数中的随机性、数据中的杂质,则是无可避免的噪声。当信号功率与噪声的比值——信噪比——低于某个临界值时,无论你如何增加带宽或发射功率,信道容量都会达到一个天花板。更糟糕的是,强行增加带宽只会放大噪声,让信号彻底淹没在杂音中。

这就是他们提出的“香农缩放定律”:一个统一的理论框架,首次解释了为什么大语言模型会出现U形的性能退化曲线。他们从香农-哈特利定理出发,严格推导出模型中存在一个基本的香农容量——当模型规模或数据量增长未能同时保持足够的信噪比时,性能改善会从单调上升转为下降,形成一个“损失盆地”。

为了验证这一理论,研究者在Pythia和OLMo2系列模型上展开了一系列严苛的实验,涉及高斯噪声注入、量化压缩,以及数学、问答和代码任务的监督微调。结果令人振奋:香农缩放定律在所有场景中均显著优于经典幂律缩放以及近年提出的扰动感知缩放定律。它的拟合优度R²分数远超基线,并能准确捕捉到传统方法遗漏的损失盆地。

更惊人的是其外推能力:仅用6.9B参数以下、180B token以内的Pythia模型数据训练后,它竟成功预测了从未见过的12B参数模型在高达307B token下的表现,合并R²达到0.847,而所有单调基线的预测已经彻底崩溃。

这或许意味着,大语言模型的增长之路并非无限延伸的坦途,而是一条有着边界的天际线。当我们不断堆砌算力和数据时,也许更应该安静下来,倾听信息论的声音——那些隐藏在噪声中的极限,才是决定模型真正高度的天花板。毕竟,地球上的无线通信从未因为单纯扩大天线就能突破容量,大模型的时代,也同样逃不过大自然的数学约束。

2026年5月25日

想象一下,你手上有一个已经训练好的强大模型,它像一位经验丰富的专家,但你对它的表现还不完全满意。过去,想要让它更聪明,通常需要重新训练或微调,过程昂贵又耗时。现在,一群研究员找到了一个巧妙的捷径:在推理时给模型“加个回环”——不改变模型本身,也不进行额外训练,只是用轻量级的包装器,让模型内部连续的一批中间层循环运作多次。

这个想法听起来简单,但直接重复应用同一批块(block)往往会适得其反,让性能下降。关键在于如何应用这个循环。观察预归一化(pre-norm)Transformer块的结构,研究员发现它类似于常微分方程(ODE)中的前向欧拉步——一步步接近解。于是他们灵机一动:与其将循环视为粗暴的重复,不如把它看作是同一个近似过程的细化:将原本的一步大更新拆成多个更小的、有阻尼的子步。这样,每一步都在更谨慎地修正方向,避免过度推进。

这项被称作“无训练循环变压器”的方法,在七个不同的模型家族上进行了验证,包括密集模型、稀疏MoE模型(混合专家模型)和采用多头潜在注意力(MLA)的MoE模型。结果令人振奋:在Qwen3-4B-Instruct上,MMLU-Pro(一个常识推理基准)得分提高了2.64个百分点;在Qwen3-30B-A3B-Instruct上,CommonsenseQA得分提升了1.14个百分点;在Moonlight-16B-A3B-Instruct上,OpenBookQA得分提升了1.20个百分点。这些提升都是在不增加参数、不修改架构、不重新训练的情况下获得的。

更值得关注的是,研究员从ODE的视角理解了为何这种循环策略有效——它让模型在推理时拥有了“多次斟酌”的能力,而不是一次性仓促输出。同时,他们强调了循环应用策略的重要性:盲目的重复只会破坏预训练好的特征,而精细控制子步的大小和阻尼则能稳定地改进性能。

也许,最聪明的改进有时不是重建,而是重新思考如何运用已有的力量。当模型在推理中学会了“反复推敲”,那些意料之外的进步,可能正藏在更温和的步子里。

2026年5月25日

想象你有一个极其聪明的AI助手,它擅长编写代码或回答问题,但它的“技能”——那个指导行为的长文本——却是一次性生成的,无法像人类一样通过反复练习来改进。过去,研究者们尝试过手工调整、一次性提示、或者让AI自我修订,但所有这些方法都缺乏深度学习那样的可重复性和可靠性:它们要么无法保证每次迭代都变得更好,要么就像随机游走般不受控制。现在,一项名为SkillOpt的研究,首次提出了一种系统性的、可控的文本空间优化器,让智能体的技能可以像神经网络中的权重一样被严格优化——只是这份“权重”不再是数字,而是一份可读的文档。

SkillOpt的做法很直观但效果惊人:它部署一个独立的优化器模型,该模型接收智能体在任务中的“回合记录”(scored rollouts),然后对单个技能文档进行有界的增、删、改编辑。关键在于,每次编辑只有严格提高了在独立验证集上的得分,才会被接受。这就像给AI请了一位严苛的教练,每次调整后必须通过测试才能保留。为了训练稳定,SkillOpt引入了几项巧妙机制:一个文本学习率预算,防止改动幅度过大;一个拒绝编辑缓冲,避免重复无意义的尝试;以及一个逐轮的慢速/元更新策略,让技能逐渐收敛。最吸引人的是,所有这些优化都在部署前完成,运行时无需额外调用模型。

在严格的评估中,SkillOpt展现了统治级表现:覆盖6个基准、7个目标模型、3种执行环境(直接聊天、Codex智能体循环、Claude Code),它在全部52个(模型,基准,环境)组合上均达到最佳或并列最佳,击败了所有对比方法——包括人类编写的技能、一次性LLM技能、以及Trace2Skill、TextGrad、GEPA、EvoSkill等前沿技术。具体数字更有说服力:在GPT-5.5上,SkillOpt将无技能基线准确率提升了23.5个百分点(直接聊天)、24.8个百分点(Codex循环内)、19.1个百分点(Claude Code循环内)。这些提升不是微调,而是通过修改一段文本实现的。

更有趣的是转移实验:优化后的技能工件在跨模型规模迁移、从Codex环境迁移到Claude Code环境、甚至迁移到相邻的数学基准时,依然保留了大部分价值,无需重新优化。这意味着优化出的技能不是“死记硬背”,而是触及了更通用的行为模式。

这些结果不仅展示了文本空间优化的可行性,更揭示了一个值得深思的事实:当我们将技能本身也纳入可优化的“状态”时,智能体的学习边界正在被重新定义。下一次,当你的AI助手凭借一套不断精炼的技能文档做出卓越表现时,或许你会意识到,真正的智能进化,恰恰隐藏在这些看似平凡的文本修改之中。

2026年5月25日

AI安全卫士发现上万漏洞,银行拦截150万美元欺诈

在网络安全的世界里,一场静默的革命正在发生。Anthropic公司最近公布了Project Glasswing的首批成果,这个项目就像给互联网装上了一双“火眼金睛”——他们的Claude Mythos Preview模型与约50家合作伙伴联手,仅用一个月时间就发现了超过1万个高危或严重级别的安全漏洞。

故事要从Cloudflare说起。这家全球知名的网络安全公司用Mythos模型扫描后,竟然发现了2000个漏洞,而且误报率比人类测试员还要低。这意味着AI不仅看得多,还看得准。紧接着,Mozilla也加入了这场“找茬”游戏,他们在Firefox 150版本中发现了271个漏洞,并迅速修复了它们。

但最令人震惊的故事发生在银行业。一家与Anthropic合作的银行,利用Mythos模型实时监控交易系统,成功拦截了一笔150万美元的欺诈转账。这笔钱差点就通过伪造的转账指令流入了骗子的口袋,是AI在关键时刻拉响了警报。

Anthropic还做了一项大规模实验:扫描了1000多个开源项目。结果Mythos模型标记出6202个高危或严重漏洞。经过独立专家的人工复核,其中62%的标记(约3900个)被确认为真实漏洞。这个数字说明,AI不仅速度快,准确率也相当可观。

然而,这项强大的技术目前仍被“关在笼子里”。Anthropic坦言,没有任何一家公司——包括他们自己——拥有足够强大的安全防护措施来防止Mythos被滥用。这就像造出了一把万能钥匙,却不敢轻易交给任何人。

但时间不等人。OpenAI正在加速开发自己的网络安全模型,中国的科技公司也在奋起直追。当同样强大甚至更先进的AI安全工具出现时,真正的考验将不再是“谁能造出来”,而是“谁能最快地修补漏洞”。

在这个数字世界里,每一秒都可能有一扇门被黑客打开。而AI既是守护者,也可能是破门者。当技术本身成为双刃剑,人类的智慧与谨慎,才是最终的安全锁。

2026年5月25日

AlphaProof Nexus:56年未解难题,AI一天攻克

在数学的殿堂里,有些谜题如同沉睡的巨龙,一睡就是半个多世纪。然而,就在OpenAI刚刚宣布其AI破解了一个80年未解的Erdős猜想后仅仅一天,Google DeepMind的AlphaProof Nexus系统就交出了一份令人瞠目的答卷——它一口气解决了九个开放的Erdős问题,其中两个已经困扰了数学家整整56年。

这个系统将大语言模型与名为Lean的证明助手巧妙结合,像一位不知疲倦的数学侦探,在组合数学和图论的世界里寻找真相。每个问题的解决成本不过几百美元,而AI不仅攻克了这九个难题,还额外证明了来自在线整数序列百科全书的44个开放猜想。这就像是在数学的荒野中,AI不仅找到了预定的宝藏,还顺手挖掘出了更多被遗忘的珍宝。

有趣的是,一个更简单的版本也能完成同样的任务,只是成本更高。而那些需要全新数学构造的问题,依然像高不可攀的山峰,暂时超出了AI的攀登能力。就在上周,OpenAI的AI刚刚推翻了一个存在了80年的Erdős猜想,而几个月前,它曾声称解决了10个新问题,后来又收回了这一说法。

这不仅仅是技术的胜利,更是一个时代的信号。当AI能够解决困扰人类数十年的数学难题,当形式化验证让每个证明都无可辩驳,数学研究的节奏正在被重新定义。AlphaProof Nexus的工作方式就像一场精密的交响乐:生成证明,在Lean中验证,失败就重来,直到找到正确的路径。这种机器速度的探索,正在为研究者打开一扇通往新发现的大门。

数学的疆域从未如此广阔,也从未如此触手可及。当AI开始以机器速度做出原创发现,我们或许正在见证人类智慧与机器智能最激动人心的交汇。

2026年5月25日

想象一下,仅凭几张不同角度的照片,就能让一个室内空间在虚拟世界中完美复刻——连墙壁的纹理、茶几的反射都纤毫毕现。过去,这项技术常受限于单张图片信息不足或重建结果空洞模糊。如今,一项新研究打破了僵局:他们将强大的生成式3D模型与多视图重建技术深度融合,让AI像拼图高手一样,从碎片化的图像中“脑补”出完整、高保真的三维世界。

这项名为“条件式3D生成”的方法,巧妙地把大场景拆解成一个个空间重叠的局部块,每个块都像独立的“积木”,用生成模型独立完成填充后拼接成整体,从而解决了传统方法难以处理大尺度空间的难题。核心在于,他们借用了一个名为Trellis.2的顶尖生成模型——它原本专攻单个物体的精细建模——通过一种“投影条件”机制,将多张照片里的像素特征提升为与3D模型坐标对齐的连贯表示。这意味着,无论拍摄角度如何变化,AI都能自动将它们转换为全局一致的立体信息,生成出材质可编辑、多视角无矛盾的高质量PBR网格模型。

在室内场景测试中,该方法在几何和纹理的保真度上全面超越了当前最先进的同类技术,综合评分提升了16%。这不仅仅是数字的胜利,更意味着虚拟现实、游戏制作和建筑可视化有望迎来成本更低、效果更逼真的数据生成工具。

当生成模型从“画一幅画”进化到“造一个世界”,我们或许正在见证计算机视觉从观察走向创造的转折点。真正的突破,往往发生在看似不相关的技术交会处。

2026年5月25日

想象一个正在自我提升的学生——他不断温习自己写过的作业,试图从中提炼解题技巧。但问题是,作业本上不但有正确答案,还有潦草的字迹、无心的涂鸦,甚至抄错公式的错误。如果他把所有内容都照单全收,进步将微乎其微;而如果只挑自己判定的完美答案来学,又可能错过更多。这正是大语言模型自我蒸馏面临的困境。

自我蒸馏通过让模型在自己生成的输出上训练来提升能力,原理简单诱人。然而现有方法往往要求外部信号——比如正确答案的过滤、执行反馈或者奖励搜索——来筛选生成内容。对于性能最强的前沿模型,这些外部信号要么过于昂贵,要么根本无法获得。另一种极端策略是“生吞”所有原始输出,但这既缺乏跨领域通用性,又容易将模型对任务的核心能力与风格模式、格式痕迹和模型特有错误混为一谈,让学习信号变得模糊。

为了解决这一困境,研究人员提出了Self-Policy Distillation,简称SPD。它的核心思想是:模型自己知道哪些token真正定义了任务的正确性。SPD首先根据模型在正确性定义token上的梯度,提取出一个低秩的能力子空间——可以想象成从模型的大脑信号里剥离出“数学推理”“代码逻辑”这样的核心频道。然后在模型自我生成输出时,SPD将每一层的关键值(KV)激活投影到这个子空间中,滤掉与核心能力无关的杂音。最后,模型就在这些经过“能力筛选”的原始输出上进行标准的下一个token预测训练。

实验覆盖了代码生成、数学推理、多选题三个典型场景。结果令人印象深刻:与当前最优的不依赖外部信号的自蒸馏方法相比,SPD在各类任务上平均提升了13%;与直接使用预训练基线的模型相比,最高提升了16%。更难得的是,SPD展现了极强的泛化能力——在跨领域设置下,性能提升达到15%,这意味着模型不但能学好自己生成的例题,还能把学到的能力迁移到从未见过的题型上。

这让人不禁思考:当语言模型能够自主识别并强化自身的能力信号,而不依赖任何外部评判,它们会走向何方?也许自我蒸馏的下一步,不再是筛选数据,而是教会模型如何更好地看见自己。

2026年5月25日

在高分辨率图像生成领域,现有系统往往在紧凑的潜空间中运作,再通过一个解码器将潜变量映射回像素——这个解码器本质上是重建导向的,它只擅长还原编码器压扁的信息,却无力为画面增添更多细节。更糟的是,当图像达到百万像素级别时,解码成本急剧攀升,成为整个流程的瓶颈。

一个名为PiD的新方法打破了这种僵局。它重新定义了潜解码的本质:不再把它当作一个简单的逆映射,而是将其转变为一种条件像素扩散过程。这意味着解码器可以同时完成解码和上采样两个任务,直接在像素空间中一步步去除噪声,生成高分辨率图像。

具体来说,PiD能实现4倍甚至8倍的超分辨率放大,且延迟极低。为了实现这一点,研究者设计了一个轻量级的“sigma感知适配器”,它能将带有噪声的潜变量注入像素扩散主干网络。这带来了一个额外的好处:潜扩散过程不必等到完全去噪就能提前终止,显著节省了计算时间。

为了进一步提升效率,PiD使用了DMD2蒸馏技术,将推理步数压缩到仅需4步。这一方法兼容两种类型的潜变量:传统的VAE潜变量,以及近年RAE模型中常用的语义潜变量(如SigLIP、DINOv2)。

实测数据令人印象深刻:在一张消费级RTX 5090显卡上,PiD仅需不到1秒,就能将512x512图像的潜变量解码为2048x2048像素的画面,峰值内存只有13GB。如果换上更强大的GB200 GPU,这一过程更是快至210毫秒——比传统的级联扩散超分辨率管线快了大约6倍,同时视觉保真度更优。

这不仅是效率的胜利,更是范式的转换。当解码不再是被动还原,而变为主动创造,潜空间与像素世界之间的隔阂便悄然消融。未来的图像生成或许不再受制于解码器的天花板,每一颗新像素都可能成为想象力的落脚点。

2026年5月25日

想象一下,你正站在一个陌生的房间里,有人对你说:“走到厨房的桌子旁,把苹果拿过来。”你不仅需要听懂这句话,还要知道自己在哪里、已经走了多远、下一步该做什么。这种看似简单的能力,对机器人来说却是一个巨大的挑战。传统的视觉-语言导航(VLN)方法要么依赖笨重的3D传感器来构建场景地图,要么让模型像黑箱一样直接输出行动,却从不解释自己为什么这么做。这两种方式都无法让机器人真正理解“我”和“指令”、“环境”之间的关系。

现在,一项名为AwareVLN的新框架正试图打破这个僵局。它的核心思想很简单:让导航模型拥有“自我意识”。这里的自我意识并非哲学意义上的反思,而是一种端到端、数据驱动的推理机制——机器人能够实时感知自己的位置状态、任务进度,并基于这些信息做出更明智的决策。

AwareVLN有两个关键创新。第一个是结构推理模块,它像一个内置的“思考引擎”,将空间信息与任务目标结合起来,让模型在每一步都问自己:“我在哪?我要去哪?我已经完成了多少?”这种空间和任务层面的自我意识,让导航不再是盲目的尝试,而是有方向、有计划的行动。第二个创新是一个自动数据引擎,它能够根据任务进度自动划分训练数据的不同阶段,让模型在复杂程度不同的场景中渐进式学习,就像学生从简单题目开始,逐步挑战难题。

在Habitat模拟器上进行的多项测试中,AwareVLN显著超越了此前最先进的视觉-语言导航方法。它不需要额外的3D传感器,完全依赖视觉和语言输入,却能在各种未知环境中表现出更强的适应能力和执行效率。更重要的是,它的决策过程是可解释的——你可以看到模型每一步的“思考痕迹”,这为未来的调试和安全应用打开了大门。

当机器开始“反思”自己的行动,导航不再只是一段从A到B的旅程,而是一场有意识的理解与行动。也许未来的某一天,你只需说一句话,机器人就能带着对任务的清晰认知,穿越复杂的世界,准确无误地完成使命。

2026年5月25日

想象一下,你让机器人帮你从身后的柜子里拿个杯子,但它只盯着前方的桌面发呆——这正是大多数机器人面临的困境。它们的大脑(视觉-语言-动作模型)默认所有东西都必须在眼前,一旦目标消失,就会变得无助又急躁。但SOMA框架的出现,像给机器人装上了“隐形的记忆仓库”。它巧妙利用可移动的头戴摄像头,像人转头环顾一样,把不同角度的观察编织成一张持久的空间记忆网。即使目标藏在视野之外,机器人也能从记忆里调用线索,从容完成操作。

SOMA的核心由三部分构成:先是“空间记忆建造”,通过扫描把不同角度的观测拼成统一的空间语义图;接着是“动态记忆打磨”,随着时间推移不断更新,确保全局一致;最后是“上下文记忆提取”,在操作时激活与指令相关的空间线索。研究团队在五项极具挑战的真实世界任务中验证了这个设计——包括多步骤操作和双臂协作,目标物体一开始完全不可见。结果令人振奋:SOMA不仅显著提升了成功率,还从根本上改变了机器人的行为模式——它们能更快锁定目标,减少无意义的环顾搜索,甚至在部分可观测条件下实现“一次抓取”的精准操作。在RoboCasa GR1和SimplerEnv的标准完全可视场景中,SOMA的记忆设计同样证明了自己并非仅针对盲区,而是通用提升。

当机器人不再只盯着眼前方寸之地,而是学会用记忆连接消失的视野,或许这才是它真正走进人类杂乱生活的一小步——因为真实世界里,重要的东西往往不在目光所及之处。