缩放法则并没有消亡!双子座大老板宣称谷歌已
发布时间:2025-12-20 10:21
新智慧报告主编:埃涅阿斯庆庆【新智慧介绍】谷歌大模式将被颠覆升级!双子座负责人爆料:长效率和长背景的双胜利在即,注意力机制带来惊人发现。缩放法则并没有消亡,它正在加速进化!谷歌会再次大获成功吗?近日,谷歌 DeepMind Gemini 预训练负责人 Sebastian Borgeaud 在接受采访时大爆——明年,大型预训练模型领域将在“处理上下文的长期效率”和“扩展上下文的长度”两个方向上带来重大技术创新。与此同时,谷歌双子座三巨头——Jeff Dean、Oriol VinyalsML和Noam Shazeer却罕见同台亮相。在右侧的几次对话中,他们与塞巴斯蒂安的对话内容出奇的一致。还有很多影响深远的想法闪耀着发人深省智慧的光芒。难怪,谷歌仍然是巨头。谷歌的老板们兴奋地预测他们已经破解了大型模型的主要秘密。谷歌DeepMind Gemini预训练负责人Sebastian Borgeaud在最近接受采访时表示,预计明年预训练技术将会有重大创新,以提高长上下文处理的效率,并进一步扩大上下文模型的长度。此外,他还宣布,他们最近在注意力机制方面取得了一些有趣的发现,这可能会改变他们未来几个月的研究方向。他对此非常满意。他发表了令人惊讶的声明:缩放定律并没有消亡,它只是在进步! Sebastian Borgeaud 是 Gemini 3 预训练的负责人。这是他的第一次博客采访,让我们深入了解 Gemini 3 背后的实验室思维——变化发生在哪里,以及为什么当前工作不再是“训练模型”,而是构建完整的体系。 Gemini 3 背后:人工智能的未来正在加速发展。经过一次意想不到的飞跃,一个系统诞生了。 “如果我对自己诚实,我想……我们比我想象的更进一步。”坐在麦克风前的塞巴斯蒂安·布尔茹(Sebastian Bourjou)语气平静,但他的话语却像一颗石子投入湖中,激起无尽的波澜。 Gemini 3为何能实现如此巨大的性能飞跃?塞巴斯蒂安的答案似乎很简单:“更好的预训练和更好的训练后。”然而,这种低估的背后,是思维方式的根本转变。 “我们不仅仅是在构建一个模型,”他缓缓地说,“我认为在这一点上,我们真正构建的是一个系统。”而这正是Gemini 3发展令人不安的关键。人们常常认为,从一个版本的Gemini到下一个版本,总有一些令人惊讶的“秘密武器”。但塞巴斯蒂安表达的真理是:进步来自于凝聚力无数的小改进。这些是大型团队每天都会发现的“旋钮”和优化。他还指出,人工智能发展正在经历潜在的范式转变:过去,我们似乎拥有无限的数据,可以随意扩展数据集;而现在,我们似乎拥有无限的数据,可以随意扩展数据集。但现在,我们正在转向“数据有限”系统。这意味着未来的人工智能必须学会更有效地使用已经有限的数据源并构建更复杂的系统项目。这是模型架构研究的主要价值。这一变化将倒逼整个行业从“功夫不负有心人”的粗放模式,转向“精工细作”的精细化模式。未来竞争的焦点将不再是“谁的数据中心更大”,而是“谁的学习算法更好”、“谁的模型架构更优雅”、“谁能从有限的数据中提取更多的智慧”。 Gemini 3大脑的架构,即MoE的混合专家模型,代表了一条清晰的发展路径LLM:从单纯追求“大”到追求“大而伟大、大而聪明”。人工智能的下一站——长背景、高效获取和“成本革命” 着眼于未来几年的技术前沿,塞巴斯蒂安指出了令人兴奋的方向,这些方向将共同塑造下一代人工智能的能力和形式。 1、长上下文:从“短记忆”到“海量工作台”,Gemini 1.5带来的长上下文能力是一场革命。塞巴斯蒂安预测这一领域的变化将继续加速。 “我认为在未来一年左右的时间里,我们将看到更多的创新,使长上下文变得更好,并进一步扩展上下文长度。”这不仅仅是“记住更多”。非常长的上下文将把模型变成一个真正的数字工作台:它可以同时加载整个代码库、多篇科学论文和很长的对话历史记录,并在其中执行连贯的分析、推理和创建。它提供那些没有 uliran 可能性来执行复杂的多步骤任务、深入研究和创造,以及过渡到更强大的“智能代理”的基础设施。 2.注意力机制的演变 Sebastian 特别提到,关于注意力机制,“我们最近做出了一些非常有趣的发现,我认为它将在未来几个月内塑造很多研究。”他对此“个人非常兴奋”。这表明被认为是当前大规模模型基础的注意力机制仍有相当大的改进空间。更好、更强或者具有新属性的注意力机制可以显着提高自下而上模型的理解、推理和计算效率,是推动性能前沿的重要杠杆。 3.检索回归:让模型学会“查找数据”。 Sebastian 早期领导了“Retro”项目,研究如何将所有让模型在训练和推理过程中寻找外部知识库,而不是仔细记住参数的所有知识。他认为这个方向远未过时。 “我坚信,长期的答案是以不同的方式学习这种能力。”这意味着未来的模型可以将检索和推理结合起来。更原生的组合,动态地从海量知识源中提取信息进行思考,而不是依赖后期“嫁接”的搜索工具。这可以使模型更加准确和最新,并且可以突破参数尺度的知识容量的限制。 4、效率和成本“革命” 一个日益突出的挑战是,随着用户的增加,部署模型和服务成本变得至关重要。未来的研究将不再追求峰值性能,而应该关注如何制作“便宜且易于使用”的好模型。我还是看不到结局。面试是一个即将结束。当我们将镜头切回站在AI浪潮顶峰的研究人员时,塞巴斯蒂安的回答表现出一种安静的乐观和纯粹的热情。尽管讨论了数据瓶颈和成本挑战等实际问题,塞巴斯蒂安仍然对自己对人工智能发展的整体判断充满信心。 “我已经提到过很多次了,但是有太多不同的事情聚集在一起,有太多有改进空间的方向。我真的没有看到今天这种工作停止给我们带来进步的趋势。”这种信心并不是盲目的。这来自于他作为一线领导者所目睹的:有很多细小但明确的改进空间,整个领域的创造力还没有耗尽。在他看来,即使在未来几年,这一进展也不会减少。规模不再是一个神话。诺姆回归沙泽尔后的第一桶冷水。接下来是三位大佬的对话,诺姆沙泽尔。会议上,很明显诺姆就是下面踩油门的人。他很少使用让人热血沸腾的花言巧语。他甚至谈到了系统的研发速度、稳定性,以及如何长时间运行。作为Transformer的创始人,他曾经从头开始领导这个大模型;现在,大模型一路走来,但他停下来警告:大模型很快给出答案,很少进行自我评价。他多次向公众强调,当前的模型并不缺乏“智能”,而是缺乏持续思考、对复杂任务进行迭代修正的能力。也就是说,大模型的尺寸仍然很重要,但它不再是决定一切的唯一变量。诺姆在讨论推理时,显然将焦点从“能不能更强一点”转移到了“能不能更强一点”。这是自疫情爆发以来,他第一次在公开场合表达这样的判断。谷歌。这听起来不像是对过去的拒绝,而更像是对这样一个事实的认识:通过简单地堆叠参数来实现持续改进的路径正在接近极限。顶尖科学家的共识:高分并不能决定AI的未来。诺姆提到了一个词:慢思考。这不仅仅是放慢研发速度,而是反复询问是否值得、是否昂贵、是否可以大规模复制。此时,智能不再是一种抽象的能力,而是需要随着时间的推移付出的工程成本,需要与CPU、硬盘一起被记入账本。在这里讨论。一旦迈出了这一步,之前很多衡量AI的标准就会逐渐失效,比如Benchmark。在整个会议过程中,三位顶尖科学家对这份名单并没有表现出任何兴奋,也没有用“谁赢了谁”来定义进展。列表非常适合即时衡量性能,但很难回答诸如“它可以永远运行吗?”之类的长期问题。 Noam和Jeff反复强调的是后者:模型是否可靠、是否具有迁移能力、能否在复杂任务中不断自我修正。这些能力很难压缩成一个好的数字。双子座被认为是一个系统,而不是一个模型。在这次谈话中,经常会提到“系统”。这显然不是比喻。诺姆和杰夫在描述双子座时,刻意避免使用“更强的模型”这一表述,而是反复强调它是一个可以长期运行、不断重复的“系统”。 “系统”和“模型”很相似,但背后的逻辑却截然不同。 “模型”更像是一次性的结果,是实验室里的短期表现;而“系统”则更像是基础设施,关心的是稳定性、可扩展性,以及出现错误后能否快速修复并继续运行。对于像“不”这样的人对于非常注重架构设计、研发节奏和工程约束的am来说,他们自然更关心一个系统能否稳定运行十年、二十年,而不是某个响应的速度有多快。在他们眼中,双子座并不是获胜者的奖品,而是一种“长期可用”的智能形态。因此,整个对话中没有仓促的产品发布,也没有紧张的“特定模型的对标”,更像是在向外界强调:谷歌追求的不是短期的成品,而是一套可以反复使用、不断进化的智能工业系统。参考文献: https://x.com/JeffDean/status/2001759657950667219 https://x.com/JeffDean/status/2001692889299206519 https://twitt ay 特别声明:以上内容(如有,包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注意:以上内容内容(包括图片和视频,如有)由用户网易号上传并发布,网易号是一个社交媒体平台,仅提供信息存储服务。