欢迎来到Openai!谷歌集结2500人“复仇”,Gemini
发布时间:2025-12-03 10:26
新智报告主编:Kinghz 【新智介绍】谷歌AI集体成功:双子座3号出炉,参与人数堪比NASA登月!在从芯片到算法的全栈专家的共同努力下,Koray 和 Logan 探索了工程协作的美妙之处。随着Gemini3的发布,谷歌一举夺得了AI的王座!曾经被认为“落后”的谷歌如今正试图凭借一系列技术、战略和资源优势,重新夺回人工智能发展过程中的主导地位。近日,谷歌DeepMind CTO Koray Kavukcuoglu和谷歌AI工作室产品负责人Logan Kilpatrick对Gemini 3的隆重发布、AI前沿创新以及AGI之旅进行了深入分析。这个时长 45 分钟的课程重点关注模型优化、工程协作和生成媒体的兴起,揭示了谷歌的人工智能战略蓝图。本轮升级不仅仅是“又一个大模型”,但谷歌却公开宣布,我们将与全球用户合作开发下一代智能系统。与用户的共创已经开始。随着Gemini 3的发布,AI行业进入了“共建AGI”的新阶段。 “我对目前的进展感到非常满意。”在现场,科雷·卡武克措格鲁难掩兴奋之情。我们确实在许多方面突破了技术的界限。这就是我们构建 AGI 的方式:脚踏实地、全力投入。这不是闭门造车的科研成果,而是面向全球用户的“共建实验”。 “我们与用户共同开发AGI。世界已经改变,新技术正在重塑人们的期望。”他微笑着补充道:“突然之间,更多的人可以成为创造者。让任何事情发生。”我们正处于一个激动人心的时刻。 Koray表示,很多人对AGI的想象还停留在“象牙塔”实验室模型中。但事实是恰恰相反——“我们不是闭门造车,而是在全球范围内进行AGI的发展”。他表示,AGI是一项可靠的工程。构建稳定、安全、可靠的系统,必须从底层做起,打好基础。谷歌采取了工程师的思维,首先考虑到这些因素。他介绍说,在Gemini训练过程中,安全团队、安全技术,甚至模型开发的每个成员都直接参与到模型训练的后期过程中。 “我们不会等到模型完成才测试安全性。相反,我们会将安全性视为首要目标,并继续并行地改变模型的功能。” Gemini 3的发布不仅仅是一个型号的改变,更是一次涵盖谷歌所有主要团队的集体行动。洛根表示:“这可能是谷歌历史上参与度最高的技术发布,仅次于 NASA 的登月。”说到这里,科雷点了点头。从2.5到3.0:Gemini将继续加速 主持人Logan Kilpatrick是DeepMind团队的成员。两人最后一次坐在一起是在 Gemini 2.5 发布的时候。他们在 I/O 大会上聆听 Dennis 和 Sergey 讨论人工智能。当时唐婉就感觉进度很快——现在看来,并没有放缓。 Koray 对研究进展感到满意。他表示,无论是数据处理、训练前还是训练后,一切都离不开创新:越接近现实世界,模型的接触面越广,反馈信号越丰富,由此诞生的想法就越多。我们面临的问题将变得更加复杂,正是这些挑战推动我们一步步走向智能的本质。在一些基准测试中,人工智能已接近饱和。很多人担心,这是否意味着进步已经停止了? Koray并不同意这个观点——测试集最初是在tec时设定的hnology还没有崩溃,所以它自然地“克服”了tapos一段时间。为了提高模型的能力,需要不断设定新的基准。这就是机器学习标准:Benchmark 驱动模型开发,新模型推动我们重新定义基线。技术进步不是靠“挤压痕迹”,而是靠重新定义边界。以GPQA和最终人体测试等高难度测试为例。一开始模型的得分可能会稍低,但现在可以达到 40% 以上,这说明模型确实在进步。虽然“每次只取得1%的进步”,但这1%往往意味着极其复杂问题的突破。在Koray看来,衡量进步最重要的标准是用户实际使用它:科学家、学生、ab-ogado和工程师都使用Gemini模型来编写、编程和创建内容……在现实世界中,AI模型可以持续创造价值,这才是真正的进步。执行是AGI的关键。如今,人工智能基准测试有多种类型。您如何决定在哪些领域努力?谷歌重点关注以下两个领域。遵循指令 - 模型必须理解用户的请求并根据需要做出响应。国际化。 “谷歌是一家全球性公司,我们必须确保该模式适用于世界各地的用户。”谈到更多的技术领域,Koray特别提到了一些关键词:函数调用、工具调用、代理行为、编程能力……他解释道:“TheAI模型不仅天然地调用各种工具和功能,而且还自己编写这些工具。从某种意义上说,模型本身就是一个工具。”它不仅为模型提供了推理能力,还拓展了实际应用场景。编码能力的重要性不仅在于“人人都是程序员”,还因为代码是数字世界的底层语言——只要你会写代码,你就可以创造任何东西。这意味着谷歌赋予了更多人“构建能力”。 Logan指出,Gemini 3的发布也同时推出了谷歌新平台Anti-Gravity,一个人工智能驱动的代理平台。他想知道这种产品级的“共建”对于模型训练是否真的有用。科雷毫不犹豫地回答:“非常重要。”在他看来,反重力不仅仅是一个产品,它让模型直接面对用户,尤其是开发者。谷歌可以获得关于模型需要改进的地方的第一手反馈。他举了例子:不仅是反重力,还有AI工作室、Gemini App、AI搜索功能——我们通过这些产品收到了很多反馈。人工智能模型要想真正有用,就必须在实际情况中实施。这是关键。 “双子座3很强,但还远远没有达到”满分。 “Gemini 3 刷新了许多基准测试,但谷歌清楚地知道他们还有很长的路要走。他们清楚地知道这一点 - 写作和编程并不完美。尤其是在“行为者的行为”和“工具的使用”方面,Gemin仍然忽略了我那个代理和工具。我认为主要原因是我们当时离现实应用场景还不够近。 “他表示,Gemini 项目一开始更多是在研究环境中开发,但同时该项目每六个月一次,每月或每六周更新一次。‘全栈协作’。这不是障碍,而是力量。”统一架构:我们接近“通用模型” 在谈到多模态开发时,Logan 提到了过去十年回顾的 Gemini V3 和 Nano 模型等图像和视频生成模型的开发:最初的第一代模型专注于图像,因为可以看到图像和物理定律:第一代专注于图像的模型,因为图像更容易人类和地球的发展最世代的图像因为有了图像才更容易发展图像世界的图像。图像模型带来的认知能力结合起来,会产生很大的协同效应。 ”他还解释说:现在架构模型确实变得越来越统一。以前图像模型和文本模型的架构有很大不同,但现在它们自然地融合在一起,所以大家都在追求更高的效率和性能。虽然趋势是朝着统一的架构发展,但Koray指出,图像生成是一个非常困难的方向。因为AI模型的学习信号主要来自于输出空间,而当前的学习信号主要是代码和文本,而图像更加困难。“图像不仅应该是pepixel 视角,而且连贯。每个像素的存在必须符合整个图像的主题。这种双重要求特别难训练。”然而,Koray 也表示所以非常乐观:“我们继续寻找模型的合适改变,使统一模型真正成为现实。”当双子座模型能够在单个图像中表达一大段复杂文本的主要概念时,感觉就像是一个神奇的时刻。他认为,这就是多模态模型的价值——AI模型不仅可以理解抽象,还可以用最直观的方式表达它们。解决落后问题是唯一出路。在加入谷歌初期,“谷歌是AI行业的挑战者”奠定了基础,外界并不乐观。 Koray点头回应:“我当时也有同样的感觉。说实话,在大语言模型(LLM)刚刚兴起的时候,我们并没有走在最前沿。”这也是一个深刻的教训——不要忽视新方向的重要性。当Gemini项目启动时,谷歌就很清楚情况:“我们落后了,我们需要迎头赶上,而且我们还没有掌握核心能力。”在早期,Gemini团队要快速学习别人的做法,同时找到自己的变革路径——无论是结构模型、训练流程、数据使用,还是协作方式,都做了非常深层次的调整。现在,他们找到了一种 Google 和 Gemini 独有的系统风格。外界常说Google太大、太慢、不够灵活。但科雷却有不同的看法——尺寸不是障碍,而是独特的力量源泉。下一阶段谷歌将如何超越自己? Koray的回答一如既往的冷静和清晰:我们一定会不断进步,各个方向都有改进的空间。我们的目标始终明确——打造真正的智能。我们将倾注所有的努力、创新和资源,沿着这条道路稳步前行。双子座的下一个阶段总是站在最前线,随时准备改变。参考资料: https://www.youtube.com/watch?v=ifqdywfuw1c t=1s https://fortune.com/2025/11/25/google-sleeping-giant-dark-horse-ai-race-gemini/miao chai asi ⭐喜欢,转发,一键⭐。 特别声明:以上内容(如有的话,包括图片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(包括图片、视频,如有)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。
上一篇:去韩国赌你的脸
下一篇:没有了