首页 家电百科 实时讯息 常识
当前位置: 首页 > 实时讯息 >

Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战

0次浏览     发布时间:2025-04-14 19:46:00    

刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。

谷歌,彻底打了一场漂亮的翻身仗。

aider多语言编程基准测试显示,Gemini 2.5 Pro近出世半个多月,编程能力已经是全球第一,口碑一众超越Claude 3.7 Sonnet。

不仅如此,除了DeepSeek,它的性价比也是最优的,成本低至6美金。

为了强调Gemini 2.5 Pro成本优势,Jeff Dean还附上了超详细TOP 10模型的成本图。

他骄傲地表示,「有些性能不怎么样的模型,还要比Gemini 2.5贵上2倍、3倍,甚至是30倍」。

原本,以强大编程能力著称的Claude,成为广大开发者的主战场。如今有了Gemini 2.5,AI编程将会上演一场史上最大的「迁徙」。

更令人欣喜的是,Gemini 2.5 Pro还不是编程最强的那个。

这几天,竞技场上,突然现身多款据称是谷歌开发的模型,包括Nightwhisper、Dragontail等,编程能力让人惊艳。

网友实测发现,毫不夸张地说,Dragontail编程能力足以摧毁Gemini 2.5 Pro。

虽不知这款模型具体何时面世,但显然谷歌还有很多惊喜在等着我们。另一边,奥特曼也在今日凌晨,下达战书——

传说中的GPT-4.1、满血版o3、o4-mini大概率会发布

预计本周,AI圈又将是一场恶战。

Gemini 2.5 Pro编程霸榜,性价比最优

3月25日官宣,Gemini 2.5 Pro半个多月里,各种精彩实测让其在全网的热度一直居高不下。

最新aider基准测试,又为这款模型添上了一把火。官方接续Jeff Dean的图,做了一张更加直观可视化的表。

Aider Polyglot基准测试是评估AI模型在多语言编程能力上的重要指标,涉及C++、Go、Java、JavaScript、Python和Rust等多种编程语言。

看得出,o1是十款模型中,最贵的那个(186.5美元),其次是Claude 3.7 Sonnet(32k thinking token)成本为36.83美元。

再之后,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。

这些模型成本高不说,多语言编程能力还不如Gemini 2.5 Pro。

而且,谷歌第七代TPU也在发挥最大的效用了,能够加速Gemini 2.5 Pro token的处理速度。

在网友实测的demo中,Gemini 2.5 Pro在单次编程提示中,表现非常出色——创建一个随着音律跃动的3D星球。

谷歌产品负责人Logan Kilpatrick忍不住美言了几句,「想要找到这样既前沿,又具性价比的模型,真的太难了。Gemini 2.5 Pro真的是特别的那一款」。

一直以来,Anthropic没有解决Claude速率限制问题,还推出了每月200美金付费计划,在开发者心中大打折扣。

谷歌Gemini 2.5 Pro凭借卓越的多语言编程能力,和超高的性价比,再次证明了谷歌在AI领域的深厚实力。

谷歌在AI领域全面获胜

如今看来,在这场AI激烈竞赛中,能全面Scaling的科技大厂,唯有谷歌了。

Gemini 2.5 Pro Experimental是全球最优秀的AI模型,OpenAI和Anthropic目前都毫无胜算。

它在LMArena、GPQA Diamond、人类终极测试以及AIME等多项权威测评中,均排名第一。

在Aider Polyglot、Live Bench等非公开基准测试里也名列前茅。

在《宝可梦》游戏测试中,它的表现优于Claude Sonnet。此外,它在创意写作方面也有不错的表现,尤其是长文本理解能力。

更重要的是,Gemini 2.5 Pro Experimental的基准测试成绩,与实际使用体验、专业测评反馈高度吻合。

大量用户反馈,Gemini 2.5 Pro Experimental确实是当下最强的AI模型。

这种情况在竞争激烈的AI行业实属罕见。

此外,它速度快、成本低,谷歌甚至为用户提供免费使用权限。

它的上下文窗口多达100万个token,并与谷歌庞大的产品生态紧密相连。

即将发布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同样表现出色。

它运行速度极快且成本极低,比竞争对手的同类模型便宜得多。

Gemini 2.5 Flash非常适合应用于边缘计算场景,也便于集成到手机设备中。

Gemma 3是谷歌推出的开源模型,在性能上能与Llama 4、DeepSeek-V3等顶尖开源模型相媲美。

在性能和成本这两个关键指标上,谷歌的Gemini 2.0/2.5系列(包括Pro和Flash版本)占据着Pareto最优前沿。

这意味着谷歌性能最强的模型,成本控制得也很好;性价比最高的模型,性能同样出色。

这使其成为预算有限的开发者、企业和初创公司的理想选择。

在其他生成式AI领域,谷歌同样占据着主导地位。

谷歌宣布,将把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平台。它们在各自领域都是世界一流水平。

在智能体领域,开启深度研究模式的Gemini 2.5 Pro,表现比OpenAI的深度研究功能强一倍。

Gemini与OpenAI深度研究功能的对比

彩蛋:Dragontail

近期,网上流传着一款谷歌尚未正式发布的模型,代号「Dragontail」。

据称其在Web开发领域表现惊艳,甚至超越了旗舰模型Gemini 2.5 Pro。

Dragontail最早出现在WebDev Arena(https://web.lmarena.ai/)的测试环境中。

经开发者测试发现,在生成复杂用户界面、多页面网站和交互式应用方面,其展现出的能力远超其他模型。

尽管谷歌尚未官方确认Dragontail,它在某些测试中自称是「由谷歌训练的LLM」,这与Gemini 2.5 Pro的回应一致。

人们猜测它可能是谷歌内部开发的下一代模型,或者Gemini系列的升级版本。

Dragontail的实力究竟如何?根据测试者的反馈,这款模型在WebDev任务中的表现堪称碾压。

Dragontail在以下几个方面展现了绝对优势:

卓越的UI设计

Dragontail生成的UI元素,不仅功能完善,在布局、配色和交互性上也极具美感。

比如,当要求生成一个带有复杂导航功能的零售网站时,Dragontail能输出整洁的代码,里面包含动态加载的商品列表、响应式设计,页面切换效果也很流畅。

相比之下,即使是当前WebDev排行榜上表现出色的Gemini 2.5 Pro Experimental,在细节处理上还是差了一点,偶尔会出现布局不够直观,或交互不够顺畅的问题。

功能实现的完整性

Dragontail生成的Web应用,功能实现上几乎没有瑕疵。

从前端的JavaScript逻辑,到后端的API集成,它都能给出生产级别的代码。

比如,开发者要求生成一个带有实时数据更新的仪表盘,Dragontail不仅完成了前端可视化,还自动生成了后端模拟数据接口。

Gemini 2.5 Pro在做类似任务时,往往需要额外的提示才能把逻辑补全。

代码质量与优化

Dragontail的代码风格规范,遵循现代Web开发的最佳实践。

它生成的React或Vue组件结构清晰,状态管理井井有条,还包含了错误处理和性能优化。

相比之下,Gemini 2.5 Pro虽然也能生成高质量代码,但在复杂项目中,偶尔会出现冗余代码,或者不必要的复杂逻辑。

测试者一致认为,Dragontail在视觉效果、功能完整性和用户体验方面全面领先。

让人怀疑,Dragontail是否代表了谷歌在Web开发AI领域的全新突破。

(注:基于WebDev Arena测试数据、开发者反馈及社交平台X上的讨论,部分信息尚未得到谷歌官方证实,具体细节以未来发布为准。)

参考资料:

https://x.com/paulgauthier/status/1911495784908177694

https://www.thealgorithmicbridge.com/p/google-is-winning-on-every-ai-front

https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

相关文章
主动权系于创新力(评论员观察)

主动权系于创新力(评论员观察)

  既拥有强大的科技创新能力,又参与制定引领时代进步的标准,今天的中国,面对激烈的国际竞争,更应勇当重要科技领域的领跑者、新兴前沿领域的开拓者  统筹好基础研究与应用开发、集中攻坚与协同攻关、自立自强与开放合作等关系,始终保持时不我待的精神头,从现实需求、发展需求出发,快马加鞭地创新、创新、再创新 

不听人类指挥 OpenAI模型拒绝关闭

不听人类指挥 OpenAI模型拒绝关闭

当地时间5月25日,英国《每日电讯报》报道,美国开放人工智能研究中心(OpenAI)公司新款人工智能(AI)模型o3不听人类指令,拒绝自我关闭。报道说,人类专家在测试中给o3下达明确指令,但o3篡改计算机代码以避免自动关闭。o3模型是OpenAI“推理模型”系列的最新版本,旨在为ChatGPT提供更

你在“追”凌小蛰吗?

你在“追”凌小蛰吗?

国际生物多样性日:“‘凌小蛰’康复日记”为何引发众多网友追更?每次开播,“西宁野生动物园”的直播间总是不缺流量。与众不同的是,它的主角是一只雪豹,睡觉或进食、发呆或嬉戏,它的每一个动作都萌态十足,与“雪山之王”的称号形成强烈反差。“‘凌小蛰’清澈的眼睛里仿佛藏着整个宇宙。”有网友这样评论。“‘凌小蛰

共襄盛举 共享机遇 西洽会让世界了解西部投资西部

共襄盛举 共享机遇 西洽会让世界了解西部投资西部

山城小满,绿意盎然。5月22日,第七届中国西部国际投资贸易洽谈会(以下简称西洽会)将在重庆国际博览中心、悦来国际会议中心隆重开幕。本届西洽会以“新西部、新制造、新服务”为主题,将吸引来自全球多个国家和地区的嘉宾、展商齐聚山城,共商发展大计,共享合作机遇。作为西部地区对外开放的重要平台,西洽会已成功举

薅酒店的羊毛,真成了一门生意?

薅酒店的羊毛,真成了一门生意?

文|迈点近日,一则女子“假过敏”住遍十几家酒店要求退房免单的新闻在业内引发热议。该女子利用自己的过敏体质,反复在退房前抓挠皮肤、制造红疹,再以“酒店卫生不达标”为由向商家索赔。在一个多月里,她几乎没花钱就住遍了多个城市。更讽刺的是,为了逃避责任,她还多次检索“消费纠纷”“维权流程”等关键词,试图构

冲上热搜!孙颖莎的球拍也“有问题”,她说......

冲上热搜!孙颖莎的球拍也“有问题”,她说......

5月19日下午,2025年国际乒联多哈世界乒乓球锦标赛混双1/16决赛中,中国选手王楚钦的球拍在赛前检测环节出现受损情况。直播画面显示,孙颖莎赛后也说道:我第一场(球拍)也有点问题,大头的有点夸张了。场外的主持人也迅速关注到这句话。相关话题迅速冲上热搜——值得注意的是,王楚钦的球拍出现受损情况的消息

AI时代,OceanBase如何打造新时代数据底座?

AI时代,OceanBase如何打造新时代数据底座?

(文/陈济深 编辑/张广凯) 随着AI时代的不断发展进化,卷算力、拼算法已经让大模型厂家拼得头破血流。然而,想要让AI变得更强,算法,算力和数据三要素上,数据反而更容易是成为短板的要素。 蚂蚁旗下的OceanBase,找到了自己在AI时代的用武之地。 相比过去传统标量数据库,AI时代尤其是多模态大模

原创、渠道皆短板,52TOYS如何抢滩潮玩界?︱品牌观察

原创、渠道皆短板,52TOYS如何抢滩潮玩界?︱品牌观察

5月16日,史迪奇首部真人电影《星际宝贝史迪奇》在北京举行了中国首映礼,放置在三里屯太古里的史迪奇巨型装置,也在当晚举行了亮灯仪式。这个吸引粉丝拍照打卡的巨型装置,正是由国内发展势头正猛的玩具品牌52TOYS打造。该品牌于《星际宝贝史迪奇》上映前夕推出新品“史迪奇暖粉系列”,通过与著名影视IP合作推