首页 文章管理 家电百科 实时讯息 常识
当前位置: 首页 > 实时讯息 >

Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战

0次浏览     发布时间:2025-04-14 19:46:00    

刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。

谷歌,彻底打了一场漂亮的翻身仗。

aider多语言编程基准测试显示,Gemini 2.5 Pro近出世半个多月,编程能力已经是全球第一,口碑一众超越Claude 3.7 Sonnet。

不仅如此,除了DeepSeek,它的性价比也是最优的,成本低至6美金。

为了强调Gemini 2.5 Pro成本优势,Jeff Dean还附上了超详细TOP 10模型的成本图。

他骄傲地表示,「有些性能不怎么样的模型,还要比Gemini 2.5贵上2倍、3倍,甚至是30倍」。

原本,以强大编程能力著称的Claude,成为广大开发者的主战场。如今有了Gemini 2.5,AI编程将会上演一场史上最大的「迁徙」。

更令人欣喜的是,Gemini 2.5 Pro还不是编程最强的那个。

这几天,竞技场上,突然现身多款据称是谷歌开发的模型,包括Nightwhisper、Dragontail等,编程能力让人惊艳。

网友实测发现,毫不夸张地说,Dragontail编程能力足以摧毁Gemini 2.5 Pro。

虽不知这款模型具体何时面世,但显然谷歌还有很多惊喜在等着我们。另一边,奥特曼也在今日凌晨,下达战书——

传说中的GPT-4.1、满血版o3、o4-mini大概率会发布

预计本周,AI圈又将是一场恶战。

Gemini 2.5 Pro编程霸榜,性价比最优

3月25日官宣,Gemini 2.5 Pro半个多月里,各种精彩实测让其在全网的热度一直居高不下。

最新aider基准测试,又为这款模型添上了一把火。官方接续Jeff Dean的图,做了一张更加直观可视化的表。

Aider Polyglot基准测试是评估AI模型在多语言编程能力上的重要指标,涉及C++、Go、Java、JavaScript、Python和Rust等多种编程语言。

看得出,o1是十款模型中,最贵的那个(186.5美元),其次是Claude 3.7 Sonnet(32k thinking token)成本为36.83美元。

再之后,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。

这些模型成本高不说,多语言编程能力还不如Gemini 2.5 Pro。

而且,谷歌第七代TPU也在发挥最大的效用了,能够加速Gemini 2.5 Pro token的处理速度。

在网友实测的demo中,Gemini 2.5 Pro在单次编程提示中,表现非常出色——创建一个随着音律跃动的3D星球。

谷歌产品负责人Logan Kilpatrick忍不住美言了几句,「想要找到这样既前沿,又具性价比的模型,真的太难了。Gemini 2.5 Pro真的是特别的那一款」。

一直以来,Anthropic没有解决Claude速率限制问题,还推出了每月200美金付费计划,在开发者心中大打折扣。

谷歌Gemini 2.5 Pro凭借卓越的多语言编程能力,和超高的性价比,再次证明了谷歌在AI领域的深厚实力。

谷歌在AI领域全面获胜

如今看来,在这场AI激烈竞赛中,能全面Scaling的科技大厂,唯有谷歌了。

Gemini 2.5 Pro Experimental是全球最优秀的AI模型,OpenAI和Anthropic目前都毫无胜算。

它在LMArena、GPQA Diamond、人类终极测试以及AIME等多项权威测评中,均排名第一。

在Aider Polyglot、Live Bench等非公开基准测试里也名列前茅。

在《宝可梦》游戏测试中,它的表现优于Claude Sonnet。此外,它在创意写作方面也有不错的表现,尤其是长文本理解能力。

更重要的是,Gemini 2.5 Pro Experimental的基准测试成绩,与实际使用体验、专业测评反馈高度吻合。

大量用户反馈,Gemini 2.5 Pro Experimental确实是当下最强的AI模型。

这种情况在竞争激烈的AI行业实属罕见。

此外,它速度快、成本低,谷歌甚至为用户提供免费使用权限。

它的上下文窗口多达100万个token,并与谷歌庞大的产品生态紧密相连。

即将发布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同样表现出色。

它运行速度极快且成本极低,比竞争对手的同类模型便宜得多。

Gemini 2.5 Flash非常适合应用于边缘计算场景,也便于集成到手机设备中。

Gemma 3是谷歌推出的开源模型,在性能上能与Llama 4、DeepSeek-V3等顶尖开源模型相媲美。

在性能和成本这两个关键指标上,谷歌的Gemini 2.0/2.5系列(包括Pro和Flash版本)占据着Pareto最优前沿。

这意味着谷歌性能最强的模型,成本控制得也很好;性价比最高的模型,性能同样出色。

这使其成为预算有限的开发者、企业和初创公司的理想选择。

在其他生成式AI领域,谷歌同样占据着主导地位。

谷歌宣布,将把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平台。它们在各自领域都是世界一流水平。

在智能体领域,开启深度研究模式的Gemini 2.5 Pro,表现比OpenAI的深度研究功能强一倍。

Gemini与OpenAI深度研究功能的对比

彩蛋:Dragontail

近期,网上流传着一款谷歌尚未正式发布的模型,代号「Dragontail」。

据称其在Web开发领域表现惊艳,甚至超越了旗舰模型Gemini 2.5 Pro。

Dragontail最早出现在WebDev Arena(https://web.lmarena.ai/)的测试环境中。

经开发者测试发现,在生成复杂用户界面、多页面网站和交互式应用方面,其展现出的能力远超其他模型。

尽管谷歌尚未官方确认Dragontail,它在某些测试中自称是「由谷歌训练的LLM」,这与Gemini 2.5 Pro的回应一致。

人们猜测它可能是谷歌内部开发的下一代模型,或者Gemini系列的升级版本。

Dragontail的实力究竟如何?根据测试者的反馈,这款模型在WebDev任务中的表现堪称碾压。

Dragontail在以下几个方面展现了绝对优势:

卓越的UI设计

Dragontail生成的UI元素,不仅功能完善,在布局、配色和交互性上也极具美感。

比如,当要求生成一个带有复杂导航功能的零售网站时,Dragontail能输出整洁的代码,里面包含动态加载的商品列表、响应式设计,页面切换效果也很流畅。

相比之下,即使是当前WebDev排行榜上表现出色的Gemini 2.5 Pro Experimental,在细节处理上还是差了一点,偶尔会出现布局不够直观,或交互不够顺畅的问题。

功能实现的完整性

Dragontail生成的Web应用,功能实现上几乎没有瑕疵。

从前端的JavaScript逻辑,到后端的API集成,它都能给出生产级别的代码。

比如,开发者要求生成一个带有实时数据更新的仪表盘,Dragontail不仅完成了前端可视化,还自动生成了后端模拟数据接口。

Gemini 2.5 Pro在做类似任务时,往往需要额外的提示才能把逻辑补全。

代码质量与优化

Dragontail的代码风格规范,遵循现代Web开发的最佳实践。

它生成的React或Vue组件结构清晰,状态管理井井有条,还包含了错误处理和性能优化。

相比之下,Gemini 2.5 Pro虽然也能生成高质量代码,但在复杂项目中,偶尔会出现冗余代码,或者不必要的复杂逻辑。

测试者一致认为,Dragontail在视觉效果、功能完整性和用户体验方面全面领先。

让人怀疑,Dragontail是否代表了谷歌在Web开发AI领域的全新突破。

(注:基于WebDev Arena测试数据、开发者反馈及社交平台X上的讨论,部分信息尚未得到谷歌官方证实,具体细节以未来发布为准。)

参考资料:

https://x.com/paulgauthier/status/1911495784908177694

https://www.thealgorithmicbridge.com/p/google-is-winning-on-every-ai-front

https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

相关文章
1199元的有道Space X体验如何?好用实用的AI答疑工具

1199元的有道Space X体验如何?好用实用的AI答疑工具

在开创AI答疑品类半年后,网易有道很快就推出了迭代产品。8月20日,在北京举行的“POWERED BY 子曰”有道AI新品发布会上,网易有道一口气推出了有道AI答疑笔Space X以及音视频翻译平台,还展示了全面AI化的有道词典。对此雷科技也进行了详细报道,可全网搜索查看。过去几年,我们曾先后评测过

我家有个老兵丨一家9口人,都是新四军!

我家有个老兵丨一家9口人,都是新四军!

抗战全面爆发的那一年孙家琮才9岁她的家乡扬州也不得安宁1939年到1940年孙家琮的大姐和父亲先后参加了新四军并加入中国共产党投入到抗日战争的烽火中聊到那段历史孙奶奶说“有一次一个伤病员下来以后我们帮助民工从担架上抬下来我一下子碰着那个伤员的手冰凉的掀开一看,已经牺牲了那个时候我们非常痛心但是没有办

顶流博主何同学的海外账号年收入上千万?本人辟谣:没这么多

顶流博主何同学的海外账号年收入上千万?本人辟谣:没这么多

日前,小雷刷手机的时候刷到一条关于“何同学海外走红年收入或超千万”的新闻。好家伙,现在当博主都这么赚钱吗?数码博主@老师好我叫何同学不仅国内,在海外也受到广泛关注。目前他团队所运营的海外账号@HTX Studio订阅人数已突破百万。据第三方数据平台Social Blade的相关报道估算,其YouTu

GPT-5暴写“屎山代码”,14个Prompt,看穿GPT-1到GPT-5七年智商进化史

GPT-5暴写“屎山代码”,14个Prompt,看穿GPT-1到GPT-5七年智商进化史

GPT-5发布半月,却被连连吐槽。如今,一张基准与GPT-4对比基准测试图,证明了Scaling Law没有撞墙。七年间,从GPT-1到GPT-5十四个花式Prompt对决,实力差一目了然。一张基准对比图,彻底火遍了全网。GPT-5发布近半个月,实际表现未达预期,不少人感慨:苦等OpenAI两年,就

“红马甲”兜起万家事——绣惠街道绣城社区网格员的温度与担当

“红马甲”兜起万家事——绣惠街道绣城社区网格员的温度与担当

鲁网8月15日讯“‘网格员’?起初真不知道这‘网’是网啥的!”绣惠街道绣城社区的居民回忆道,“直到看见一群‘红马甲’在社区里忙前忙后,啥事都帮得上忙,才明白,这‘网’兜住的都是咱老百姓的急难愁盼!”在绣城社区,网格员们面对的是一幅特殊的图景:居民多为长者,不少人识字不多,刚从平房搬进楼房的他们,生活

男子 6 结 6 离,5 任前妻沦为债主,被骗女性横跨 70 后至 00 后

男子 6 结 6 离,5 任前妻沦为债主,被骗女性横跨 70 后至 00 后

近日,四川资阳警方在调查中揭露了一起令人咋舌的案件。1986 年出生的资阳男子刘洋,堪称现实版 “海王”,其婚姻状况混乱不堪。从 2009 年至 2024 年的 15 年间,刘洋竟然先后 6 次步入婚姻殿堂,又 6 次离婚,每段婚姻存续时间极短,最长也未超过两年。更为惊人的是,经警方查明,除了第一任

山海情牵 同心共进——辽宁对口援疆工作取得新成效

山海情牵 同心共进——辽宁对口援疆工作取得新成效

核心提示从渤海之滨到天山北麓,跨越八千里路,山海深情在岁月中绵延。产业项目孕育腾飞活力,惠民工程落地生根,先进技术为发展赋能……辽宁省与新疆塔城地区和新疆生产建设兵团八师、九师,因对口援疆紧紧相连。投入真金白银、派出精兵良将、倾注真情实意,辽宁深入贯彻落实习近平总书记关于新疆工作的重要讲话和重要指示

腾讯云x泡泡玛特:全方位云上守护,让潮玩回归热爱

腾讯云x泡泡玛特:全方位云上守护,让潮玩回归热爱

圆润而毛茸茸的身体、宽大的眼睛、尖尖的耳朵、九颗尖锐的牙齿,这个看似有点怪,又怪得有点可爱的潮玩IP LABUBU,毫无疑问是今年潮玩界的顶流,系列挂饰及公仔每次上架都会瞬间被一抢而空,一“布”难求。在国外,伦敦每个线下店面都大排长龙,美国拉斯维加斯的消费者甚至从凌晨开始排队到次日7点,但10点开售