首页 家电百科 实时讯息 常识
当前位置: 首页 > 实时讯息 >

Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战

0次浏览     发布时间:2025-04-14 19:46:00    

刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。

谷歌,彻底打了一场漂亮的翻身仗。

aider多语言编程基准测试显示,Gemini 2.5 Pro近出世半个多月,编程能力已经是全球第一,口碑一众超越Claude 3.7 Sonnet。

不仅如此,除了DeepSeek,它的性价比也是最优的,成本低至6美金。

为了强调Gemini 2.5 Pro成本优势,Jeff Dean还附上了超详细TOP 10模型的成本图。

他骄傲地表示,「有些性能不怎么样的模型,还要比Gemini 2.5贵上2倍、3倍,甚至是30倍」。

原本,以强大编程能力著称的Claude,成为广大开发者的主战场。如今有了Gemini 2.5,AI编程将会上演一场史上最大的「迁徙」。

更令人欣喜的是,Gemini 2.5 Pro还不是编程最强的那个。

这几天,竞技场上,突然现身多款据称是谷歌开发的模型,包括Nightwhisper、Dragontail等,编程能力让人惊艳。

网友实测发现,毫不夸张地说,Dragontail编程能力足以摧毁Gemini 2.5 Pro。

虽不知这款模型具体何时面世,但显然谷歌还有很多惊喜在等着我们。另一边,奥特曼也在今日凌晨,下达战书——

传说中的GPT-4.1、满血版o3、o4-mini大概率会发布

预计本周,AI圈又将是一场恶战。

Gemini 2.5 Pro编程霸榜,性价比最优

3月25日官宣,Gemini 2.5 Pro半个多月里,各种精彩实测让其在全网的热度一直居高不下。

最新aider基准测试,又为这款模型添上了一把火。官方接续Jeff Dean的图,做了一张更加直观可视化的表。

Aider Polyglot基准测试是评估AI模型在多语言编程能力上的重要指标,涉及C++、Go、Java、JavaScript、Python和Rust等多种编程语言。

看得出,o1是十款模型中,最贵的那个(186.5美元),其次是Claude 3.7 Sonnet(32k thinking token)成本为36.83美元。

再之后,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。

这些模型成本高不说,多语言编程能力还不如Gemini 2.5 Pro。

而且,谷歌第七代TPU也在发挥最大的效用了,能够加速Gemini 2.5 Pro token的处理速度。

在网友实测的demo中,Gemini 2.5 Pro在单次编程提示中,表现非常出色——创建一个随着音律跃动的3D星球。

谷歌产品负责人Logan Kilpatrick忍不住美言了几句,「想要找到这样既前沿,又具性价比的模型,真的太难了。Gemini 2.5 Pro真的是特别的那一款」。

一直以来,Anthropic没有解决Claude速率限制问题,还推出了每月200美金付费计划,在开发者心中大打折扣。

谷歌Gemini 2.5 Pro凭借卓越的多语言编程能力,和超高的性价比,再次证明了谷歌在AI领域的深厚实力。

谷歌在AI领域全面获胜

如今看来,在这场AI激烈竞赛中,能全面Scaling的科技大厂,唯有谷歌了。

Gemini 2.5 Pro Experimental是全球最优秀的AI模型,OpenAI和Anthropic目前都毫无胜算。

它在LMArena、GPQA Diamond、人类终极测试以及AIME等多项权威测评中,均排名第一。

在Aider Polyglot、Live Bench等非公开基准测试里也名列前茅。

在《宝可梦》游戏测试中,它的表现优于Claude Sonnet。此外,它在创意写作方面也有不错的表现,尤其是长文本理解能力。

更重要的是,Gemini 2.5 Pro Experimental的基准测试成绩,与实际使用体验、专业测评反馈高度吻合。

大量用户反馈,Gemini 2.5 Pro Experimental确实是当下最强的AI模型。

这种情况在竞争激烈的AI行业实属罕见。

此外,它速度快、成本低,谷歌甚至为用户提供免费使用权限。

它的上下文窗口多达100万个token,并与谷歌庞大的产品生态紧密相连。

即将发布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同样表现出色。

它运行速度极快且成本极低,比竞争对手的同类模型便宜得多。

Gemini 2.5 Flash非常适合应用于边缘计算场景,也便于集成到手机设备中。

Gemma 3是谷歌推出的开源模型,在性能上能与Llama 4、DeepSeek-V3等顶尖开源模型相媲美。

在性能和成本这两个关键指标上,谷歌的Gemini 2.0/2.5系列(包括Pro和Flash版本)占据着Pareto最优前沿。

这意味着谷歌性能最强的模型,成本控制得也很好;性价比最高的模型,性能同样出色。

这使其成为预算有限的开发者、企业和初创公司的理想选择。

在其他生成式AI领域,谷歌同样占据着主导地位。

谷歌宣布,将把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平台。它们在各自领域都是世界一流水平。

在智能体领域,开启深度研究模式的Gemini 2.5 Pro,表现比OpenAI的深度研究功能强一倍。

Gemini与OpenAI深度研究功能的对比

彩蛋:Dragontail

近期,网上流传着一款谷歌尚未正式发布的模型,代号「Dragontail」。

据称其在Web开发领域表现惊艳,甚至超越了旗舰模型Gemini 2.5 Pro。

Dragontail最早出现在WebDev Arena(https://web.lmarena.ai/)的测试环境中。

经开发者测试发现,在生成复杂用户界面、多页面网站和交互式应用方面,其展现出的能力远超其他模型。

尽管谷歌尚未官方确认Dragontail,它在某些测试中自称是「由谷歌训练的LLM」,这与Gemini 2.5 Pro的回应一致。

人们猜测它可能是谷歌内部开发的下一代模型,或者Gemini系列的升级版本。

Dragontail的实力究竟如何?根据测试者的反馈,这款模型在WebDev任务中的表现堪称碾压。

Dragontail在以下几个方面展现了绝对优势:

卓越的UI设计

Dragontail生成的UI元素,不仅功能完善,在布局、配色和交互性上也极具美感。

比如,当要求生成一个带有复杂导航功能的零售网站时,Dragontail能输出整洁的代码,里面包含动态加载的商品列表、响应式设计,页面切换效果也很流畅。

相比之下,即使是当前WebDev排行榜上表现出色的Gemini 2.5 Pro Experimental,在细节处理上还是差了一点,偶尔会出现布局不够直观,或交互不够顺畅的问题。

功能实现的完整性

Dragontail生成的Web应用,功能实现上几乎没有瑕疵。

从前端的JavaScript逻辑,到后端的API集成,它都能给出生产级别的代码。

比如,开发者要求生成一个带有实时数据更新的仪表盘,Dragontail不仅完成了前端可视化,还自动生成了后端模拟数据接口。

Gemini 2.5 Pro在做类似任务时,往往需要额外的提示才能把逻辑补全。

代码质量与优化

Dragontail的代码风格规范,遵循现代Web开发的最佳实践。

它生成的React或Vue组件结构清晰,状态管理井井有条,还包含了错误处理和性能优化。

相比之下,Gemini 2.5 Pro虽然也能生成高质量代码,但在复杂项目中,偶尔会出现冗余代码,或者不必要的复杂逻辑。

测试者一致认为,Dragontail在视觉效果、功能完整性和用户体验方面全面领先。

让人怀疑,Dragontail是否代表了谷歌在Web开发AI领域的全新突破。

(注:基于WebDev Arena测试数据、开发者反馈及社交平台X上的讨论,部分信息尚未得到谷歌官方证实,具体细节以未来发布为准。)

参考资料:

https://x.com/paulgauthier/status/1911495784908177694

https://www.thealgorithmicbridge.com/p/google-is-winning-on-every-ai-front

https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

相关文章
长春已出现!警方紧急提醒!

长春已出现!警方紧急提醒!

近期长春市发生了一起特别典型的 “关闭扣费类” 诈骗案件张女士被骗子以关闭抖音直播会员为由诱骗张女士下载了中银会议APP这个软件既有远程操控功能还有屏幕共享功能骗子通过此软件远程操控张女士的手机将张女士银行卡的钱从定期转到活期又分8笔向骗子账户转账82万元长春市反诈中心郑重提醒一定要多关心家中老人,

瑞可达2024年净利增长28.1% 人形机器人领域产品开发完成

瑞可达2024年净利增长28.1% 人形机器人领域产品开发完成

证券时报记者 李映泉4月14日晚间,瑞可达(688800)发布2024年年报,期内实现营收24.1亿元,同比增长55.3%;净利润1.75亿元,同比增长28.1%;扣非净利润1.63亿元,同比增长32.2%。公司拟每10股派息3.5元并转增3股。其中,公司2024年第四季度营收为8.25亿元,同比增

Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战

Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战

刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。谷歌,彻底打了一场漂亮的翻身仗。 aider多语言编程基准测试显示,Gemini 2.5 Pro近出世半个多月,编程能力已经是

REDMI K80至尊版6月就发?这些升级太狠了!

REDMI K80至尊版6月就发?这些升级太狠了!

4 月 14 日,知名科技博主 @数码闲聊站 爆料称天玑 9400+ 新机和平板新品或将提前发布,据传厂商正争取在6月底上市。图源:微博截图小雷之前也跟大家聊过最近会首批搭载天玑 9400+ 的新机,至今还没定档发布时间的,暂时只有 REDMI K80 至尊版了。据数码闲聊站之前的爆料,REDMI

粤港澳媒体湾区行|“一秒入冬”?在格力实验室“硬核”测试空调性能

粤港澳媒体湾区行|“一秒入冬”?在格力实验室“硬核”测试空调性能

南方财经全媒体记者 袁思杰 庄欢 珠海报道如何“硬核”测试一台空调的性能?4月14日,以“同心筑梦,共谋发展”为主题的粤港澳媒体湾区行在珠海正式开始。在格力电器总部,记者在探访活动中体验了先进的环境气候模拟实验室。据介绍,环境气候模拟室由内、外环境模拟室构成,外环境模拟室分为高温区和低温区。内环室依

OpenAI CEO山姆·奥特曼:DeepSeek并未影响GPT的增长 将推更好的开源模型

OpenAI CEO山姆·奥特曼:DeepSeek并未影响GPT的增长 将推更好的开源模型

【OpenAI CEO山姆·奥特曼:DeepSeek并未影响GPT的增长 将推更好的开源模型】财联社4月14日电,在日前举行的TED2025上,OpenAI CEO山姆·奥特曼表示,“DeepSeek的出现并未影响GPT的增长,将推出更好的开源模型。”(澎湃新闻)

六十余载集报十万多份,七旬老人家里有座“报纸博物馆”

六十余载集报十万多份,七旬老人家里有座“报纸博物馆”

在丰台区太平桥街道天伦北里小区,78岁的李铁光家里有座“报纸博物馆”。十万多份报纸从地板堆到天花板,占据了卧室、储藏间甚至阳台的每一个角落。集报60多年来,李铁光收藏了古今中外的3万多种报纸,其中还有上百种珍贵的“异形报”。他的集报故事,不仅是一段个人传奇,更是一部用报纸串联起的鲜活历史长卷,记录着

山西转型综改示范区:“人工智能+”释放企业新动能

山西转型综改示范区:“人工智能+”释放企业新动能

创造新场景 挖掘新需求 提升竞争力“人工智能+”释放企业新动能  烟火算法分析仪深度融合AI,0.3秒内精准识别初期火情;7厘米“科幻战士”破解高危场景难题;AI深度嵌入3D物理环境……这是山西转型综改示范区“人工智能+”辅助实现的工作场景。《2025年太原市政府工作报告》提出,实施“人工智能+”行