谷歌自家Android基准测试:Gemini成本为DeepSeek V4 Flash的17.5倍

谷歌Android Bench榜单显示Gemini 3.5 Flash单次运行成本$147,而DeepSeek V4 Flash仅$8.4,价差17.5倍。GPT-5.5以74分居首,国产模型GLM、Kimi、DeepSeek集体上榜。

谷歌自家基准测试翻车:Gemini成本为DeepSeek的17.5倍

谷歌更新了 Android Bench 榜单——一项专门衡量 AI 模型完成安卓开发任务能力的基准测试,对开发者选择模型有较强参考价值。结果颇具讽刺意味:谷歌在 I/O 2026 上高调宣称为"迄今最强 Flash 模型"的 Gemini 3.5 Flash 仅拿到 63.7 分排名第六,单次运行平均成本高达 $147.1(约合 996 元人民币),是整个榜单中最贵的模型。而 DeepSeek V4 Flash 单次运行成本仅 $8.4(约合 57 元人民币)——前者是后者的 17.5 倍

Android Bench榜单

榜单成绩与成本明细:

排名 模型 得分 单次成本
1 GPT-5.5 74.0
2 GPT-5.4 72.4
3 Gemini 3.1 Pro Preview 72.4 ~$49
4 Claude Opus 4.7 68.7
5 Claude Opus 4.6 66.6
6 Gemini 3.5 Flash 63.7 $147.1
7 智谱 GLM 5.1 59.7
8 Kimi K2.6 58.6
10 DeepSeek V4 Pro 55.4
12 DeepSeek V4 Flash 52.7 $8.4

国产模型方面,智谱 GLM 5.1(59.7 分)、Kimi K2.6(58.6 分)、DeepSeek V4 Pro(55.4 分)三款同时上榜,体现中国 AI 模型在开发者工具领域的集体存在感。

谷歌在 I/O 2026 上曾宣称 Gemini 3.5 Flash 编码能力更稳健、输出速度最高可达竞争性前沿模型的 4 倍,且在部分内部基准测试中优于 Gemini 3.1 Pro。但 Android Bench 的真实安卓开发场景数据给出了截然不同的结论——不仅分数未进前五,性价比更被 DeepSeek V4 Flash 碾压。即便是谷歌自家设计的基准测试,也无法为自家模型挽回颜面。在开发者用脚投票的时代,厂商的营销话术正在被真实场景的性价比数据系统性证伪。

版权声明:本文内容来自 IT之家 。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。

用户评价

  • 加载评价中...