谷歌Gemini 3.5 Flash安卓编程测试，资源消耗突出未进前五

admin AI新闻 2026-06-21 5

谷歌早前发布了新一期基准测试的结果, 将各主流AI模型于安卓编程领域的表现予以横向对比, 还公布了每个模型的Token使用成本。测试结果表明, 谷歌自身的Gemini 3.5 Flash在安卓开发里资源消耗极为突出至极, 甚而都没能在其中进入前五名。

谷歌Gemini 3.5 Flash安卓编程测试，资源消耗突出未进前五-第1张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

伴着通用聊天机器人热度渐渐降低温度, 谷歌公司、OpenAI公司、Anthropic公司等一众公司接二连三把重点转移到拥有编程能力的智能体模型上。用户也开始依靠这类模型开展“氛围编程”——那就是把大多软件开发工作交给大语言模型去完成。

各模型于安卓编程范畴内的能力, 在近几个月期间明显得到提升, 谷歌对各模型表现会锲而不舍地持续追踪且予以记录, “Android Bench”基准测试会伴随谷歌新模型的面世而作出更新, 也就在此情况中纳入了最新的Gemini 3.5 Flash, 并且会把它与竞争产品相互进行对比。

这个测试的核心评估办法有着这样的特点: 每一个模型在十次运行期间成功解决安卓编程问题的占比情况, 其满分设定为一百分数。谷歌另外还列举出了预期表现以及最近一次测试的日期, 部分取得高分的模型的数据甚至能够详细追溯到今年的二月份。

在最新一期的Android Bench排名里头, 所呈现的结果实在是让人感到意外, Gemini 3.5 Flash仅仅只是排在了第六名, 在它之前更是落后于GPT 5.5, 还有早在今年2月就已经完成测试的Gemini 3.1 Pro Preview。

Gemini 3.5 Flash早前被认定为是相较于Gemini 3.1 Pro更具有价格优势且速度更快的替代选择, 官方所预估的性能差距为6.1%。可是最新的基准测试得出是不一样的判断: 在安卓环境开发的情景下, Gemini 3.5 Flash不但延迟程度更为高些, 而且任务成功的比率是低了同样为多个百分点的9！

更为关键之处在于成本的对较, 谷歌的这款最新模型, 在单次基准测试里, 平均消耗355.9个Token，为此花费了约147.1美元, 然而Gemini 3.1 Pro Preview仅仅消耗73.3个Token, 其费用大约是前者的三分之一。

可以肯定的是, 必须要明确指出的是, 谷歌当下在榜单之上列举出来的所显示的仍然偏偏就是处于Gemini 3.1 Pro的预览版本。但其即便已然是这样的情况了, 然而这款处于预览状态的版本模型所获取的得分却依旧是高于一款已然被官方进行大力宣扬为具有一种更加快速、更为高效这样子特点功效的正式版本的模型, 这样的一种结果真的是相当的耐人寻思让人琢磨不已的。

GPT 5.5单次运行成本和Gemini 3.5 Flash接近, Gemini 3.5 Flash在Android Bench测试里Token消耗量是GPT 5.5的5.5倍。Anthropic的上一代模型Claude Opus 4.7排第四, 其运行成本稍低, Token用量也少些, 处于中游位置。谷歌还没公布Opus 4.8或Fable 5的基准测试得分。

这是谷歌, 于最新一期的Android Bench里, 所公布出来的, 前十名模型的排名情况:

榜单里头, 存在多款开放权重模型, 同时还涵盖Claude、GPT这类有名的闭源模型。和上一期相比较的情况下, 榜单靠前部分的排名大体维持原状, 单单有的调整便是GPT 5.3 Codex已经自名单里头拿掉了。

完整排名可在谷歌官方网站上查阅。

伴随着更多模型测试全部完成, 谷歌会定期去更新这个榜单。就整体而言, 这份榜单是能够用来衡量各个模型于安卓开发领域表现的可靠参照依据。Gemini 3.5 Flash在别的大语言模型以及智能体任务当中真的是表现优异, 虽说谷歌针对其成本以及使用上限作出了一定的调整, 然而它在安卓编程方面存在的短板也绝对不能被忽视。

Q&A

Q1: 安卓基准测试是什么, 谷歌运用它去评估什么呢?

Android Bench是谷歌所发布于一项基准测试其专门用以评估各主流AI模型在安卓编程领域的表现每个模型会历经10次运行将以成功解决安卓编程问题的百分比当作得分满分为100分谷歌会在随新模型发布之际持续更新榜单并同时公布每个模型的Token使用量以及对应成本以此来帮助开发者挑选出最适配安卓开发场景的AI模型。

那么问题二, Gemini 3.5 Flash, 在Android Bench这个测试环境里, 究竟呈现出怎样的一种表现状况呢?

A: Gemini 3.5 Flash于最新一期Android Bench里仅仅位列第六 , 不但没能跻身前五 ,而且还落后于更早进行测试的Gemini 3.1 Pro Preview。它单次基准测试平均耗费355.9个Token , 花费大概147.1美元 , 是Gemini 3.1 Pro Preview成本的大约3倍 , 与此同时任务成功率还降低了9个百分点 , 延迟也更高 , 在安卓编程场景中性价比表现不好。

问题3: 当下, 在Android Bench里, 处于靠前位置的AI模型是哪一些呢?

依据谷歌才最新公布出来的Android Bench清单, 在排列靠前面位置的那些被叫做模型的东西里, 有像GPT 5.5、Gemini 3.1 Pro Preview这样的闭源类模型, 还有好些款开放权重类型的模型。然而Claude Opus 4.7处于第四的排名, 它的消耗及运行所涉及到的成本处在那些模型中的中游层级范围。和上一期相比较而言, 清单那些在前段部分的排名大略是稳定着的, 其中主要的变化就是GPT 5.3 Codex这一事项已经从清单里被去除掉了。

标签：谷歌 AI模型安卓编程基准测试资源消耗

本文地址： http://www.yourphoneheres.com/post/1879.html