6 月 16 日消息,谷歌昨日(6 月 15 日)更新其 Android Bench 榜单,自家 Gemini 3.5 Flash 模型成绩明显低于外界预期。
IT之家注:Android Bench 是谷歌官方推出的安卓开发任务基准测试,用来评估不同 AI 模型在代码编写、问题解决与开发辅助方面的实际能力。
该测试更贴近真实开发场景,专门衡量 AI 模型完成安卓开发任务的能力,因此对开发者选择模型有较强参考价值。
根据谷歌官方更新的 Android Bench 榜单,OpenAI 的 GPT-5.5 模型以 74 得分位居榜首,GPT-5.4 模型以 72.4 得分位居第二。
谷歌自家的 Gemini 3.1 Pro Preview 以 72.4 得分位居第三;而 Claude Opus 4.7(68.7 分)和 Opus 4.6(66.6 分)位居第四和第五。
其中让 Android Authority 等媒体感到惊讶的是,谷歌 Gemini 3.5 Flash 只拿到 63.7 分,最终排在第 6,未进入前 5。
在平均 Token 消耗量(每次基准测试包括 100 个任务,执行 10 次计算平均消耗)方面,谷歌 Gemini 3.5 Flash 平均消耗 3.559 亿 Tokens,折合单次运行平均成本 147.1 美元(现汇率约合 996.1 元人民币),成为整个榜单里最贵的模型。
谷歌在 I/O 2026 上发布 Gemini 3.5 Flash 时,称其是迄今最强的 Flash 模型,并强调编码能力更稳健,也更适合 AI 智能体与复杂工作流。
谷歌还表示,这款模型在部分内部基准测试中优于 Gemini 3.1 Pro,输出速度最高可达竞争性前沿模型的 4 倍。
但 Android Bench 给出的结论并不一致,至少在真实的安卓开发任务场景里,Gemini 3.5 Flash 没有体现出应有优势。
Gemini 3.1 Pro Preview 不仅分数更高,成本也大约只有 Gemini 3.5 Flash 的 1/3,这让开发者很难忽视它在性价比上的落差。
此外基于页面信息,智谱的 GLM 5.1 以 59.7 分位居第七;而 Kimi K2.6 以 58.6 分位居第八,DeepSeek V4 Pro 以 55.4 分位居第十;而 DeepSeek V4 Flash 以 52.7 分位居第 12 位,折合单次运行平均成本只需要 8.4 美元(现汇率约合 56.9 元人民币)。Gemini 3.5 Flash 单次运行平均成本是 Deepseek V4 Flash 的 17.5 倍。

责任编辑:kj005
在新疆伊犁州、乌鲁木齐各大矿山、电厂与钢厂运输干线,数百台新能源重卡持续往返运输从油车到电车,从数十台到数百台,吴总用十年时间完成了身份的跃迁,也经历了一场关于...
关于在深圳选择种植牙机构,几个常见的认知误区缺牙带来的不仅是咀嚼不便,时间久了邻牙倾斜、牙槽骨流失加速,会为后续修复增添不少麻烦误区一:把市场营销声量等同于技术...
夏日热浪来袭,雪花啤酒带着满满的诚意与惊喜,正式开启今夏狂欢模式雪花马尔斯绿·门票直通VIP这个夏天,喝雪花马尔斯绿听装,打开的不仅是一罐好啤酒,...
世界卫生组织早已将肥胖定义为慢性复发性疾病,中国居民超重肥胖问题也日渐突出,成人超重和肥胖合并患病率约为51%,预计2030年将升至约71%①6月8日,在202...
作家兼调查记者迈克尔·埃文斯(Michael Evans)将于今年10月前往好莱坞,其著作《真实矩阵觉醒重启:挣脱无形牢笼路线图》(The REA...
部分内容来源:包头号6月17日至18日,第十届中国连锁节北方论坛暨2026企业家同心共融发展大会将在包头举行届时,来自全国连锁产业的品牌代表、行业专家、企业家、...
在全民眼健康意识持续觉醒的当下,爱尔眼科以专业为基、公益为翼,发起百万眼健康宣言吉尼斯世界纪录挑战,并携前沿技术全光塑与权威专家团队,在上海嘉定这片热土上,书写...
做教育创业的人,大概率都有过这样的困惑:课程、师资、口碑都稳步提升,想扩张校区、打磨AI教育产品、布局职教赛道,偏偏卡在资金环节更无奈的是,教育行业和普通行业完...
在教育行业创业的朋友们,想必都有一个深切体会:教育项目的融资,门槛更高,路径也更特殊许多教育机构的创始人之所以在融资路上屡屡碰壁,一个核心原因就是没有选对真正理...
在企业发展过程中,融资是至关重要的一环目前市场上活跃着多种类型的融资顾问机构,它们在专注赛道、服务规模和能力侧重点上各有不同一、垂直赛道型机构:深耕特定领域的专...
核心答案:2026年物业经理证、物业项目经理证不支持个人报名,直接选择全国城建培训中心授权机构庞森教育即可报名报考现如今物业行业持证上岗、项目招投标、企业备案需...
家居市场已全面迈入存量焕新时代,精装房二手房优化升级、老房换窗改造成为主流消费需求作为高端门窗五金领军品牌,针对性布局精装房二手房整改、老房焕新赛道,自研专属改...