谷歌Gemini 3.1实时语音模型上线，语音编程秒改界面

admin AI新闻 2026-06-16 10

近日, 谷歌推出了全新的实时语音模型Gemini 3.1 Flash Live, 这标志着语音交互技术进入了一个新的阶段, 该模型在Gemini应用、Search Live以及Google AI Studio同步上线开云手机入口app下载开云app官方入口网站开云真人app,开云真人app地址开云app在线入口,开云真人官方下载，开发者能够通过预览版率先去体验语音驱动应用开发等创新功能, 据多项评测所显示, 它的性能已经超越了GPT-Realtime-1.5、Qwen3 Omni 30B等同类模型, 从而引发了行业对于语音交互革命的广泛讨论。

核心升级将重点放在实时语音Agent能力上, 其中, 最吸引眼球的是“语音编程”（vibe coding）功能。在Google AI Studio里, 开发者能够凭借自然语言指令直接对应用界面作出修改, 比如提出“放大麦克风图标”或者“添加黄色波点背景”的要求, 系统可以立刻生成相应视觉效果。此种交互方式冲破以往传统编程模式, 让开发历程更贴近人类思维节奏, 在测试期间, 用户甚至能够于单次对话里达成从基础布局直至风格重做的整个流程调整。

模型于连续对话处理领域达成关键突破。其上下文记忆窗口拓展至前代的两倍, 能支持200多个国家和地区实施跨语言实时交互。于复杂场景测试之际, 一旦用户陡然切换语言或者插入现实情境信息（像“刚从医院回来”）, 系统依旧能够维持对话连贯性。此项能力在针对老年用户的AI硬件设备Ato的演示里格外显著, 模型能够毫无缝隙地切换英语跟西班牙语去完成日常陪伴交流。

有第三方评测验证证实了性能得到提升, 在ComplexFuncBench音频测试里显示, 其函数调用准确率达到了90.8%, 相较于去年十二月版本提升了19.3个百分点。在Scale发布的Audio MultiChallenge榜单那儿, 该模型凭借36.1%的得分领先GPT - Realtime - 1.5（34.7%）还有Qwen3 Omni 30B（24.3%）。是这些数据表明, 模型于工具调用、多语言处理等核心指标方面已形成了技术优势。

伴随商业落地加速, 技术有了突破性进展, 谷歌公布了API的定价策略, 其中文本输入每百万token收取0.5美元, 音频输入则是3美元, 并且支持多模态混合调用, 当前这个版本正在分批推送给移动端用户, iOS设备以及安卓设备都已经陆续收到了更新, 然而初期体验报告显现出, 中文语音交互依旧存有机械感，多轮对话偶尔会出现中断状况, 完整连续性需要进一步予以优化。

新态势下, 行业竞合格局得以呈现。国内的阶跃星辰Step - Audio, 其中的R1.1, 刚刚于Artificial Analysis语音推理榜单之上, 荣获登顶佳绩, 其准确率高达96.4%, 由此展现出中国团队于特定领域内, 所具有的领先优势。进行对比可知, 谷歌更为注重构建全栈语音能力体系, 该体系覆盖从开发工具一直延伸到消费级应用的, 一整个的完整链条；而国内的同类型产品, 则更加着重强调用户粘性, 借助情感化交互设计这样的方式, 去积累规模效应。便是这样的差异化竞争状态, 正在推动语音Agent技术, 朝着更为深层层次进一步朝前发展。

标签：语音模型实时交互语音编程多语言处理技术竞争

本文地址： http://www.yourphoneheres.com/post/1719.html