Google宣称推出眼下最新的音频模型Gemini 3.5 Live Translate, 此模型会于Google AI Studio、Google Translate以及Google Meet等产品里, 供应近乎实时等级的语音同传能力, 并且支持70多种语言的语音到语音的翻译, 该模型能够自动去识别多语言输入, 在保持语音自然情形下流畅的状况时, 能够及时把源语言的内容开云真人app官方版入口,开云真人app官网入口,翻译成为目标语言的语音样式, 尽可能地还原说话之人的语调、节奏和音高后的语音样式。

和传统那种要“说完一句再逐个翻译一句”的轮流式办法不一样, Gemini 3.5 Live Translate 会持续去生成译文语音, 能在“等待更多上下文内容以便提升质量”以及“尽快输出结果从而保持同步”之间进行平衡调控, 进而让译音在讲者之后一直只落后几秒时间, 并且尽可能地去减少尴尬停滞情况的出现。
Google作出介绍, 曾开展二十年前起始的, 早年间的机器学习实验, 那是其进行机器翻译探索的开端, 历经好些年的发展之后, 当下Google旗下有着好些产品, 多个产品每月都已经为数量达到数十亿的用户做出翻译, 其翻译总量超过万亿字词。Gemini 3.5 Live Translate被看作针对长期布局所迈出的新一步, 这一步会将从“语言科技”范畴进一步延伸至“实时跨语沟通体验”之内。
Gemini 3.5 Live Translate会率先在多条产品线当中推开, 朝着众多产品线去推行。对于开发者而言, 该模型已经借助Gemini Live API以及Google AI Studio面向公众进行预览性质的开放, 以此方便在各类应用以及服务里集成语音同传能力, 借助它集成语音同传能力很便捷。对于企业用户来讲, Google会在本月开始于Google Meet当中举行私测, 通过私测来助力企业视频会议达成多语言实时语音翻译的效果, 帮助企业视频会议能够实现多语言实时语音翻译。以普通用户而言, Gemini 3.5 Live Translate会借助Android版谷歌翻译应用, 向全球逐次推送, 同时也依托iOS版谷歌翻译应用, 向全球逐一发布, 分别有序达成, 分步有序延展标点。
就具体能力而言, Gemini 3.5 Live Translate能够在语音流输入之际立刻展开处理, 无需用户提前手动进行语言选项的配置, 它能够自动辨认多种语言, 并且在嘈杂、难以预料的声学环境下维持相对稳定的表现。Google宣称开云手机入口app下载开云app官方入口网站,借由这个模型, 开发者能够更为轻易地针对多语种电话、在线课程、多语直播以及活动解说等场景搭建实时语音翻译或者口译服务。
Google公布了多家合作伙伴围绕Gemini Live API的平台级集成方案, 其中有Agora, 有Fishjam, 有LiveKit, 有Pipecat, 还有Vision Agents等开发平台开云正版app下载开云app在线入口,这些平台负责处理底层的实时音视频流基础设施, 使得开发者能够更多地把精力集中于产品体验设计上。另外出行平台Grab已率先测试该模型, 用来在乘客与司机接送点电话沟通里提供近乎实时的多语种语音翻译服务。上月, Grab 用户依托平台拨打的语音通话量, 超出了 1000 万次, 于测试所反馈的要点里, 着重认可了模型于多语言自动检测方面、翻译质量层面以及低延迟呈现上的综合能力。
CJ ENM公司, 在内部测试里给出正面评价, 认为Gemini 3.5 Live Translate在翻译准确度方面有明显优势, LiveKit公司同样如此, 在内部测试中认定该技术在响应速度以及多语种支持等方面展现出显著优势, 除Grab外。
在企业协作的场景当中, Google Meet 的语音翻译功能, 将会很快全面接入 Gemini 3.5 Live Translate。经过升级之后, Google Meet 的语音翻译, 会从之前仅仅支持 5 种语言, 扩展到 70 多种语言。并且能够在单场会议里, 实现 2000 多种语言组合之间的相互翻译。而不再被局限于“仅仅在英语与其他语言之间”这种单一枢纽模式。与此同时, Google Meet 的界面将会进行设计方面的更新, 借此从而能够让用户更加迅速地开启语音翻译功能。并且这样的升级当前会首先朝着部分企业版 Google Workspace 的客户, 以私人测试的形式向外推出, 同时还规划在今年的较晚时期扩大覆盖的区域范围。
于移动端应用层面, Gemini 3.5 Live Translate会借由Google翻译应用, 在全球范围逐个上线, 涵盖Android以及iOS用户。当运用“实时翻译”功能之际, 使用者只要连接随便一副耳机, 就能获取更自然、契合说话者口吻模样的跨语言语音翻译感受, 且支持70多种语言。
就 Android 用户而言, Google 引入了全新的“听筒聆听模式”。在此模式下, 用户能够把手机贴近耳朵, 如同接打普通电话那般, 借助手机听筒直接收听译文语音, 而无需外接耳机。此方式适用于这样的场景, 即用户期望低调、私密地获取翻译结果, 然而当下却不方便佩戴耳机, 像参观讲解、公共场合对话等情况。
在安全跟可信这儿领域之中, Google进行着重的强调, 那就是所有经由Gemini系列模型所生成的音频内容, 都会借助SynthID技术去开展数字水印处理工作。这个水印是以一种不可被感知的方式嵌入到音频输出里面去, 它是为了方便在后续的检测过程当中能够识别出AI生成的内容, 以此在一定的程度上面协助防范信息误导以及滥用的那种风险。至于Gemini 3.5 Audio等某些具体模型在安全跟责任方面的相关设计, Google呢还专门提供了详尽的模型卡文档以供外界去查阅。
标签: Gemini3.5LiveTranslate 语音翻译 多语言支持 GoogleAIStudio GoogleMeet
还木有评论哦,快来抢沙发吧~