当GPT掀起AI浪潮时,谷歌悄悄放出了自己的王牌。
双子座, 这个充满着高昂期待的多模态大模型, 自诞生起始便携带着光环。
它并非如同别的AI那般单单在文字游戏方面有所专长, 而是尝试去贯通文字与图像之间的界限, 还要冲破图像与视频之间的隔阂, 进而突破视频与音频之间的阻碍, 甚至打破音频与代码之间的壁垒。
我耗费了两周时长, 借助实际工作场景再三进行测试Gemini, 发觉它的表现的确存在诸多出人意料之处。
AI文章生成能力怎么样
很多人关心Gemini写文章到底行不行。
在关于“量子计算入门”的科普文的撰写方面, 我进行了不同的创作, 分别使用Gemini以及市面上其他那些主流模型所完成。
Gemini所给出的开头呈现出这样的情形, 想象一下, 当你的电脑并非是0和1的奴隶, 而是同时处于无数种可能性当中, 这个切入角度使得我眼前刹那一亮并有新奇之感。
在长文结构上,Gemini展现出了很强的逻辑性。
它并非写完一段便将上下文丢弃, 而是会主动去回顾先前提及的概念, 借助自然的过渡句把前后的内容串联在一起。
比如在解释完量子比特之后, 它会表述, “一旦理解了量子比特的独特之处, 方可明确为何量子计算机在特定问题上能够达成指数级加速”, 此种连上接下的写法手段开云正版app下载开云app在线入口,使得整篇文章的阅读感受极为顺畅。
不过Gemini也有短板。
由它所生成的文章, 在某些时候, 会呈现出过度学术化的倾向, 会自然而然地冒出一些专业术语, 且并不进行解释。
比如说, 当中提到这么一个内容, 即陈述为“量子纠缠态的非定域性致使引发了测量结果的坍缩”, 像是这样的一句话, 对于普通的读者而言, 那是相当具有劝退性的。
相比之下开云手机入口app下载开云app官方入口网站,有些模型会更注意用比喻来降低理解门槛。
多模态创作到底实不实用
Gemini最核心的卖点是多模态。
我试着上传了一张街头摄影照片,让它据此写一篇微小说。
Gemini剖析出了照片之中的关键要素, 要素包含, 如正在下雨的街道, 有着昏黄颜色的路灯, 还有一位撑着透明材质雨伞的行人。
它所撰写出来的故事, 将伞比作 “透明的庇护所”, 把路灯之下的雨丝描绘成 “天空在织一件银色的毛衣”。
这种跨模态的感知能力开云真人app,开云真人app地址,确实让人惊艳。
在实际工作中,我经常需要根据产品图片生成营销文案。
Gemini在这方面的表现相当稳定。
赐予其一张智能手表的图像, 它便可精准识别出表盘的材质, 能精确辨认出表带的纹理, 甚至还能明晰按钮的布局, 之后会生成像“这块手表并非用于查看时间, 而是用于搭配西装的”这般精准的文案。
可是它针对图片的细节把控并非足够细腻, 偶尔情况下将会忽略掉图片角落里的关键元素。
我还测试了Gemini的音频和视频理解能力。
把一段会议录音给予它, 它不但能够将其转写成文字, 并且还能够自行标注出不一样的发言人, 甚至还能够提炼出会议结论以及待办事项。
这个功能对于经常开会的团队来说,简直是效率神器。
对于视频分析领域而言, Gemini具备这样的能力, 它能够识别视频里的场景切换情况, 还能分辨人物动作, 甚至进一步做到理解剧情的走向。
标签: AI文章生成 多模态创作 图像识别 音频处理 视频分析
还木有评论哦,快来抢沙发吧~