Bendi新闻
>
视觉错觉也能识别?被忽略的 Gemini 1.5 Flash 有哪些神奇表现?|AI 鲜测
视觉错觉也能识别?被忽略的 Gemini 1.5 Flash 有哪些神奇表现?|AI 鲜测
5月前
高速响应:优化后的架构使其在处理大量数据时能迅速响应。
长上下文窗口:支持长达两百万标记的上下文处理,使其能够应对复杂的任务,如长视频分析和多章节文档生成。
多模态处理:不仅能处理文本,还能对图像、音频和视频进行深入分析和理解。
场景1:科普撒切尔效应
最近无意中看到一个有趣的图像实验,看看 Gemini 1.5 Flash 怎么说。
场景2:教我玩游戏!
既然 Gemini 1.5 Flash 视频分析能力比较强,把这个游戏的视频发给它,看它能否带我们成功通关。
场景3:看图讲故事
它能在10s左右生1万字故事的内容大纲,并分好章节,有每一章的简单介绍,很有条理。
它能在3~5分钟内生成1万字故事每一章的详细内容(手动输入不友好),同时能够有效保持前后文的一致性,确保故事情节流畅,细节丰富。
场景4:这个视频讲了什么?
Gemini 1.5 Flash 不仅可以识别出视频的主要是讲啥的,而且分析出视频中上下左右每个图片的具体内容,比如通过旋转参数的调整,可以看到图像中卡通老人的姿态发生变化,分析效果直观明了。
但同样的问题问 ChatGPT,视频针对于视频的分析并不能直接分析,反而回答提取一帧一帧的画面进行分析,我们还是期待一下 GPT-4o 的更新吧。
场景5:这本书值不值得买?
最后
在图片测试中,Gemini 1.5 Flash 不能直接生成图片,这一点得向 ChatGPT-4o 学习学习。
在视频测试中,Gemini 1.5 Flash 虽然能识别视频中的主要内容和画面细节,但在处理音频输入时还有些不足,这在多模态输出方面也体现出来。
微信扫码关注该文公众号作者
来源:硅星人Pro
相关新闻
人类都看不懂的甲骨文,AI 能猜到啥意思?|AI 鲜测假期被“Remini”硬控五天,这就是古希腊掌管粘土人的神?|AI 鲜测用国考题来测试“百小应”和 GPT-4o,到底谁能成功上岸?|AI鲜测原来 ChatGPT Search 已经出了?|AI鲜测你有哪些“隐藏”的情绪炸弹?|免费测试视觉|40年前的高考考生,和今天有什么不一样?有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini|现场围观Google I/O的绝地反击三大模型联手爆改《流浪地球》结局!如果你是刘培强,你是认命还是怀抱希望?|AI 测评室爱情曾给你留下了哪些阴影?|免费测一测爱情曾给你留下了哪些阴影?|免费测阴影指数你的内外人格有什么不同?|免费测你的两种人格一秒打造直角肩,穿出小蛮腰,竟然有短袖可以达成这样的视觉效果?亲密关系里的剧本,你属于哪一种?|免费测评哪些美高更喜欢视觉艺术特长的学生?| FS问答精选——兴趣特长类你敢来看婚姻背后的真相吗?测完你就醒悟了|免费测试你的心防有多重?一分钟测出你内心深处的“面具”你的内心深处,暗藏着哪些真实的欲望?| 免费测试童年阴影对你的影响有多大?|免费心理测试爱发脾气怎么办?警惕自我的情绪炸弹|免费测试“林间聊愈室”给了我一个自由的AI朋友圈:只有动物,不需要人类|AI鲜测OpenAI投资,前苹果设计师开发的AI应用,拥有超强记忆力成为最懂你的“人”!|AI鲜测用Luma的图生视频功能,给地狱笑话再加点料|AI 鲜测中文得分世界第一,多项盲测并肩 GPT4o,这个国产大模型怎么就成了 AI 界的黑马?CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题