Bendi新闻
>
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
4月前
新智元报道
新智元报道
【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。
研究背景
多模态大型语言模型(MLMM)在近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。
一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就,但由于处理分辨率有限,以前的多模态大语言模型并没有很好地实现详细的场景理解。
对图像的切分操作不可避免地会分割物体和连接区域,从而削弱了MLLM识别小物体或不规则形状物体的能力,特别是在文档理解的背景下。
这种策略将引入两种类型的语义不连贯:
1. 如果一个对象或字符被分割,它可能无法被识别。例如,切分后的鼻子看起来非常像猴子,如图1(b)所示;
2. 如果对一个词或句子进行分词,会造成被分词的语义损害。例如,单词「Classrooms」可能被分为「Class」和「rooms」,这会对分割后的单词造成语义损害。
为简单起见,作者称这个问题为锯齿效应。一个非常直接的想法是采用重叠切分策略来解决这个问题,如图1(c)所示。
方法思路
有效缓解由切分增大分辨率导致的「后遗症」
总结
同时,作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。
微信扫码关注该文公众号作者
来源:新智元
相关新闻
在多伦多,我得了“繁花”后遗症!但逛完这家华人超市被治愈了感冒好了身体还有这些“后遗症”?专家警告:切勿轻视!双向、药靶、多变量、非线性孟德尔知识库全都有!“疑难杂症”一键解决!“高分套路”应有尽有!双向、药靶、多变量、非线性孟德尔知识库全都有!“疑难杂症”一键解决,“高分套路”应有尽有!多伦多女子饱受20年“强迫症”折磨!不敢摸门把手、天天担心家人死!40w加拿大人确诊!手术救命罕见!越来越多的美国人抛弃智能手机!改用“傻瓜机”!10年时间抑郁、焦虑症狂增50%…北京初代丁克现状刷新认知:上岁数了,“后遗症”果然来了…好莱坞患上“罢工后遗症” 剧组陷入“危机”恐慌澳洲保健品有毒!男子浑身抽搐,皮肤脱落,可能造成永久后遗症!1000多澳人差点因此终身瘫痪英国“恐华症”又发作,快治!“高考后焦虑症”来袭!北大教授呼吁:与其怕孩子选错专业, 不如关注这3件事新冠后遗症危害超出想象!越来越多澳人患上心脏疾病,GP呼吁民众注意预防16年神仙友谊!“霉霉”泰勒和赛琳娜!抑郁症、分手、被诋毁、艰难时刻不离不弃!教会我们一件事...震惊!美国人开始「抛弃智能手机」改用「傻瓜机」10年时间抑郁、焦虑症狂增50%…已有多人死亡!比新冠更“凶猛”!NZ这一疾病高峰来袭,症状更重!华人当心!恋爱中你以为的“渣”,不过是原生家庭未被疗愈的后遗症注意防蚊「致命病毒爆发」20%感染者现腹痛、吐血症状,无治疗方法!美国宣布进入紧急状态成年后战胜“拖延症”,我重获对生活的掌控感4天解决孩子“学习困难症”!知名专家精准解密:不是孩子不想学,是身体不允许!知名歌手自曝患病!网友心有余悸:太疼了!医生:后遗症可长达10年……原来真有“长女综合症”!不是病,却是很多女性一生的枷锁......恭喜他们!原来远离“抑郁症”的孩子,都有这样的父母家人崩溃!加拿大41岁华人男子癌症晚期看不到专科!医生:“绝症病人太多,来不及!”最担心的还是来了!最新研究表明,新冠后遗症对大脑影响,恐持续20年!