Bendi新闻
>
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
6月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
论文:https://arxiv.org/pdf/2403.14624.pdf 主页:https://mathverse-cuhk.github.io/ 代码:https://github.com/ZrrSkywalker/MathVerse 数据集:https://huggingface.co/datasets/AI4Math/MathVerse 题目:MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
a. 描述信息,Descriptive Information(DI,红色高亮部分)指的是图像中可直接观察出的内容。它描绘了基本图形组成、几何形状和空间布局。此类文本信息对于图像而言是重复性的,因此被视为解决问题的冗余信息。 b. 隐含属性,Implicit Property(IP,蓝色高亮部分)指的是那些需要更强的视觉感知能力才能从图像中辨识出来的属性。它代表着解决问题所需的较强视觉条件,如线条之间的平行性和垂直性、三角形之间的相似性和全等性、函数的种类和周期性。 c. 基本条件,Essential Condition(EC,绿色高亮部分)指的是题目中给定的具体数值,它们是推导解决方案不可或缺的条件,并且不能从视觉图表中直接得出,例如角度、长度的精确值和函数表达式。
MLLM 更依赖于文本信息去解题,而不是观察数学图像。 除 GPT-4V 和 ShareGPT4V 之外,大部分 MLLM 在没有图像输入的情况下,仅仅通过文本竟然可以获得更高的得分,证明如今低质量的视觉编码对于解题来说起到了负面的作用。 MLLM 很难从图像中准确的解读出题目中的基本条件和问题。 闭源模型的多模态数学解题能力要比开源模型更好。 通过比较 G-LLaVA 和 LLaVA-1.5,使用数学训练数据进行模型微调可以提升特定的解题能力,但是也会降低其泛化能力。 CoT 测评相比二元测评可以更全面的体现模型的逻辑推理能力。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
首个WebAgent在线评测框架和流程数据管理平台来了,GPT-4、Qwen登顶闭源和开源榜首!2024年Trader Joe’s最受欢迎榜单来了!这17样人气商品你试过了吗?仅用 30 分钟!开发者做“山寨版” VSCode 扩展,攻破 4830 亿美元巨头,甚至登上了官方热趋榜?直播网友AI写歌征婚,实测最新登榜音乐SOTA模型:免费无限次,一键生成新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测赴美留学必看!美国高校“大众点评”新榜单来了US News全美最佳高中排名来了,麻州榜单有什么变化?国内榜单评级,落后了国外多少年?全美最好的州!榜单出炉!你所在州上榜了吗?欧洲版《歌手》霸榜热搜?!“英区二手玫瑰”竟得0分,英网友:别回来了,丢人靠AI应用霸榜美国,中国教培巨头能迎来重估吗?GPT Store热度榜前 12 都是啥?我们帮你用了一遍又双叒导了?中科院等发布「近室温常压」超导新论文,相关话题一度知乎热榜第一侃爷又来惹霉霉了!把她写进新歌,暗讽她被自己挤下榜...又要开战!?首个WebAgent在线评测框架和流程数据管理平台,GPT-4、Qwen登顶榜首!2024英式经典下午茶必吃榜来了!首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源每日步数霸榜健康吗?两项研究显示:≥7000步/天可降低死亡风险72%,≥10000步/天可降低死亡风险55%,且步伐强度也重要500行代码构建AI搜索工具,贾扬清最新开源项目登顶GitHub热榜500行代码打造AI搜索引擎!贾扬清周末项目登顶GitHub热榜牛肉好评榜 TOP1是谁?当然是Swift 去骨牛后腿腱心!厉害了!新西兰又登榜世界之最!隐秘、免费而且人迹罕至!这10个新西兰夏季景点,一定要去一次!登顶预约榜、首测10万名额抢空,贪玩想在SLG搞一波大的面甜心硬!胡润富豪榜最年轻女性,她配吗?