Bendi新闻
>
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
5月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
论文链接:https://arxiv.org/pdf/2405.17871 代码链接:https://github.com/foundation-multimodal-models/CAL
可以直接嵌套到训练过程,无需额外预训练阶段。 在 OCR 和 Caption benchmarks 上获得了明显的提升,从可视化中可以发现 CAL 使得图片模态对齐效果更好。 CAL 使得训练过程对噪声数据抵抗能力更强。
与图片高度相关的文本:如实体(例如人、动物、物体)、数量、颜色、文字等。这些 token 与图像信息直接对应,对多模态对齐至关重要。 与图片低相关度的文本:如承接词或可以通过前文推断出的内容。这些 token 实际上主要是在训练 VLM 的纯文本能力。 与图片内容相悖的文本:这些 token 与图像信息不一致,甚至可能提供误导信息,对多模态对齐过程产生负面影响。
对于训练数据中的每个图文对,在没有图片输入的情况下,每个文本 token 上的 logit 代表着 LLM 基于上下文情况和已有知识对这种情况出现的估计值。 如果在前面添加图片输入,相当于提供额外的上下文信息,这种情况下每个 text token 的 logit 会基于新的情况进行调整。这两种情况的 logit 变化量代表着图片这个新的条件对每个文本 token 的影响大小。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!字节跳动豆包大模型支持实时语音通话;阿里发布Qwen2-Math:数学推理全球第一,超越GPT-4o丨AIGC日报字节发布豆包大模型,内部人士回应微软中国AI团队赴美,TikTok创作者诉美联邦政府,长城炮回应事故,这就是今天的其他大新闻!加快410倍!字节豆包新工作TiTok:全新图像Tokenizer!生成图像最低只需32个token字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍字节AI全面出击:比行业平均便宜99%,豆包「大模型家族」正式营业中科大保卫处要求硕士以上学历,校方回应:偏技术型;字节跳动“代码抄袭”案在美获受理;私人文档被“投喂”豆包?官方否认 | Q资讯iPhone 和 iPad 将升级眼球追踪功能;字节豆包大模型全面开启商业化;蔚来第二品牌发布首款新车 | 极客早知道字节豆包大模型发布!“比行业价格低99%”,对话火山引擎总裁谭待21.99 万元起,蔚来发布乐道汽车/微软内部人士回应中国AI团队赴美/字节发布豆包大模型老便宜了!字节跳动豆包大模型开始营业,一元钱能买125万Tokens,月活用户量达2600万字节的 AI 助手豆包,已经在污染互联网了腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法OpenAI发布新旗舰模型GPT-4o;字节跳动正式发布豆包大模型|AIGC周观察第四十三期字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代要结束了多名用户发现WPS疑似将文档共享给字节豆包训练AI WPS否认但没拿出证据ICML 2024 | 北大、字节提出新型双层位置编码方案,有效改善长度外推效果99元23本,仅4块钱1本,集齐小学生必读史记、寓言、神话、民间故事,字大图多画美抖音豆包成年轻人AI顶流!字节跳动大模型家族登场,tokens价格比行业低99%AI早知道|字节AI教育平台Gauth占美国教育应用第2名;钉钉AI多模态升级;亚马逊向Anthropic追投27.5亿美元