谷歌重磅提出Med-Gemini ：医学大模型里程碑之作！医学航母正式起航！

国际科技财经移民娱乐民生时事体育

Bendi新闻

9月前

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和医学影像】交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：AI寒武纪

就在刚刚Google推出新型医学 AI 模型

Med-Gemini

Capabilities of Gemini Models in Medicine

论文：https://arxiv.org/abs/2404.18416

opencat第一时间带来关于Med-Gemini详细信息

人工智能能否在复杂的医学领域大放异彩？谷歌今天最新发布的 Med-Gemini 医学模型家族，以其在临床推理、多模态理解和长文本处理方面的突破性进展，给出了肯定的答案

模型概述

Med-Gemini 是基于 Google 强大的 Gemini 模型构建的多模态医学模型家族。它融合了高级推理、多模态理解和长文本处理能力

提升临床推理能力：通过自我训练和网络搜索集成，Med-Gemini 能够更准确地进行诊断和推理，并在 MedQA (USMLE) 等基准测试中取得了当前最佳性能
‍
改进多模态性能：通过微调和定制编码器，Med-Gemini 可以更好地理解和处理多种医学数据模态，如文本、图像、视频和生物信号

‍
强大的长文本处理能力： Med-Gemini 能够有效地分析和理解长篇医学信息，例如电子健康记录(EHR)和医学教学视频，并在相关基准测试中取得了当前最佳性能

研究人员用了14个医疗基准测试Med-Gemini的能力。结果发现,它在10个基准上都取得了最佳表现,远超之前最强的GPT-4模型

在流行的医学问答测试MedQA上,Med-Gemini达到了91.1%的准确率,比之前最好的模型高出4.6%

在医学文本摘要、转诊信生成和医学简化任务中，Med-Gemini 的表现优于人类专家。此外，Med-Gemini 还能够进行多模态医学对话，为临床医生和患者提供更自然、高效的交互方式

Med-Gemini 构建方法

Med-Gemini 模型家族的构建基于 Google 的 Gemini 模型，并针对医学领域进行了专门的优化和改进。主要方法包括：

1. 高级推理

自我训练与搜索集成

Med-Gemini通过在 MedQA 数据集上进行自我训练，学习如何有效地利用网络搜索进行临床推理

‍

模型会根据自身的不确定性，自动生成搜索查询并整合搜索结果，以提高答案的准确性和可靠性。

2. 多模态理解

多模态微调：

Med-Gemini在多个多模态医学数据集上进行了微调，以提升其对医学图像、文本和其他模态数据的理解能力

定制编码器：

Med-Gemini通过使用专门的编码器层，展示了 Gemini 模型适应新医学数据模态（例如心电图）的能力

3. 长文本处理

指令提示与推理链：

Med-Gemini利用其长文本处理能力，通过指令提示和推理链，有效地解析长篇医学信息，例如电子健康记录和医学教学视频

‍

在“大海捞针”任务中，模型能够从长篇 EHR 记录中准确地检索和验证罕见或细微的医疗状况、症状和程序

‍

在医学视频理解任务中，模型能够定位与查询相关的视频片段，并识别手术视频中的“安全关键视图”

百闻不如一见

以上的介绍只是常规操作，下面我们通过几个真实世界的临床例子来一睹究竟医学大模型已经进化到了什么程度‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

1 . Med-Gemini 在皮肤科场景下的多模态诊断对话示例

Med-Gemini-M 1.5 在皮肤科场景下进行假设多模态诊断对话的示例，并提供了皮肤科医生对对话内容的定性反馈。

(a) 对话示例

用户与 Med-Gemini-M 1.5 进行交互，模拟患者描述症状并提供病变图像。
Med-Gemini-M 1.5 表现出以下能力：

多模态信息获取： 当用户没有提供图片时，模型会主动要求提供图片。
开放式诊断： 模型能够根据患者的描述和图片，有效地得出正确的诊断结果（prurigo nodularis）。
可解释性： 模型能够解释其推理过程，包括整合相关的视觉特征和其他收集到的患者症状。
治疗方案建议： 模型能够回答有关治疗方案的问题，同时适当地将最终决定权交给专家。

(b) 皮肤科医生的反馈

皮肤科医生对对话内容进行了定性评估，并指出了积极和消极的方面。
积极方面：

模型能够根据有限的信息准确诊断出相对罕见的 prurigo nodularis。
模型提供了完整和全面的治疗方案建议。

消极方面：

模型可以要求提供更多不同部位的病变照片以加强诊断。
模型可以提供鉴别诊断，并解释为什么根据病史更倾向于 prurigo nodularis 的诊断。
模型可以强调 prurigo nodularis 虽然无法治愈，但可以改善和控制症状的可能性

2. Med-Gemini 在放射科场景下的多模态诊断辅助对话示例

Med-Gemini-M 1.5 在放射科场景下进行假设多模态诊断辅助对话的示例，并提供了放射科医生对对话质量的反馈。

(a) 对话示例

Med-Gemini-M 1.5 分析一张胸部 X 光片 (CXR)，并与一位初级保健医生进行模拟对话。
Med-Gemini-M 1.5 表现出以下能力：

识别影像学异常： 模型识别出脊柱轻度退行性改变。
解释推理过程： 模型能够解释其得出该发现的推理过程。
医学知识： 模型展示了关于退行性椎间盘疾病的医学知识。
相关性和因果关系： 模型能够区分患者背痛病史的相关性和因果关系。
通俗易懂的解释： 模型能够用通俗易懂的语言解释其发现，有助于促进患者对临床信息的理解和沟通。

(b) 放射科医生的反馈

放射科医生对对话的质量给予了积极的评价，认为该对话展示了模型在现实世界中的应用潜力。
积极方面：

对话场景真实，反映了临床实践中的实际需求。
模型能够生成放射学报告，并展示了其医学知识和推理能力。
模型能够区分相关性和因果关系，体现了其对医学知识的深入理解

3. Med-Gemini 在长篇 EHR 理解任务中的长文本处理能力

Med-Gemini-M 1.5 在长篇 EHR 理解任务中的长文本处理能力，具体任务是从长篇 EHR 记录中检索“大海捞针”式的医疗状况。

Med-Gemini-M 1.5 执行两步过程来确定患者是否具有特定病史：

(a) 第一步：检索

模型识别 EHR 记录中所有提及“体温过低”的文本片段，并提供直接引文（例如“+出汗。口腔温度 93.7。转入重症监护室 (MICU)”）和每个提及的笔记 ID。

(b) 第二步：判定存在

模型评估每个检索到的提及的相关性，将其分类为“明确确认”、“强烈指示”或“相关提及”。
基于此分析，模型得出结论，患者确实有体温过低的病史，并提供了明确的推理过程。

这个例子展示了 Med-Gemini-M 1.5 处理长篇医学文本并从中提取关键信息的能力，这对于临床医生来说非常有价值，可以帮助他们更有效地了解患者的病史并做出更明智的决策。

4. Med-Gemini在手术视频理解中的长文本处理能力

Med-Gemini-M 1.5 如何分析手术视频，并评估其中是否实现了“安全关键视图 (CVS)”。

具体步骤：

Med-Gemini-M 1.5 分析来自 Cholec80 数据集的视频片段，该片段包含腹腔镜胆囊切除术（一种微创手术）的镜头。
模型评估了定义 CVS 实现的三个标准是否得到满足，并为每个标准分别提供了详细的解释：

标准 1： 清晰显示连接到胆囊的两个管状结构。
标准 2： 仔细解剖的肝囊三角，仅显示两个囊性结构和囊板。
标准 3： 胆囊下三分之一从囊板上解剖下来。

说明 Med-Gemini-M 1.5 能够理解复杂的手术过程，并根据预定义的标准进行评估。这对于手术质量控制、术后分析和手术教学都具有潜在的应用价值

5. Med-Gemini 在医学教学视频理解中的长文本处理能力

Med-Gemini-M 1.5 如何分析医学教学视频并回答特定问题。

具体示例：

Med-Gemini-M 1.5 分析来自 MedVidQA 数据集的视频，该视频包含一位物理治疗师讲解和演示如何缓解小腿拉伤的练习。
模型识别出相关的视频片段 (02:22-02:58)，其中物理治疗师针对该状况进行了解释和演示。
MedVidQA 数据集的真实时间跨度标注为 02:22-03:00，与模型识别结果非常接近。

说明 Med-Gemini-M 1.5 能够理解医学教学视频的内容，并根据用户的问题定位相关的视频片段。这对于医学教育、患者教育和临床实践都具有潜在的应用价值

6. Med-Gemini-M 1.5 在手术动作视频分割和标注中的长文本处理能力

Med-Gemini-M 1.5 如何分析手术视频，并对视频中的手术动作进行分割和标注。

具体步骤：

Med-Gemini-M 1.5 分析来自 Surgical Action Recognition (AVOS) 数据集的视频。
模型将视频分割成若干片段，并根据每个片段中正在进行的手术动作（例如切割、结扎、缝合）为其分配标签。如果没有正在进行的动作，则将其分类为背景。
该例子的 AVOS 真实标注为：00:00-00:11: 背景，00:12-03:05: 切割，03:05-03:15: 背景，03:15-04:02: 缝合。
模型的标注结果与真实标注非常接近，表明其能够准确地识别和分割手术视频中的动作。

说明 Med-Gemini-M 1.5 能够理解复杂的手术过程，并对其进行细粒度的分析。这对于手术技能评估、手术机器人控制和手术教学等领域都具有潜在的应用价值

7. Med-Gemini 在 EHR 对话中的长文本处理能力

Med-Gemini-M 1.5 如何解析长篇病历并进行对话，模拟与临床医生或患者进行交流。

具体示例：

Med-Gemini-M 1.5 解析一份长篇病历，并提供患者当前和既往病史的全面摘要。
对话侧重于患者的严重肺炎病史，模型能够回答用户提出的相关问题，例如：

肺炎的症状和诊断
胸部 X 光检查结果
治疗过程和并发症
长期影响

Figure 13 说明 Med-Gemini-M 1.5 能够理解复杂的医疗数据，并将其转化为易于理解的信息。这对于临床医生和患者都具有潜在的应用价值：

减少认知负担： 帮助临床医生快速了解患者的病史，并做出更明智的决策。
提高信息可访问性： 帮助患者更好地理解自己的病情，并参与到治疗过程中。

8. Med-Gemini 在科学信息综合中的长文本处理能力

Med-Gemini-M 1.5 如何处理大量的科学文献，并从中提取和总结关键信息。

具体示例：

Med-Gemini-M 1.5 被输入了 12 篇关于 FTO 基因位点（与 BMI 和肥胖相关的变异区域）与肥胖症之间机制联系的研究论文的全文内容（PDF 格式）。
模型被要求提供一个简洁的描述，说明 FTO 位点如何导致肥胖，并列出具体的支持性实验结果。
模型生成了一个简洁、信息丰富且准确的描述，解释了 FTO 位点在肥胖生物学中的作用，并以清晰易懂的方式呈现。

说明 Med-Gemini-M 1.5 能够理解复杂的科学文献，并从中提取和综合关键信息。这对于生物医学研究人员、临床医生和其他需要获取和理解最新科学进展的人员都具有潜在的应用价值

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和医学影像交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、医学影像微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者医学影像+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer5555，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

来源：CVer

谷歌重磅提出Med-Gemini ：医学大模型里程碑之作！医学航母正式起航！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba和医学影像】交流群

转载自：AI寒武纪

何恺明在MIT授课的课件PPT下载

CVPR 2024 论文和代码下载

相关新闻

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和医学影像】交流群