2025_NIPS_GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images

在这里插入图片描述

一、文章主要内容总结

该研究针对现有多模态大型语言模型（MLLMs）在心电图（ECG）解读中存在的多模态协同不足（未充分融合时间序列与图像信息）和可解释性有限（诊断与波形证据缺乏明确关联）两大核心问题，提出了名为GEM的多模态大型语言模型。GEM首次将ECG时间序列、12导联ECG图像和文本指令统一，实现了特征锚定分析、证据驱动诊断和类临床医生诊断流程。

研究通过三大核心技术支撑模型能力：

多模态编码：采用双编码器架构，分别提取ECG时间序列（基于预训练ECG-CoCa模型）和图像（基于CLIP编码器）的互补特征；

跨模态对齐学习：通过多层感知机（MLP）投影将时间序列和图像特征映射到统一文本空间，确保LLM可理解；

知识引导的指令数据生成：无需人工标注，通过特征提取器和心脏病学诊断引导器生成3万条高粒度ECG-Grounding数据集，关联诊断与可测量生理参数（如QRS/PR间期）。

此外，研究提出了Grounded ECG Understanding任务作为临床导向基准，用于全面评估模型的ECG锚定解读能力。实验结果显示，GEM在预测性能（CSN数据集提升7.4%）、可解释性（提升22.7%）

2025_NIPS_GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images

一、文章主要内容总结

相关推荐

评论抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

一、文章主要内容总结

相关推荐

评论 抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

评论抢沙发