综合性期刊National Science Review近日刊登了由中国科学院国家数学与交叉科学中心等多家机构合作研发的持续血糖监测数据预训练模型——CGMformer。CGMformer基于Transformer架构,通过自监督学习从大规模的CGM数据中学习个体的血糖动态特征,能够精准表征个体空腹血糖稳态维持和餐后高血糖适应等动力学行为,可辅助2型糖尿病的诊断、病程判断和并发症预测,划分非糖尿病人群亚型,精准预测餐后血糖反应,并根据预测结果为糖尿病患者提供个性化的饮食建议,实现生活方式干预推荐。
糖尿病是一种以血糖调控失衡为特征的慢性代谢疾病,其全球患者数量持续增长。糖尿病的诊断和监测主要依赖单次血糖测量或平均血糖指标,难以全面反映个体的葡萄糖代谢动态。持续血糖监测(CGM)技术利用葡萄糖传感器持续监测皮下组织间液的葡萄糖浓度,该技术在过去二十年中不断完善发展,同时积累了大量的数据。但如何从海量的CGM数据中解析个体的血糖动态特征,从而助力糖尿病的诊疗,仍然是一项巨大的挑战。
为了应对以上挑战,CGMformer采用自监督预训练与多头注意力机制,构建了一种全新的时序transformer模型。该方法首先对日常CGM数据进行离散化并组装为CGM语料库,利用掩码学习策略对血糖水平、波动以及异常状态(高血糖和低血糖)进行深度编码,在大规模CGM数据集上预训练,提取出反映个体内在代谢状态的低维表征。

在应用方面,CGMformer通过迁移学习在糖尿病及其并发症筛查、非糖尿病人群亚型分型与风险评估,以及个性化饮食推荐等多项下游任务中均取得显著成效。在糖尿病及其并发症筛查方面,通过结合诊断标签对模型进行微调,CGMformer能够基于CGM数据实现对糖尿病及其并发症的准确筛查,并为糖尿病患者提供病程判断,实现糖尿病的早筛与预警。在非糖尿病人群中,CGMformer能够基于CGM数据对其进行精准分型与糖尿病风险评估。通过对大规模非糖尿病人群的CGM数据进行分析,CGMformer将非糖尿病人群分为六个不同的亚型,每个亚型具有独特的血糖动态特征和不同的糖尿病发病风险。通过这种分型,CGMformer能够辅助医生早期识别出潜在的高危人群,从而为他们提供个性化的预防建议,以降低未来患糖尿病的风险。通过整合个体的CGM数据、饮食信息和生活习惯,CGMformer能够精准预测餐后血糖反应,并根据预测结果为糖尿病患者提供个性化的饮食建议。进一步地,CGMformer可以根据患者的血糖动态和饮食偏好,推荐适合的饮食组合,帮助患者更好地控制血糖水平,减少血糖波动带来的风险。这种智能监测与精准管理的结合,不仅有助于提高患者的生活质量,还能有效降低糖尿病并发症的发生率。CGMformer可通过网站https://github.com/YurunLu/CGMformer下载使用。
该项研究得到国家重点研发计划“数学和应用研究”重点专项“精准医学的多尺度因果理论与应用”项目的支持。中国科学院数学与系统科学研究院博士研究生路雨润,上海市第六人民医院博士后刘丹,和中国科学院杭州高等研究院博士研究生梁中明为该论文共同第一作者,中国科学院数学与系统科学研究院王勇研究员,上海市第六人民医院李华婷教授,贾伟平教授以及中国科学院分子细胞卓越创新中心陈洛南研究员为该论文通讯作者。
论文信息:Yurun Lu, Dan Liu, Zhongming Liang, et al. (2025). A pretrained transformer model for decoding individual glucose dynamics from continuous glucose monitoring data. National Science Review, https://doi.org/10.1093/nsr/nwaf039