网站地图 | 联系我们  
首页 中心概况 新闻动态 科研进展 交流合作 人才培养 研究队伍 人才招聘 政策规章 数学交叉科学传播
科研进展
科研成果
研究专题
获奖
现在位置:首页 > 科研进展 > 科研成果
数学建模刻画细胞类型的转录因子组合调控模块(王勇与合作者)
【打印】【关闭】

近日,中心研究团队与斯坦福大学合作在 Genome Biology发表研究论文,提出一种面向单细胞多组学数据的新型计算方法 cRegulon。该方法从数学建模角度出发,将复杂的基因调控网络表征为一组可复用、可解释的组合调控单元,并以此刻画细胞类型之间的结构关系与状态转变。

单细胞技术的进步产生了大规模组学数据,这些组学数据提供了细胞类型级别的基因表达和染色质状态的表观数据,对这些数据整合分析可以构建多种细胞类型的高质量的基因调控网络(GRN)。GRN具有细胞类型特异性和模块化的特点。为了获得生物学对分子到细胞类型跨尺度的组装原理的理解,我们需要数学建模工具揭示这些GRN的模块化调控单元,即构造调控空间的一组“基”,并能够从这些基础调控单元的关联强度来刻画细胞类型的性质。



1 cRegulon方法从多种细胞类型的GRN出发,度量转录因子(TF)的组合效应并识别TF组合调控模块,结合其协同调控的调控元件和下游基因定义cRegulon,作为基础调控单元,每种细胞类型可以被表征为cRegulon的组合。



基于这一表示论思想以及转录因子组合在细胞类型转化中的重要性,cRegulon 被正式定义为:转录因子组合模块及其共同结合的调控元件(RE)和共同调控的靶基因(TG)。为了从数据中构造出cRegulon 的调控单元,研究团队首先针对每个细胞群构建群特异性的基因调控网络,并进一步形成转录因子两两之间的组合效应矩阵 。随后提出一个联合优化模型,假设不同细胞群中的组合调控结构并非彼此孤立,而是可由一组跨细胞群共享的低维模块共同解释:

第一项用于逼近不同细胞群的组合效应矩阵,第二项则鼓励模型优先提取具有较强组合效应的模块。约束条件包括 、以及模块和权重的归一化限制,从而保证结果具有稀疏性、稳定性与可解释性。这一建模思想的关键在于,它不再把不同细胞类型简单视为若干彼此割裂的独立网络,而是把它们看作共享同一组调控基底、但以不同权重加以调用的系统状态。从数学上看,这相当于为细胞类型景观建立了一个低维、结构化、可解释的坐标系;从生物学上看,则意味着复杂命运决定过程可以被拆解为有限个可复用的调控程序。

除了调控单元识别本身,cRegulon 还进一步给出了调控单元之间过渡关系的定量框架。论文定义了调控单元 到调控单元 forward scorebackward score transition score,用于刻画不同调控单元之间的潜在演化联系:

通过这一设计,cRegulon 不仅能够刻画静态的细胞类型结构,也能够对发育或分化过程中调控程序的连续变化进行分析,从而把“模块识别”推进到“模块动力学”的层面。

在性能评估中,研究团队通过模拟数据和真实数据混合体系进行了系统测试,验证了 cRegulon作为调控单元的生物学特性:(1cRegulon 可以精确捕获不同细胞类型的标志性 TF;(2cRegulon 可以识别功能一致性和独立性更高的TF模块;(3cRegulons 中的 TF 在更容易通过蛋白质相互作用、共同结合(co-binding)以及染色质相互作用(chromatin loop)等方式进行协同调控。在大规模应用中,研究团队将 cRegulon 用于早期人类发育单细胞多组学图谱,识别出 25 cRegulons,并据此解析 15 个器官、54 种细胞类型 的调控景观。识别了控制人类早期发育的调控单元,用以表征发育时期的各种细胞类型,揭示空间和时间细胞状态,并在外部单细胞数据中提供对 β 细胞亚群的有用注释。为了探索细胞状态的转换,研究团队关注体外视黄酸诱导的小数胚胎干细胞分化的过程,产生了从第0天到第10天的时间序列单细胞多组学数据。研究团队将cRegulon应用其中,识别了调控细胞状态转换的调控单元,并揭示TF组合调控的复杂细节,并在体内产生的小鼠胎儿脑图谱中得到验证。与传统 marker gene 注释相比,这种基于调控单元的表示更接近细胞状态形成的机制本质,也为跨数据集、跨发育阶段的精细注释提供了新的可能。

cRegulon 的构造以及作为基础调控单元对细胞类型的表征,可以看作是Waddington (1905-1975) 提出的表观遗传景观概念从高维多组学观测数据角度的具体实现。Waddington 表观遗传景观不应仅仅被视为发育生物学中的经典隐喻,而可以被表述为可由单细胞数据直接拟合的动力学。cRegulon 回答的是“支撑这一景观的调控坐标应如何定义”。研究团队认为,单个转录因子或单条调控边难以充分解释细胞命运决定的高维结构;相比之下,由多个转录因子协同作用、并同时连接调控元件与靶基因的组合调控单元,更接近真实的细胞命运组织原则。

Z Feng, X Chen, Z Duren, J Xin, H Miao, Q Yuan, Y Wang, WH Wong. Modeling combinatorial regulation from single-cell multi-omics provides regulatory units underpinning cell type landscape using cRegulon. Genome Biology 26 (1), 1-45, 2025




欢迎访问国家数学与交叉科学中心 
地址:北京海淀区中关村东路55号 邮编:100190 电话: 86-10-62613242 Fax: 86-10-62616840 邮箱: ncmis@amss.ac.cn