网站地图 | 联系我们 | English | 意见反馈 | 主任信箱
 
首页 中心概况 新闻动态 科研进展 交流合作 人才培养 研究队伍 人才招聘 政策规章 数学交叉科学传播
科研进展
科研成果
研究专题
获奖
现在位置:首页 > 科研进展 > 科研成果
计算癌症基因组研究取得进展
【打印】【关闭】

  2013-02-19 | 编辑:\生物医学 

高维数据的分析与建模对数学方法带来了极大的挑战。在生物医学交叉研究中,高通量测序、芯片等实验手段的快速发展产生了海量的高维数据。特别是针对癌症这种复杂疾病,国际上已经启动了若干大的项目,构建了专门的数据库,来产生和积累相关的数据。例如2005年12月由美国国家癌症和肿瘤研究所(NCI)和国家人类基因组研究所(NHGRI)联合启动的癌症和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)计划,采用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行计算分析,旨在了解癌细胞发生、发展的机制。该项目预计耗资1亿美元,截止到2012年,针对乳腺癌、脑癌等几个癌症类型,积累了海量的癌症基因组学数据,怎样分析和利用这些数据为计算生物研究者提出了强有力的挑战。数学与交叉科学中心生物医学研究部的章祥荪、吴凌云、王勇、张世华组成的研究团队针对具体问题,发展了若干新的方法,取得一系列成果。

(一)高维基因组数据降维的最优化方法

癌症的发生、发展和预后受诸多遗传和环境因素的影响。正确选择癌症的分子标记物对研究癌症的生物学机理、最终指导系统综合治疗具有重要意义,这也是癌症基因组学研究的一个主要目标。在数学上,该问题抽象为高维基因组数据的降维问题,即对这些数据进行高效的、保留较强生物解释性的降维,这是计算癌症基因组学研究的核心问题之一。值得一提的是,构建将数据维数降低、利于进一步处理、可视化和理解信息的数学模型,已成为各科学领域面对的一个共同问题。该问题在人工智能和机器学习领域也被称为特征选择,是一个根据一定评估准则最优地从初始高维特征集合中选出低维特征集合的过程。

他们从最优化方法论的角度入手探求该问题的确定性模型和算法,发展了基于线性规划的高维数据降维的方法论框架。具体地,提出同时最大化数据解释能力和最小化特征数目的多目标优化模型,进一步将该问题转化为单目标优化,松弛优化变量用线性规划来近似整数规划,为本质是NP难的组合优化问题设计了高效的求解算法。该方法已经成功地应用到基因组和代谢组学数据上。与中国医学科学院病原生物学研究所合作,分析癌症病人的基因表达数据,针对样本特异性导致的强非线性,引入椭圆分类器的概念,能够选出非冗余的关键基因作为生物标记物,取得了很高的分类精度。成果发表在生物化学和分子生物学类的知名期刊Nucleic Acids Research。审稿人认为,“该新方法为高维数据的统计分析提供了一个快速的近似解法,而传统的统计方法在维度增高时变得不可行”。此外,基于该方法与成都中医药大学合作分析代谢数据研究针灸的分子机理,成果发表在系统生物学顶级期刊BMC Systems Biology.

XianwenRen*, Yong Wang*, Luonan Chen, Xiang-Sun Zhang and Qi Jin(*Co-first authors). ellipsoidFN: a tool for identifying a heterogeneous set of cancer biomarkers based on gene expressions, Nucleic Acids Research, 10.1093/nar/gks1288, 2012.

Yong Wang, Qiao-Feng Wu, Chen Chen, Ling-Yun Wu, Xian-Zhong Yan, Shu-Guang Yu, Xiang-Sun Zhang, and Fan-Rong Liang. Revealing metabolite biomarkers for acupuncture treatment by linear programming based feature selection. BMC Systems Biology, 6(Suppl 1):S15, 2012.

(二)多重基因组数据集成的模型和优化方法

随着多重组学数据的积累,如何分析和利用这些数据,特别是理解和认识这些不多类型特征之间的联系成为当前计算生物学最具有挑战性的课题之一。癌症组学数据的丰富积累,为思考和研究该问题提供很好的可能和资料。

针对这一课题,张世华博士与合作者提出了分析癌症多重水平组学数据的多重非负矩阵分解方法;同时为了整合其他生物网络数据,进一步提出了基于网络正则化的半监督学习的多矩阵分解方法;并考虑了稀疏性约束对模型的影响;提出了高效的优化算法。他们还考虑了不同组学数据对基因表达的影响,提出了考察整合多重数据对表达影响的偏最小二乘方法。他们还研究了驱动基因通路的快速识别算法。相关研究成果被发表在国际顶级杂志Bioinformatics(3篇,包括ISMB一篇)和Nucleic Acids Research。

Shihua Zhang, Chun-Chi Liu, Wenyuan Li, HuiShen, Peter Laird, XianghongJasmine Zhou. Discovery of multi-dimensional modules by integrative analysis of cancer genomic data, Nucleic Acids Research2012, 40(19): 9379-9391.

Wenyuan Li*, Shihua Zhang*, Chun-Chi Liu, Xianghong Jasmine Zhou.(*Co-first authors).Identifying multi-layer gene regulatory modules from multi-dimensional genomic data.Bioinformatics 2012, 28(19): 2458-2466.

Junfei Zhao*, Shihua Zhang*#, Ling-Yun Wu, Xiang-Sun Zhang.(*Co-first authors). Efficient methods for identifying mutated driver pathways in cancer, Bioinformatics 2012, 28(22): 2940-2947.

Shihua Zhang, Qingjiao Li, Juan Liu, Xianghong Jasmine Zhou.Integrating multiple functionalgenomic data to define microRNA-gene regulatory modules by a sparsenetwork-regularized multiple matrix factorization method.Bioinformatics (ISMB2011) 2011, 27:i401-i409.

(三)癌症亚型发现的最优化方法

癌症并不是单一病症。以乳癌为例,根据受激素影响情况的不同,分为雌激素受体阳性和雌激素受体阴性两种类型。而根据所患肿瘤类型的不同,乳癌患者接受药物治疗的效果也有所不同。通过计算方法分析癌症病人的数据,发现、确定癌症的亚型,并进一步找到癌症亚型在分子层面的标记物,可以发展针对特定分子亚型的癌症疗法,最终能帮助医生调整治疗病人的个性化治疗,从而更有效地救治更多的癌症病人,这是未来医学的发展方向之一。

从方法论来看,该问题抽象为利用高维生物数据进行分类和聚类的研究。在机器学习的方法论研究及针对生物数据的应用中,分类和聚类一般是作为两个独立的问题来研究的。他们探究了这两类的问题的内在联系,提出了一个新的最优化模型,既可以作有监督的分类,也可以进行无监督的聚类,同时针对问题的结构,他们构造了一个快速的迭代算法,使得可以求解上万维度的问题。该方法应用在癌症基因芯片数据分析中,取得了很好的效果,成果发表在生物信息学顶级期刊 BMC Bioinformatics.文章接收后,被主编邀请精选到Cancer Bioinformatics系列中。而且论文发表后不久就成为该杂志下载次数最高(Highly accessed)的科学论文之一。

XianwenRen, Yong Wang, Jiguang Wang and Xiang-Sun Zhang. A unified computational model for revealing and predicting subtle subtypes of cancers.BMC Bioinformatics 13:70, 2012.

欢迎访问国家数学与交叉科学中心 
地址:北京海淀区中关村东路55号 邮编:100190 电话: 86-10-62613242 Fax: 86-10-62616840 邮箱: ncmis@amss.ac.cn