1、科学问题
高速持续发展的生物和医学实验和观测手段(测序技术、芯片技术、质谱技术、核磁共振技术,生物成像技术等)产生了海量的不同类型,不同来源,不同层次的生物学数据,迫切需要建立新的数学与系统科学的理论与方法来处理和集成这些数据,发现内在模式以及验证生物和医学家提出的关于生命现象的科学假说,为生态与环境领域的生物多样性与生态系统以及人口健康领域的生物和医学创新体系、重大慢性多发疾病防治与健康管理和传染性疾病防治中的一些关键技术提供理论模型与分析方法。
2、研究内容
(1)生物体表观遗传特征的数学建模与分析
一方面,人类基因组计划的完成和大规模测序技术的发展令人瞩目地改变了生命科学研究的基本模式,其前沿的系统生物学更关注基因调控网络等整体、系统层面上的综合性研究,即研究一个生物系统的所有组份及由其相互作用形成的生命活动网络以及该网络经受各种扰动时的动态变化和构建生命活动的数学模型并用以预测该生物系统表型与行为。这一研究是由分解转向分解基础上整合的发展,也是生物学由实验科学向定量预测科学的发展。特别地,超高通量测序技术使得我们可以获得全基因组的海量数据,但由于这些数据的高度复杂性致使人们对它从系统生物学的角度进行高效处理,在很大程度上已成为利用全基因组海量数据研究诱导多功能干细胞机理、表观遗传学等生物和医学领域热点问题的瓶颈,也妨碍了超高通量测序技术这项可以在生物和医学领域产生革命性影响的高新技术的应用范围,使得现代分子生物学成果难于迅速应用于重大慢性多发疾病的诊断和治疗。
另一方面,细胞、肿瘤、肝脏和水稻叶片等生物体的分子结构实验信息一般仅能提供原子位置等可观察量经时空平均后的平均等信息,而无法测量这些量的时空分布,也无法告诉我们它们在生物分子行使功能时如何动态改变。细胞、肿瘤、肝脏和水稻叶片等生物体的计算生物学方法,即分子层次的计算机模拟,其优势在于它不但能够提供平均值,还能够提供任何可定义的可观察或不可观察量的分布和时间序列,如细胞、肿瘤、肝脏和水稻叶片等生物体中特殊构象的分布以及不同部分间的相互作用等。细胞、肿瘤、肝脏和水稻叶片等生物体计算生物学方法的第二个优势在于通过逐个改变模型参数,它可用于研究实验上很难确定的包括环境与生物系统之关系在内的许多因果关系,从而为光合作用效率、诱导多功能干细胞机理、表观遗传学特征以及重大慢性多发疾病的动态网络构建和转化医学的研究提供有效的定量参考规律。然而,受目前模型、算法和所使用的硬件限制,模型精度和模拟可及的时空规模仍然是主要瓶颈。要使细胞、肿瘤、肝脏和水稻叶片等生物体的计算生物学方法成为对实验工作者更为有用的工具,就要求能够在可普及的计算平台上,极大地扩展模拟的时空规模,同时缩短完成模拟所需的实际时间。这些要求向已有的计算数学和科学工程计算理论和方法提出了挑战,需要发展新型数值计算方法,提高物理模型的准确性,改善软硬件的设计架构,开发高效、准确的计算软件等。
我们将以生物分子网络为主体,从不同层次对复杂生命现象进行建模、分析和控制,特别是诱导多功能干细胞机理的系统生物学研究,表观遗传学的生物信息学研究,非编码RNA与蛋白的双色网络研究等。我们还将针对从分子到细胞不同尺度生物体的结构功能、相互作用、动态演化的模拟技术,发展新型数值计算方法、提高物理模型的准确性、改善软硬件的设计架构,开发高效、准确的计算软件,力图解决当前计算机生物模拟中的一些挑战性的问题,如采样及模拟尺度的瓶颈问题和水稻叶片光合作用效率提高问题,提高计算生物学的预测能力。最后,我们还会开展结构生物学与合成生物学的数学建模研究。
(2)重大慢性多发疾病的动态网络构建与转化医学
基因组测序完成后,人们原本期望测序结果能够很快地运用于医疗实践,但是疾病本身的复杂性还是让我们的希望破灭了。基因组测序技术的发展,让大量的基因组序列信息犹如洪水般涌出,从这些繁杂的数据中分析得到我们想要的信息并应用于临床才是基因组学的最终追求。
一方面,基因、非编码RNA、蛋白质和代谢小分子等各种生物分子元件作为“网络节点”,彼此间通过复杂的相互作用形成多维的、动态的网络。生命的所有生理与病理活动都与生物体内形形色色的网络,如基因调控网络、信号转导网络和代谢网络等密切相关。近几年来人们相继提出了网络医学、网络药理学、药物靶向网络、人类疾病网络以及基于网络的药物与生物标志等概念。如何正确理解重大慢性多发疾病网络的分子结构、精确识别动态调控与功能的关系、准确表征细胞组织的生物学行为、有效干预疾病网络结构与调控异常等是未来全球关注的关键科学问题。因此,动态分子调控网络是全面认识重大慢性多发疾病的基础。
另一方面,现代医学“疾病网络”的理念带来一系列深刻变革,疾病网络研究日益成为国际关注和讨论的热点问题,正在逐渐从一个概念转化为一个热门的研究模式。它可能对当代医学、药学研究产生深入而全面的影响。所以,现代医学已进入“分子网络调控 ” 新时代。但目前研究者面临下面的主要困难。
首先,高血压、癌症、糖尿病、精神分裂症等重大多发疾病是慢性病,在较长的时间尺度上逐渐演化形成并发展。过去的相关研究大多是局限在一个较短的时间内,也难以做到连续性和动态性。 如何从这些疾病发生发展的时间和动态的角度来研究细胞网络的形成和演变是研究者必须面对的难点,包括建立随时间与空间而变化的蛋白质的组成和修饰行为动力学模式,深入认识细胞信号转导网络在细胞内空间转位及其调控动力学规律。
其次,要想真正理解细胞应激的复杂网络结构与功能,需采用定量的方法获取相关的定量信息,发展结构和功能模块的新算法,通过数学建模的方法来进行分析。然而,噪声在生物系统中无所不在,与细胞网络调控也有着紧密的关系,需从控制论的角度研究生物系统在网络调控中是如何保持其鲁棒性。人们还需要研究生物系统的反馈、冗余和结构稳定等系统特性。这也是目前研究者必须面对的难点。
最后,环境和遗传因素的共同作用,导致基因突变或异常的积累,造成了重大慢性多发疾病是多基因、多途径参与和多阶段进展的。这样的复杂性也决定了这些疾病诊断防治的艰巨性。
我们将研究肝癌的分子发病机制,针对肝癌多病因、多基因、多克隆、多阶段和遗传性等特点,寻找肝癌病因的发病机制;寻找和精神分裂症相关的遗传及环境因子,探讨评价遗传疾病中多因素之间的直接因果作用、间接因果作用和路径上因果作用的统计推断方法;研究生命的衰老机制,探索细胞和生物组织的长寿机制。最后,我们将开展医学和医药学中海量复杂数据的建模与分析,发展行之有效的统计分析工具并将其应用于血液病和艾滋病等疾病的案例控制;研究磁共振成像图像与其他医学图像处理以及医学快速成像和多维谱中的优化方法;还将开展药物临床活性和药代特征的早期评价和预测的研究。
(3)分子遗传学和全基因组分析的定量研究
分子遗传学从生物大分子(蛋白质、核酸)的信息推断生物进化历史。分子遗传学的主要定量模型基于概率论中的分支过程理论和蒙特卡洛模拟方法,而推断生物进化历史的主要方法基于统计推断和统计检验方法。
一方面,分子遗传学已有的定量模型和推断方法不能很好地应用于同物种内不同亚种生物进化历史的研究,需要建立新的定量模型与推断方法。
另一方面,全基因组测序技术和诱导多功能干细胞的发现使人们可以从分子遗传学的角度研究细胞、肿瘤、器官等生物体形成、发育的演化过程。但这样的演化过程与传统的分子遗传学演化过程相当不同,例如不同父本的子代数量可以相差很大,它们产生子代的时间也差别巨大。因此,需要建立适用于刻画细胞、肿瘤、器官等生物体形成、发育演化过程的新型分子遗传学定量模型和推断方法,定量预测细胞、肿瘤、器官等生物体形成、发育。
我们将针对同物种内不同亚种生物进化历史的研究,建立分子遗传学中新的概率模型与统计推断方法。特别地,我们将开展我国生物遗传多样性生物地理演化规律的分子生态学研究,探索我国生物遗传多样性的生物地理演化规律,为有害生物综合治理、生物多样性保护和演化趋势预测提供遗传进化的依据。
我们还将建立适用于刻画细胞、肿瘤、器官等生物体形成、发育演化过程的若干新型分子遗传学定量模型和推断方法,开展全基因组分析,定量预测细胞、肿瘤、器官等生物体形成、发育,并深入研究一些肿瘤发生与复发的机理和有效的控制策略,为这些肿瘤的治疗提供有效的定量参考信息。