报告中林希虹教授提到数据科学生态系统,认为数据科学生态系统包括数据公平性、统计及机器学习方法和工具、可解释的数据分析以及值得信赖的决策。机器学习的飞速发展彻底改变了数据的利用方式,并使机器能够更有效地从数据中学习。而统计学作为一门在考虑不确定性的同时从数据中学习的科学,在解决复杂的现实世界问题和促进可信决策方面发挥着举足轻重的作用。报告讨论了构建端到端、可扩展、可解释的数据科学生态系统所面临的挑战和机遇,这一系统使统计学、机器学习以及基因组学和健康科学结合成了一个整体。利用对大规模全基因组测序数据、电子健康记录和生物库的分析,通过讨论一些用于基因图谱绘制和遗传风险预测的可扩展、可解释的统计及机器学习方法和数据科学资源,阐述了全基因测序的一些关键点,其中大规模全基因组测序研究和生物库的例子包括跨奥美斯精准医学项目(TOPMed)、TOPMed、英国生物库和 "我们所有人"。这些研究总共对超过一百万个基因组以及来自电子健康记录的数千种疾病和性状进行了测序。
报告十分精彩,具有很强的引领性和指导性,特别是所展现出的一些思想方法非比寻常。报告后有5位老师和同学提出了一些关键性的问题,林希虹教授均一一做了解答。最后国家数学与交叉科学中心副主任尚在久研究员给林希虹院士颁发了杰出讲座证书。
林希虹教授,美国科学院院士,美国国家医学院院士,哈佛大学公共卫生学院生物统计学系终身教授和前系主任,数量基因研究部主任,和统计系终身教授,她获2002年美国公共卫生学会年杰出健康统计学家的Spiegelman奖,2006年统计学界最高奖“考普斯会长奖”,以及2015和 2022年美国国家癌症研究院杰出研究员奖,2022美国国家统计研究院交叉研究Sacks奖,和2022年哈佛大学统计科学Zelen领导力奖。她主要从事海量基因和健康数据,流行病数据的统计和机器学习方法的研究及应用。她曾任考普斯委员会主席,和Biometrics和 Statistics in Bioscience杂志的主编。