2012-8-27 |来源\科学网 作者\鄂维南
我们生活在一个信息时代,一个海量信息和海量数据的时代:互联网,计算技术,电子商务和各种其它的新兴技术使我们获取数据、分析数据和利用数据的能力有了一个本质的变化。这个变化正在不断深入地、全面地影响着我们的日常生活。由此也影响着社会、文化、国防和国民经济的发展。信息服务产业已成为发达国家经济转型的主要支柱。以谷歌和脸书为代表的信息服务企业,在短短几年的时间里就进入了全世界最大、最受瞩目的企业的行列。它们的发展速度是在传统的工业模式下难以想象的。它们的成功也展示了信息服务产业巨大的发展空间。另外,数据和信息资源已成为继人力资源和物质资源以外的第三大资源。数据资源的开发和利用将是未来社会和经济发展的主要手段之一,也应该成为制定国家长远发展计划需要考虑的主要因素之一。
我们自然要问,信息时代对社会,对政府,特别是对我们的教育和科学研究体制提出了什么样的新的要求;信息服务产业的科学基础是什么?
传统工业,尤其是制造业的科学基础是自然科学。物理学提供了自然科学最基本的原理。在此之上、化学、生命科学、地球物理、天文学以及各种各样的工程科学为传统工业提供了科学指导。从大学、科研机构,到企业、政府部门,我们都已经建立起了一整套教学、科研、开发、生产到市场的机制。
信息服务产业的科学基础是数据科学。简单说来,它由两个部分组成:即用数据的方法来研究科学和用科学的方法来研究数据。
先谈第一点。科学研究有两个最基本的模式,姑且叫做开普勒模式和牛顿模式。开普勒关于行星运动的三大定律完全是从前人所观察到的数据中所总结出来的。而牛顿则更进了一步,他寻求的是基本原理。他对行星运动规律的认识是建立在基本原理的基础之上的。牛顿不仅知其然,而且知其所以然。牛顿的认识无疑比开普勒要深刻得多。所以牛顿模式成了科学研究的首选模式。几百年来的科学研究都是沿着一条以寻求基本原理为目标,而从根本上认识世界,认识自然这样一条道路走过来的。
时至今日,科学家们在对基本原理的寻求方面取得了长足的进步。随着量子力学的建立,人们已经基本了解了在生命科学、化学、能源、环境等与日常生活息息相关的领域所需要的基本原理。现实的困难在于这些系统的复杂性——从基本原理出发去理解这些系统在目前和不太遥远的未来基本上都是一件不可能的事情。牛顿模式因此而面临着难以逾越的困难。而另一方面,由于人们获取数据和分析数据能力的提高,从数据中直接总结出客观规律的开普勒模式的优势就体现了出来。生物信息学的成功就是一个很好的例子。
再谈第二点。从传统的角度来看,分析数据属于统计学的范畴。但近年来,随着机器学习、数据挖掘、生物信息、图像处理、信号处理等方面的发展,数据分析已经深入到了计算机科学、社会学、电子工程、生命科学、天文、地理、气象等各个领域。而且,从数据分析的角度来看,这些不同学科中的不同问题有着相当程度的统一性。正是这种统一性,使得数据科学有存在和发展的必要。
这里特别值得一提的是数学的作用。从根本上来讲,自然科学的基本原理来自于物理;而数据科学的基本原理则来自于数学。数据分析的主要手段就是给数据建立起数学结构。这种数学结构可以是多方面的:拓扑的、几何的、或代数的。最简单的结构是图的结构。这也可以看作是一种拓扑结构。传统的统计学中最最常用的是分析方面的结构,如参数化模型。所以数据科学给数学也带来了许多根本性的问题:例如怎样把数据集(如网页)坐标化?怎样给数据集定义拓扑结构或曲率?怎样利用数据集中可能隐含的对称性?怎样设计高效的算法?怎样处理噪声,等等?数据和数,方程以及图形一样,也将成为数学研究的基本元素之一。这不仅能给数学的各个领域提供了新的问题,同时也会加深我们对数学中一些最基本的概念的认识。
数据科学中最受瞩目的成就之一是小波理论。系统的小波理论出现之前,人们对在信号处理中引进局部基函数和对信号按尺度作分解都有过很多的尝试。但这些工作都是经验性的,缺乏系统性。小波理论从根本上解决了这一问题。它使这些尝试性的工作由经验变成了科学。这样的转变是本质性的。它所带来的变化也是有目共睹的。压缩感知理论也经历了一个类似的过程。它所产生的影响也将是巨大的
另外需要强调的一点是,由自然科学的成就转换成工业产品往往要经过一个漫长的过程。而数据科学则不同,数据科学与应用,与产业有着更为密切的联系。从小波理论的出现到它在图像处理方面的应用仅仅经过了几年的时间。正因为如此,对数据科学的研究更应该努力地走在最前沿:因为落后一步就意味着彻底失去机会。
目前数据科学的发展存在着如下几个问题:一是缺乏一个统一的平台。数据科学被瓜分到计算机科学、统计、数学、生物等等学科。他们之间还缺乏应有的联系。这使数据科学的发展受到了制约。二是数学作为数据科学的基础,其作用还没有被充分认识到,更没有充分发挥出来。这在一定程度上限制了数据科学研究的深度。三是企业界与学术界之间的相互影响还不够完善。企业界搜集的数据经常不够规范,企业界和学术界之间协同创新的模式还有待完善。
具体到我国的实际情况,在很多方面更是令人担忧。我国现行的教育和科研体制几乎将学科分类推到了极致。这更加不利于数据科学这样一个新型的,跨学科的领域的发展。另一方面,从谷歌、脸书等例子来看,信息服务产业中许多最有创造的想法都来自于年青人。而我们国家所通行的教育方式,如中学里的应试式教育和大学里的灌输式教育都极大地抑制了年青人的创造性。
认识到这些以后,我们自然要问:怎样应对数据科学和信息服务产业所提出的新的要求?
从大学的层面来看,应该充分认识到数据科学发展的巨大空间,将数据科学提高到一个和自然科学并列的高度。以数学、计算机科学、统计、生物信息、金融和经济学、社会学等学科为依托,建立起一个数据科学的教育和科研平台。要建立起一个完整的本科生和研究生培养计划。这个教学计划的基础课程应该包括象线性代数、逼近论、离散数学、概率论和随机过程、以及数理统计等数学课程;同时也应包括象数据库、数据结构、机器学习、数据挖掘等计算机科学的课程。
这里应该特别强调算法的重要性:没有高效的算法,所有的理论模型都将被束之于高阁。而在传统的框架下,算法被分割到了计算数学和计算机科学两个学科中。这两个学科对算法研究的风格和出发点各不相同,但它们所研究的许多问题在本质上是相同的。数据科学的发展更是要求把这两种不同风格,不同背景的算法研究紧密结合起来。