网站地图 | 联系我们 | English | 意见反馈 | 主任信箱
 
首页 中心概况 新闻动态 科研进展 交流合作 人才培养 研究队伍 人才招聘 政策规章 数学交叉科学传播
数学交叉科学传播
数学与交叉文摘
数学研究机构
图灵100
数学奖励
2014年国际数学家大会
2015年国际工业与应用数学大会
新闻周刊ICIAM2015专刊
现在位置:首页 > 数学交叉科学传播 > 数学与交叉文摘
网络数据科学与工程 — 一门新兴的交叉学科?
【打印】【关闭】

2012-11-06 来源:香山科学会议

网络数据科学与工程 一门新兴的交叉学科?

 

——香山科学会议第424学术讨论会综述

 

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。数据成本的下降助推了数据量的增长,新的数据源和数据采集技术的出现大大增加了数据的类型,数据间复杂的相互联系使大数据的处理变得异常困难。全球信息总量每两年就增长一倍左右,2011年全球被创建和被复制的数据总量有1.8ZB (1021 ),到2020年全球所管理的数据将达到35ZB,比现在多出50倍。
数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,也改变了科研范式。今年3月美国政府6个部门宣布启动2亿美元的“大数据研究与发展计划”,使大数据研究上升为国家意志。欧盟也有类似的举措,今年1月截止的预算为5千万欧元的FP7 Call 8专门征集针对大数据的研究项目,并以基础设施为先导。大数据研究已成为科研的热点。
2012年5月22~24日, 主题为“网络数据科学与工程 ─ 一门新兴的交叉学科?” 的香山科学会议第424次学术讨论会在北京召开。会议聘请中国科学院计算技术研究所李国杰研究员、香港中文大学华云生教授、清华大学姚期智教授以及中国科学院计算技术研究所程学旗研究员担任执行主席。来自国内外信息、经济、生物、社会等领域及企业共43位专家学者应邀出席本次会议。
李国杰院士和华云生教授作了会议主题评述报告。会议围绕大数据应用挑战、网络大数据科学的共性理论基础和网络大数据工程的良性生态环境三个中心议题进行了深入探讨,共组织了3个中心议题评述报告和13个专题报告。
一、大数据科学与工程面临的挑战性问题与学科基础
李国杰研究员作了题为“网络大数据应用提出的挑战性问题”主题评述报告,指出目前大数据的工程技术研究已走在科学研究的前面,科研人员首先要虚心与各应用领域的科研人员合作,努力解决各领域大数据处理提出的技术挑战问题。这些挑战包括:高效处理非结构化和半结构化数据;合适的数据表示方法;寻找高扩展性的数据分析技术;数据的去冗余和高效率低成本的数据存储;大幅度降低数据处理、存储和通信的能耗;构建融合人、机、物三元世界的大数据系统等。现有计算机系统不能满足大数据的需求,需要对整个IT架构进行革命性的重构。
在讨论网络数据科学能不能成为一门新的交叉学科之前,首先要搞清楚“网络数据科学”研究的对象究竟是什么。许多学者认为数据科学要把数据当成自然体(Data Nature)来研究,试图把计算机科学划归为自然科学。脱离各个领域“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题目前还不清楚。本次香山会议的重点不是讨论自然科学中的海量信息处理,而是讨论网络空间(Cyberspace)中的大数据挑战问题。网络空间中的数据背后是数据关系网络,数据网络背后是人。研究数据网络实际上是研究人组成的社会网络。网络数据科学应发现网络数据(信息)产生与传播的规律、网络信息涌现的内在机制以及与其相关的社会学、心理学、经济学和信息科学的机理,利用这些机理研究互联网对政治、经济、文化等各方面的影响。
传统计算机科学是研究算法的科学,而网络数据科学不能局限于此。网络数据科学应不同于传统的人工智能和统计学,面对PB级以上的海量数据,需要更简单有效的问题求解方法。大数据的分析不能停留在获得概率分布结果,也不能满足于对细节问题的数据挖掘,而是要争取从大数据中获得新知识。应优先选择“预言性数据挖掘问题”做研究,即数据规模大到一定程度,就可以解决以前解决不了的问题,实现社会科学的“变革式”进步。
他最后指出,大数据研究被国外一些学者称之为科研“第四范式”,强调不需要事先给出假设和模型,可以直接从数据的相互关系中求解问题,甚至认为大数据研究方法是“理论的终结”。数据量的增加是否会引起科研模式本质性的改变,相互关系是否比因果关系更能反映事物的本质,还需要更多的科研实践来验证。但可以断言,20世纪是量子力学的世纪,到了21世纪,数据网络理论将成为量子力学可尊敬的后继。
华云生教授作了题为“大数据科学与工程的学科基础探讨:计算思维的角度”的主题评述报告,论述了与大数据相关的一些学科领域,包括数据科学、数据工程、数据挖掘、信息科学、信息论、信息工程、知识工程以及知识发现等,这些学科的研究范围与重点各不相同。大数据往往以复杂关联的数据网络这样一种独特的形式存在,因此要理解大数据就要对大数据后面的网络进行深入分析。从大数据上获得知识需要工程方法,譬如:抽象、分割、学习与泛化等,数据分析的基本方法就是由粗到精、逐层抽象。另外,还要放松对目标的约束,从而使问题变得可解。总体而言,大数据是科学还是工程,依赖于具体的应用。大数据科学致力于从大数据中发现新知识,而大数据工程则是应用大数据知识来构建新的事物。
大数据这个术语在国际上已很热,目前与大数据有关的国际学术会议很多,但大多数还是用处理“small data”的方法来处理大数据。每个领域的大数据一般不能用于别的领域,需要积累不同领域的大数据才能找到大数据的共性。
与会专家就主题评书报告展开了热烈地讨论。
二、社会、经济与IT等领域中网络大数据应用的挑战性问题
与会专家在题为“面向大数据管理与计算的现实挑战”中心议题评述报告中,提出用“数据化学(Data Chemistry)”的概念来描述大数据研究,如同各种元素通过化学反应能生成不同的化合物一样;采用统计分析与人工智能相结合的方法,通过自适应地构建模型来发现大数据的某种动态组合中的大价值。他还指出,大不一定好,最近开始流行的纳米出版(Nanopublishing)就是尽量用较少的文字发表论文的关键信息。
与会专家还作了“大数据、数据科学与经济发展”、“金融证劵行业中的大数据处理”、“大数据管理与处理平台的挑战”、“大数据应用的需求分析”和“生物大数据的挑战”专题报告。
与会专家就上述报告和大数据应用挑战问题展开了讨论。
三、网络数据科学的共性理论基础
与会专家在题为“网络数据科学的共性理论基础”的中心议题评述报告中,指出网络数据科学的共性理论基础来自多个不同的学科领域,包括理论计算机科学、统计学、数据库理论、人工智能、机器学习以及社会科学等;理论计算机科学为解决大数据研究中的障碍提供了丰富的分析工具,但在改良和扩展这些工具以解决新的应用方面还存在有不少的挑战。
与会专家还作了“面向网络大数据的机器学习模型与算法”、“基于用户行为的移动网络病毒传播及分布式抑制”、“社会计算:发展理论、促进应用”和“海量数据的计算与量质融合管理”专题报告。
与会专家就上述报告和网络数据科学理论问题展开了讨论。
四、网络大数据的良性生态环境构建
与会专家在题为“网络大数据的良性生态环境构建”中心议题评述报告中指出:网络大数据无论是采集、清洗、索引与存储,还是检索、挖掘、传输与可视化等方面均面临挑战;在大数据环境下需要重新思考“数据、信息、知识”的本质,需要关注大数据的计算、计算复杂性以及大规模稠密与大规模稀疏之间的关联与区别;管理政策、隐私保护、人才培养等一系列涉及大数据生态环境的问题无一不是大挑战;解决这些困难与挑战必须依靠学术界、工业界与政府部门共同努力,为网络大数据构建起跨行业、跨领域的良性生态环境,为数据生产加工、传播、消费建立起和谐的大数据生态系统。
与会专家还作了“互联网数据的价值评估与影响力度量”、“互联网深度数据服务的工程问题与解决思路”、“开源软件、操作系统与开源硬件”和“海量网络数据产业生态系统趋势及挑战”专题报告。
五、会议总结与专家建议
经过与会专家充分讨论,会议形成了以下基本共识:
1. 大数据时代已经来临,大数据已是许多不同行业共同面对的大问题。尽管大数据意味着大机遇,但同时也意味着工程技术、管理政策、人才培养等方面的大挑战。只有解决了这些挑战问题,才能充分利用这个大机遇,从而能够充分挖掘得到大数据的大价值。
2. 在不远的未来,可能形成网络数据存储与服务、数据材料、数据制药等战略性新兴产业,一个国家所拥有的大数据的规模与活性及运用大数据的能力,将是国家竞争力的重要组成部分。我国亟需在国家层面对大数据给予高度重视,特别需要从政策制定、资源投入、人才培养等方面给予强有力的支持。
3. 大数据背后必然有着支持其研究与应用的数据科学。但无论是美国还是欧盟的大数据研究计划,以及国内外大公司的大数据研发,目前最重视的都是大数据分析算法和大数据系统效率。因此,当前应把主要精力放在应对大数据的工程技术挑战上。工程上无法解决的问题就很自然地会成了为数据科学的研究内容,大数据处理技术的进步将促进数据科学的诞生和发展。
4. 大数据科学的共性理论基础来自多个不同的学科领域,包括计算机科学、统计学、人工智能、社会科学等。大数据中往往存在着复杂的关联关系。数据科学的重点是研究联系大数据的关系网络,因此对大数据所形成的复杂数据网络的特性与功能进行研究的复杂网络分析将是数据科学的重要基石。
5. 大数据涉及物理、生物、脑科学 、医疗、环保、经济、文化、安全等众多领域。网络空间中的数据是大数据的重要组成部分,这类大数据与人的活动密切相关,因此也与社会科学密切相关。网络数据科学和工程是信息科学技术与社会科学交叉的研究领域,对国家的稳定与发展有独特的作用,应予以高度重视。
6. 为了有效应对大数据挑战,抓住大数据机遇,建立良性的大数据生态环境是唯一出路。需要学术界、工业界以及政府部门在国家政策的引导下共同努力,通过消除壁垒、成立联盟、建立专业组织等途径,建立和谐的大数据生态系统。
与会专家还针对上述共识,给出了具体的行动建议:
1. 大数据应用
大数据涉及的行业和领域有很多,专家们建议,当前大数据的研究应以关乎国计民生的科学决策、应急管理(如疾病防治、灾害预测与控制、食品安全与群体事件)、环境管理、社会计算以及知识经济为主要的应用领域。
2. 大数据科学的共性理论与方向
研究网络空间大数据的内在机理,主要包括大数据的生命周期、演化与传播规律,数据科学与社会学、经济学等之间的互动机制,以及大数据的结构与效能的规律性(如社会效应、经济效应等);在大数据计算方面,研究大数据的表示以及大数据的计算模型及其复杂性;在大数据应用基础理论方面,研究大数据与知识发现(学习方法、语义解释 ),大数据环境下的实验与验证方法,以及大数据的安全与隐私。
3. 大数据工程的研究内容与目标
大数据工程的总体目标是在有限时间、有限资源情况下解决挑战性问题。具体包含四个方面:(1)大数据的感知与获取,以及表达和预处理;(2)大数据的存储与管理;(3)大数据分析,具体包括典型行业的需求分析,分析方法与工具以及大数据的可视化;(4)大数据系统体系架构,包括体系架构与平台以及研发环境。
4. 大数据研究的组织方式
专家们一致建议:(1)国家成立类似2011协作中心这样的组织机构,以更好地推动大数据的协同创新研究与战略性应用;(2)成立国家级的行业大数据共享联盟,使工业界、学术界以及政府部门都能够参与进来,一方面为学术研究提供基本的数据资源,另一方面为大数据的应用提供理论与技术支持;(3)在中国计算机学会下成立大数据专业组(Task Force for Big Data),推动组织相关活动;(4)成立国家级的面向大数据研究与应用的开源社区,或向国际开源社区的核心团队举荐核心成员。
5. 大数据研究的资源支持
专家们建议国家启动“中国大数据科学与工程研究计划”,设立类似自然科学重大研究计划(基金重大)以及重大基础科学研究项目群(973项目群或863重大项目)等专项资金。此外,专家们还建议国家在大数据平台的构建、典型行业的应用以及研发人才的培养等方面提供大力度的支持。
欢迎访问国家数学与交叉科学中心 
地址:北京海淀区中关村东路55号 邮编:100190 电话: 86-10-62613242 Fax: 86-10-62616840 邮箱: ncmis@amss.ac.cn