高维数据分析与建模领域中获得重要进展----中国科学院国家数学与交叉科学中心

网站地图 | 联系我们 | English | 意见反馈 | 主任信箱

首页

中心概况

新闻动态

科研进展

交流合作

人才培养

研究队伍

人才招聘

政策规章

数学交叉科学传播

科研进展

	科研成果

	科研项目

	获奖

现在位置：首页 > 科研进展 > 科研成果

高维数据分析与建模领域中获得重要进展

【大中小】【打印】【关闭】

　　2011-07-20 | 编辑：文\经济金融研究部

　　今年5月，国家数学与交叉科学中心郭绍俊等关于高维数据分析与建模的论文《Variance Estimation Using Refitted Cross-validation in Ultrahigh Dimensional Regression》被接受，并即将发表在国际知名期刊《Journal of the Royal Statistical Society, Series B》上。这是他2009-2010年度于普林斯顿大学做博士后研究时在范剑青教授指导下合作研究的题目之一。他们针对高维线性模型中的方差估计这个简单却基本的问题做了详尽的探讨，提出了Refitted Cross-validation估计方法。审稿人认为，“解决了一个高维数据分析方面一个十分重要且具有挑战性的问题……”

　　高维数据分析与建模是目前统计领域研究的热点之一。计算机技术的快速发展为人们存储数据带来了极大的便利，所搜集数据的维数也成几何级数的速度增长，经常远远大于样本量的个数。海量的数据为我们提供了更多的信息，但与此同时，也为如何进行数据分析提炼有效的信息带来了极大的挑战。与高维数据相对应地，传统的统计分析主要考虑协变量的维数远远比样本量小的情形。举个简单例子说明高维数据带来的困难。如果协变量的维数远远低于样本量的话，其样本协方差矩阵一般情况下可以保证是正定的，而在高维情形下，它却一定不是正定的。考虑高维线性模型的参数估计，传统的最小二乘方法就不奏效了。

　　在高维数据分析中，通常我们假设重要的协变量的个数是比较少的。比如人类的基因维数很高，但是导致某类疾病发生的一般只有少数几个或几十个基因。对于高维数据的处理，一个基本的分析思路是提出有效的变量选择方法在不损失信息的前提下将变量的维数降低到合理的程度（降维），然后再利用低维的统计分析方法进行合理的统计推断。近几年来，如何进行特征选取有了较大的发展，为我们进行深层次的分析提供了可能。然而，对于特征选取之后如何做统计推断目前还没有非常清晰的了解。正是基于这个考虑，本篇文章针对高维线性模型中的方差估计这个简单却基本、看似古老却重要的问题做了深入浅出的讨论。一个很自然的想法是采取两步估计方法：利用变量选择技术降维，然后针对提取出来的变量利用同一组数据进行回归拟合得到方差估计。然而我们发现看似合理的两步估计方法在实际计算中却具有很大的偏差。

　　在文章中，郭绍俊与合作者首先讨论了高维线性回归分析中这个看似合理的传统两步估计方法不再适用的原因。他们用一个简单的例子阐述了即使很简单的情形下，传统的方差估计也具有很大的偏差，并且从理论上证明了这个偏差在高维数据中是普遍存在的；为了修正这个偏差，他们提出了一个新的估计方法——Refitted Cross-validation来估计方差。他们给出了这个方法背后所隐含的意义以及证明了此方差估计在一定条件下是相合的和渐近正态的。数值模拟分析结果显示这个简单的方法表现是非常好的。p>

欢迎访问国家数学与交叉科学中心　
地址：北京海淀区中关村东路55号　邮编：100190　电话: 86-10-62613242 Fax: 86-10-62616840 邮箱: ncmis@amss.ac.cn