2013-05-28 | 编辑:文\经济金融部

随着信息技术的发展创新,互联网不仅成为迅速反映经济系统变动的一个媒介,同时也举足轻重地影响着政府、企业和消费者的经济行为。为解决从海量互联网信息中提取有用信息进行经济预测预警的问题,需要将一系列基于文本挖掘的方法技术具体化,并与景气分析和经济计量方法相结合。首先针对互联网新闻及评论文本中的观点,采用改进的文本特征提取方法,得到针对生产、投资、消费、贸易等经济主题的态势与政策情感特征。以这些特征为基础,采用搜索引擎获取与特定经济监测预警主题相关的网页集合,构造互联网开源经济指数,用于更加及时全面地获取个体观点,从而对经济系统的动态变化进行预测预警。
本研究以通货澎胀预警为例,获取网络新闻数据构建通货膨胀预警指数。在文本特征提取方面,利用人工标识的新闻样本进行训练,得到62个物价涨跌观点的关键字特征模式。将这些关键字特征模式用于新闻样本的物价涨跌观点分类预测,正确率达到85%。所得出物价观点特征在识别物价涨跌观点方面效果很好。得到物价涨跌观点特征后,以这些特征构造搜索引擎关键字搜索模式,从互联网新闻总体中得到9个从2003年1月开始的主要观点网页数量时序指标。将这9个指标根据各自对物价涨或跌的不同观点含义分为两类进行合成,构造互联网物价舆情指数。采用X12季节调整、BB算法和峰谷分析将互联网舆情指数(PSID)与CPI进行对比分析,发现物价舆情指数(Price Sentiment Index, PSID)明显领先于CPI。峰谷分析结果显示,PSID对CPI的峰平均领先阶数为4.6个月,谷平均领先阶数为5.5个月。基于开源数据构造的物价舆情指数能够对通货膨胀起到稳定准确的预警作用。
统计数据存在发布时间滞后和涉及范围局限的缺点,基于统计数据的传统宏观经济预警方法不能满足宏观经济预警对于时效性和广泛性的要求。网络开源数据具有数据量大、时效性强、覆盖领域广等特点,恰恰弥补了统计数据存在的上述不足。然而,互联网开源数据的强时变性、动态性、多样性、复杂性等特征需要具有高度概括和创造性的方法工具,才能有效提取对宏观经济决策有用的数据。本研究提出的一种基于网络新闻的通货膨胀预警方法能够从与物价相关的财经新闻中挖掘有用信息,将这些非结构的信息量化表示并构建了一个物价舆情指数来反映公众对物价水平的认知,从而做到对通货膨胀实时、及时而又准确的预警。此研究方法有望进一步拓展到投资、消费等其他宏观经济领域,以及各行业领域的预警,是大数据时代经济预测预警研究的新趋势。