(作者为北大经济学院博士后、国家统计局统计科学研究所副研究员)
近些年来,伴随着新一代信息技术的快速发展,人类社会逐步迈入大数据时代。大数据已成为重要的国家资源,正在深刻地影响着时代发展进程,催生新的模式和业态。从世界工业革命发展历史来看,如果说第一次工业革命以煤炭为基础、以蒸汽机和印刷术为标志,第二次工业革命以石油为基础、以内燃机和电信技术为标志,第三次工业革命以核能基础、以互联网技术为标志,那么未来第四次工业革命很可能将会以可再生能源为基础、以大数据为标志。以美国、英国为首的一些发达国家,以及联合国、世界经济论坛、欧盟等国际组织,都已从政府和组织层面将大数据发展提升到战略高度。我国政府也高度重视现代信息技术、尤其是大数据对社会经济发展的深刻影响。2015年3月李克强总理在《政府工作报告》中首次提出“互联网 ”行动计划,为国家大数据发展模式的研究与应用奠定了重要基础。但是,同时我们也应该注意到,在当前的社会经济发展中,还存在另一种较为新颖、重要的大数据发展模式——“ 互联网”模式。如何根据我国不同发展阶段状况,科学遴选相应的发展模式,具有重大的战略意义。
一、“互联网 ”和“ 互联网”两种模式的异同
关于“互联网 ”的内涵,2015年7月国务院在《国务院关于积极推进“互联网 ”行动的指导意见》中给出权威界定,即认为“互联网 ”是把互联网的创新成果与经济社会各领域深度融合,推动技术进步、效率提升和组织变革,提升实体经济创新力和生产力,形成更广泛的以互联网为基础设施和创新要素的经济社会发展新形态。“互联网 ”带来的新商业模式和业态,将激发着社会和市场的潜力、活力,逐步成为中国经济提质增效升级的“新引擎”。
“ 互联网”的概念是由于术语较新,所以其内涵不存在通用一致的界定,相关的文献资料也比较匮乏。一般而言,“ 互联网”主要是指传统行业以既有业务为基础,主动利用互联网技术和理念,提高为用户服务的效率和质量的发展模式。德国的“工业4.0战略”、美国的“工业互联网”模式,以及国内苏宁电器在近些年的转型发展模式,都可以大致认为是“ 互联网”模式在具体领域的应用范例。
“互联网 ”与“ 互联网”模式的主要区别在于,一方面“互联网 ”侧重于从线上到线下的过程,而“ 互联网”则侧重于从线下到线上的过程;另一方面,“互联网 ”具有新技术优势、体制机制优势和更广泛的社会支持,容易产生爆发性增长,而“ 互联网”拥有存量优势、行业标准优势和公信力优势。
对于国家大数据发展而言,“互联网 ”与“ 互联网”两种应用模式也存在显著差异。“互联网 ”应用模式,是指那种“社会公众可以通过互联网在线上无技术障碍地获取、存储、分析处理数据”的模式。比如,对于淘宝、天猫、京东、1号店等电子商务网站,其商品的分类、价格等数据,公众均可以通过网络爬虫等技术动态获取、存储,进而可以在线下进一步清洗和挖掘。而“ 互联网”应用模式,则是指那种“数据原本存储在各个部委、企业、家庭等单位的数据库,社会公众无法在线获取、存储、分析处理,但这些单位主动将数据上线,进而使得社会公众可以无技术障碍地获取”的模式。比如,某科研机构部门利用科研专项基金,开展了一项关于居民消费支出情况的调查,取得了很多家庭的微观数据。这些数据完全可以存储在该机构的数据库中,不允许外部研究者使用。但如果该机构主动将这项调查数据对外公开、共享,则这种模式就可以认为是“ 互联网”模式的一种具体应用。
二、国家大数据战略发展模式的选择
国家大数据发展战略模式,不宜只集中在“互联网 ”,而是应当同时推进“互联网 ”与“ 互联网”,且在目前政府可用大数据源较为匮乏的情况下,应该给予“ 互联网”模式更大的重视力度,积极打破信息共享壁垒,实现数据的互联互通互享,更好地打造政府数据来源的新兴之轨,为国家决策提供重要支撑。主要理由如下:
第一,当前基于“互联网 ”模式的、可为国家所用的数据源较少,“ 互联网”有助于迅速扩大国家可用的数据源,更大程度地发挥数据聚合价值。目前国家大数据的数据源主要包括行政记录数据、商业记录数据、互联网与传感器数据三大类。除了部分行政记录数据,以及部分基于“互联网 ”模式的电子商务交易数据、社交网数据、媒体数据可以无技术障碍地获取以外,其余数据均需通过“ 互联网”模式导入到互联网,才能成为政府可用的大数据源。事实上,尽管当今社会逐步迈入大数据时代,但通过常规工作流程从住户、企业等部门获取数据的难度越来越大,而且已有的行业企业数据资源均立足行业企业本身的标准,彼此之间存在口径差异(比如阿里巴巴集团和1号店对各自线上零售品的分类),形成了众多“信息孤岛”, 无法形成数据合力,产生更大价值。因此,做好“ 互联网”是实现“互联网 ”计划的重要前提之一。
此外,笔者重点以商业记录数据为例进行考察发现,目前其数据源应用主要有两条途径:一是积极整合行业企业内部的各种数据源,通过对整合后的数据进行挖掘分析,从而开展大数据应用;二是积极借助外部数据(主要是互联网数据)来实现相关应用。但是,现有的数据源中,仍然以机构内部数据为主(比例普遍超过50%,多数行业超过80%),原因主要是数据的开放和交易尚未形成市场主流形态。以国内主要的电子商务交易行业企业为例,虽然目前推出了很多价格指数等大数据应用成果(如1号店指数以及阿里巴巴网购(全网)价格指数等),但这些成果基本都是为企业服务的,由于法律和数据交易机制不健全,这些企业的交易平台在开放交易数据方面仍然持谨慎态度,严重限制了大数据的聚合发展,彰显当前促进“ 互联网”模式发展的迫切性。
第二,着重支持“ 互联网”模式,有利于数据溯源,辅助甄别数据类型,保护用户数据所有权。国家大数据的来源主要包括两方面:一是普查、户籍、社保、医保、电信、金融等传统结构化数据以及在此基础上延伸、扩展后形成的海量非结构化数据;二是基于互联网、传感器、gps等现代信息技术产生的新数据,如微博、微信、博客、论坛等社交媒体产生的数据。由于数据来源类型多样,所以有必要利用数据溯源技术,记录数据的来源、所有权及其传播、变化过程,据此可以方便地验算结果的正确性,或者以极小的代价进行数据更新,并为数据挖掘与应用提供辅助支持。“ 互联网”模式的从线下到线上的典型特征,可以很好地满足数据溯源的需求,通过数据来源可以对不同类型的数据进行有针对性地清洗和校正,提升数据挖掘与建模时的科学性,并使得数据的所有权得到维护,这还会进一步促进数据的开放与共享,形成良性循环。
第三,“ 互联网”模式有助于在“互联网 ”模式的基础上,从多种角度评估政府数据质量,同时还可以强化社会对政府工作的监督,及时把握社会舆情。对政府数据质量科学评估,既关系到国家宏观调控的有效性,也关系到各类市场经济主体的切身利益,更对政府部门的公信力具有重要影响。目前,对政府数据质量评估的方法主要包括逻辑检验、计量经济模型分析、核算数据重估、统计分布检验、调查误差评估等方法,其共同特点是主要是侧重于统计方法的研究,缺乏从大数据源角度的研究。“ 互联网”模式鼓励更多的数据生产主体,包括研究机构、企业、个人等主体,从多种角度公开数据源,为研究政府数据质量问题提供更多样化、更详细的数据。如果基于“ 互联网”模式的数据源进一步增大,则更有裨益。因为对大数据应用而言,数据量通常需要超过一定规模,这是由于利用大数据建模预测时,需要对数据反复进行训练,以便找到拟合更好的训练模型,因此用来训练模型的数据总量必须要足够多,如果少于一定规模,就会出现所谓“过度拟合”(即为了得到一致假设而使假设变得过度复杂)。此外,大数据中的噪音数据往往会以有意义的模式出现,从而会绕过普通训练模型的监控,这就需要更大的数据量进行矫正。另一方面,随着互联网中可用数据源增多,社会公众会从各个角度对政府数据进行评价,在人人均可为自媒体的互联网时代,这些舆情对政府工作具有较强的监督功能,倒逼政府进一步提升工作效能和数据质量,多年以来政府的实践工作也充分印证了这一点。
最后需要强调的是,本文无意于绝对否定或肯定“互联网 ”和“ 互联网”这两种模式中任何一种的价值与意义,而是启示研究者根据社会经济发展的不同阶段选择更为合适的发展模式。从数据应用的角度而言,“互联网 ”和“ 互联网”两种模式之间诚然存在分歧,但并不重要,重要的是如何促进线上线下不同类型数据之间的有效聚合,消除数据信息壁垒,从而发挥大数据本身的巨大价值,为服务型政府建设提供更强有力的支撑。