当前位置: 首页 > 农村研究 > 相关学科

大数据:政治学研究的科学新工具

作者:黄欣荣  责任编辑:网络部  信息来源:《马克思主义与现实》2016年第5期  发布时间:2017-10-28  浏览次数: 3654

【摘 要】正在兴起的大数据对政治学研究具有重要的意义,大数据将给政治学研究带来全新的数据密集型研究新范式。大数据是描述政治生活复杂行为的新工具,从海量的政治数据中可以发现隐藏其中的政治学规律,并据此对未来的政治走向做出精准的行为预测。因此,大数据必将成为政治学研究的科学新工具。

【关键词】大数据政治学;政治学方法论;数据范式;政治描述;政治预测


大数据革命是一场正在发生的信息革命,它同时也是一场认知革命和社会革命,并即将为我们带来政治、生产、生活、认知等全方位的大变革。大数据将万物映射为数据,让原来难于被数据化的哲学社会科学研究领域也能像自然科学一样实现数据化,因而实现科学化。作为一门重要的社会科学分支,政治学也将在这场大数据革命中获得新的科学认识工具,因而实现政治学研究的科学化。

一、数据范式:政治学研究的新范式

政治学是以人类的政治生活为研究对象,重点研究人类及其社会的政治行为、政治体制以及其他政治问题的学科。从狭义来说,政治学的研究对象是国家,它主要研究国家的政治活动、政治形式、政治关系及其规律;从广义来说,政治学的研究对象是一切政治现象,是研究社会中各种政治关系的科学,是研究关于社会政治及其发展规律的科学,或者说是研究社会各种政治力量关系发展规律的科学。

无论是广义还是狭义,从学科属性来说,政治学都属于社会科学门类,它是社会科学的重要分支之一。所谓社会科学,就是其研究对象是复杂的人类及其社会,但其研究方法是借助自然科学技术的研究方法,简单说来就是用自然科学技术方法研究人类及其社会。这样,看起来与自然科学不太相关的政治学,在研究方法上却与自然科学技术有着千丝万缕的联系。历史上的每一次科学技术革命或科学方法论的重大变革,都会对政治学研究产生重大的影响。

科学研究的信念、认知、方法的体系也被称为科学研究范式。范式意为具有共同信念、认知模式和方法工具的科学共同体所所遵循的共同规范与模式,它是美国科学哲学家托马斯·库恩引入的科学哲学词汇。科学家们从事科学研究的时候,在不同时期遵循着不同的范式。美国计算机专家、图灵奖获得者吉姆·格雷将科学研究范式按历史发展依次分为经验范式、理论范式、虚拟范式和数据密集型范式等四大类。古代科学基本上采用的是经验范式,近代科学更多运用理论范式,计算机模拟技术的兴起带来虚拟范式,而正在兴起的大数据革命则带来了第四范式,即数据密集型科学研究范式。由于主要借用自然科学技术的研究范式,因此政治学的研究范式与自然科学研究范式基本上是同步的,历史上也经历过经验范式和理论范式,在近数十年则有学者引入虚拟范式,而大数据也为政治学带来了革命性的研究范式,即政治学研究的数据密集型范式。

荷马时期是政治学研究的开端,尚未形成学科的范式。柏拉图的《理想国》、亚里士多德的《政治学》应该是政治学研究的最早范式。亚里士多德自己就是科学家,因此其政治学研究自然也就依照其自然科学范式。自然科学在其早期属于收集、整理材料的阶段,基本上是依靠人类的自身经验和自然观察,因此人们将科学的早期范式称为经验范式。早期的政治学研究也仿照自然科学,从观察政治现象开始,然后进行归纳提炼,例如亚里士多德的《政治学》就是古希腊各城邦政治实践的经验总结。经验范式是政治学研究的第一个范式。

文艺复兴之后,在伽利略、牛顿等科学大师的努力和示范下,科学研究除了继续观察经验现象之外,科学家们开始了受控实验,更重要的是重视理性和理论的作用。虽然经验论特别强调经验在自然科学中的地位和作用,但唯理论对理性、理论的强调则从另一方面修正和补充了经验论的不足。例如笛卡儿的“我思故我在”就特别突出了思想、理论的巨大作用。近代政治学研究也在经验范式的基础上开始重视理论的作用,逐步进入理论范式。理论研究范式突出了理论的地位,强调演绎逻辑,它从理论假设出发,进行推理论证,然后再用经验进行检验理论的对错。例如卢梭的《社会契约论》、斯宾诺莎的《神学政治论》等都是从理论假设出发进行推理论证。理论范式是政治学研究的第二个范式。随着计算机技术的兴起,模拟技术逐渐进入科学研究之中,并被科学研究者用于模拟自然条件下难于进行观察、实验的复杂系统研究,例如气象研究、核能研究等,因此形成了科学研究的第三种范式:虚拟范式。虚拟范式在政治学中也有所表现,而最著名例子的要数20世纪70年代罗马俱乐部使用模拟方法研究诸多全球问题。在涉及国际政治关系及其走向问题之时,虚拟方法可以在计算机模拟的环境里预先进行某些仿真实验,以便为实际操控提供参考。不过虚拟范式似乎并没有成为政治学研究的主流范式,只能作为经验范式和理论范式的有益补充而用于关系复杂的政治研究之中。

随着大数据技术的兴起,数据的采集、传输、存储、处理都发生了革命性的变化,作为科学研究重要资源的数据突然变得唾手可得,于是我们的社会迅速进入大数据时代,科学研究范式也随之发生重大变革,诞生了科学研究的最新范式:数据密集型科学研究范式。吉姆·格雷之所以把它称为第四范式,因为它是前面三种范式之后出现的第四种科学研究的重要范式。数据密集型研究范式在自然科学与技术中已经得到了比较广泛的应用。例如环境科学、海洋科学、天文学、神经科学等学科都已经开始运用大数据来进行科学发现。作为研究人类及其社会政治生活的政治学,其研究对象更加复杂多变,需要大数据才能够刻画其行为,探究其规律,预测其未来,因此更需要引入科学技术最新的数据密集型研究范式。这就是说,大数据技术革命将引发政治学研究范式的革命,数据密集型研究范式可能成为政治学研究的最新研究范式,是继经验范式、理论范式和虚拟范式之后的第四种范式。

政治学研究的数据密集型范式将使政治学研究从重视经验观察、理论假设和虚拟计算转向重视反映政治现象与政治生活的各种原始数据,即通过智能设备将政治生活的一切行为转换成数据,通过大数据来描述复杂的政治现象,而且通过数据挖掘来“让数据自己发声”,以发现各种政治现象之间的相关关系,并能够用图表等可视化的手段把复杂的政治关系形象地表现出来。数据密集型范式的本质是通过海量的数据来更加精确描述政治现象,并使用程序来发现规则,以使政治学研究不易受研究者的偏见所影响。政治学研究的数据密集型范式的出现为政治学研究提供了一种新的研究范式,让政治学研究更加重视数据的收集与使用。它强调了数据作为科学方法的特征,这种新方法与经验、理论和模拟等三种研究范式平起平坐,共同构成了政治学研究的科学方法体系。

二、大数据:描述政治现象的新工具

人们对世界的各种现象都充满着困惑和兴趣,并试图用某种理论对未知现象进行合理的解释,语言和文字的出现为现象的解释提供了一种便捷的解释工具。在早期,无论是宗教、科学还是哲学人文学科,都使用语言、文字对自然或社会现象进行描述,然后寻找其中的定性规律,揭示蕴含其中的内在机制。数字的出现,特别是阿拉伯数字的出现,为人类描述现象提供了更加精致、准确的科学工具。应用数字工具,我们不但可以对现象进行量化,从而对事物进行精确测度,而且可以揭示现象之间精确的数量关系,从而更加深入地认识现象背后的定量规律。自然、社会现象的语言、文字描述只是一种定性研究,或者说只是对现象的初步认识,如果要把握事物的本质,我们就必须进行定量研究,以便揭示现象之间的精确关系。正如马克思所说,一种学科只有在成功地运用数学时,才算达到了真正完善的地步。因此,数据化是精准描述对象并探索其内在规律的重要手段。

人类对世界的数量化过程已经具有数千年的漫长历史。古埃及人就创造了数字并用之丈量土地、计量财富、计算税负等,实现了财富资产的数据化。文艺复兴开始,开普勒、伽利略、牛顿等天文学家和物理学家们逐渐实现了对自然世界的数据化,从而带来了科学技术革命。当人们试图将对人类自身及其社会进行数据化时,却发现困难重重。在人类及其社会面前,数据化脚步有点止步不前。为什么人类自身及其社会难于被数据化呢?这主要因为财富资产的数据化比较简单,只是一些简单的测量、计算工作。而近现代科学技术对自然世界的研究主要也只是停留在线性区域内,属于简单性科学,用相对简单的测量和数据就能够实现对自然现象的认识和把握。

然而,政治生活是人类的重要活动之一,也是人类区别于其他动物的重要标志。人类是具有主体性、群体性的高级动物,其思维和行为都具有非线性的复杂特征,很难用少数几个数据来描述其复杂思想和行为。人类结成社群后,由于其相互作用,思想、行为更加复杂、多变、多样,因此政治现象的描述和政治规律的把握就具有相当大的难度。传统的政治学对复杂的政治现象也试图用数据、模型来进行刻画,比如历史上就曾经有过“政治算术”之类的数据化、科学化尝试,但当时存在着两大困难,其一是当时缺乏科学的数据采集、处理手段,其二是没有分析复杂系统的科学理论。从数据来说,我们传统的采集、处理手段主要依靠访谈、普查或抽样调查等人工手段。这一方面需要大量的人力、物力和财力,另一方面由于人工的过分参与,数据缺乏客观性和可靠性,而且大量的数据也没法用人工来得到及时的处理。从理论上来说,所有的理论都是针对线性系统的简单性科学理论,只能针对少量的参数建构比较简单的理论模型,尚不足以解释像政治活动这类人类社会的复杂现象。

随着互联网(特别是移动互联网、物联网)、智能终端和云计算等信息技术的出现,数据的采集、传输、计算、存储等问题都出现了革命性的突破,各类数据像洪水一样到处爆发,聚集一起成了数据的海洋,这就导致了所谓“大数据革命”这样一场数据技术革命。通过各种智能终端、传感器等智能感知设备,世界上的万事万物都能够转换为以01为基础的数据。由此,万事万物除了以实体的形式存在于实体世界之外,还以数据的形式对应着一个数字镜像,我们可称这个镜像世界为“数据世界”。数据世界是一个以01为基础的比特世界,与实体世界具有映射、对应的关系,但它更方便计算机等智能设备进行自动处理。

2000多年前,古希腊哲学家、数学家毕达哥拉斯就曾经宣称“数是万物的本原”,这当然颠倒万物与数之间的本末关系,但他揭示了实体与数据之间的对应关系。大数据理论认为,“万物皆数”,或者说“万物皆比特”,通过各种智能感知手段,能够实现“量化一切”的目标。

大数据怎样对政治现象实现量化以实现政治现象数据化呢?(1)从采集存储来说,从手工到自动化。自古以来,数据都是靠人工采集,例如观察测量、问卷调查等,存储、处理也全靠人工,因此需要大量的人、财、物力。而在大数据时代,数据的获取主要通过各种智能终端,例如安装在物品中的智能芯片、随处可见的各种监控设备、网络点击的自动记录、智能手机和可穿戴设备记录的各种数据。这些数据都是在没有人工参与的情况下自动留下的数据轨迹,因此数据采集实现了智能化、自动化。此外,数据存储云端化、数据传输网络化、数据处理云计算等,让复杂的政治数据采集、存储、传输和处理都变得极为便捷,为量化政治打下了数据基础。(2)从数据规模来看,从小数据到海量化。由于采集的困难,人类在漫长的历史中留下的数据量极为有限,但随着数据采集的智能化、自动化,近年来数据规模迅速暴增,呈几何级数增长,大概两年左右数据规模就翻番,这就是所谓的摩尔定律。数据总规模从TB(240)级迅速到达PB(250)级甚至是EB(260)ZB(270)级别,从而出现海量数据。(3)从数据来源来说,从单一性走向多样性。以往我们研究政治现象时,似乎只有各种数值才算数据,也就是说,我们以往所说的政治数据是单一的数值式数据,只有这种数据我们才能用统计手段进行处理。但随着数据挖掘技术的发展,任何信息,例如文字、音频、图片、视频、方位等等,都可以转化为01表示的数据,真正实现了“万物皆数据”的理想,因此数据来源呈现出多样性。

在大数据时代,政治现象数据化将对政治学研究带来哪些变革呢?传统的政治学由于缺少合适的研究手段,只好把复杂的政治系统当作一个简单系统,所做研究主要是“局部、静态、主观、定性”的简单系统研究,而大数据把政治系统恢复为复杂系统,并用处理复杂系统的方法进行“全面、动态、客观、定量”的复杂系统研究。(1)从数据量来说,大数据带来了更加“全面”描述政治复杂性的海量数据。复杂的政治现象如果要进行客观、科学的分析,就必须有数据做支撑,例如西方国家的总统选举之时,必须及时了解民意,拿出科学的数据,“让数据说话”。而在小数据时代,由于数据获取不易,往往采取问卷调查、电话访问等抽样调查,只能获取少量的数据,并以极少的数据做出统计推断以便把握选情。这种“以少概多”往往偏差较大,因此准确度较低。在大数据时代,人们的情绪、偏好、心情都通过智能设备反映在网络之中,因此各种论坛、社交网络、评论等都透露了民众的政治态度。这样,大数据更加全面、多维地反映了政治生活的复杂性。(2)从数据的活性来说,大数据带来了“动态”的过程数据,特别是在线数据。以往的政治学研究一般只能截取每个时间节点来获取部分数据,进行静态的研究。在大数据时代,由于万事万物都留下了数据轨迹,也就是说以往的数据都有完整的储备,因此我们可以描述政治系统从过去到现在的完整轨迹,获得更加完整的理解。更为重要的是,通过智能感知和网络在线,我们可以获取当下的信息,能够反映政治的即时状态,可以随时跟踪、观察政治系统的动态变化。(3)从数据的客观性来说,大数据时代的数据更加客观、科学。以往的数据一般都是预先设计好的访谈或抽样数据,这些数据由于人们的过多参与,渗透了观察者和被观察者的主观意识,因此数据被污染。大数据时代的政治数据则是智能感知留下的数据轨迹,没有渗透数据采集者和被采集者的主观意愿,或者说没被污染,因此大数据更具有客观可靠性,更能反映真实的政治行为和政治现实。(4)从数据的密集程度来说,大数据时代的政治学研究将会采用数据密集型研究范式。在小数据时代,描述政治现象的数据难以采集,因此政治学研究主要还停留在定性研究之中,尽量不用数据或少用数据。在大数据时代,一切都用数据说话,于是政治学研究也从定性研究走向定性定量相结合的研究,特别是数据密集型研究范式,一切政治现象、政治行为都将变成数据,并从大数据中发现政治规律。

三、数据挖掘:发现政治规律的新方法

政治学研究的重要任务之一是发现政治现象之间的规律。怎样发现政治规律?不同的研究范式,其方法与途径也有很大的差别。经验研究范式试图通过归纳人类的历史经验来发现政治规律,政治行为的各种经验是发现政治规律的基础,而归纳方法是从经验中发现规律的基本科学方法。理论研究范式则试图通过理论的假设和推演来发现政治规律,逻辑假设是该研究范式的基础,一切政治研究都是从基本假设出发,然后使用逻辑演绎方法从理论假设开始进行严格的逻辑演绎,从推演中发现政治运行规律。虚拟研究范式则首先建立数学模型,然后让计算机对模型进行计算模拟,从模拟中发现现实政治生活的规律。基于大数据的数据密集型研究范式则是从海量的大数据出发,通过数据挖掘来发现数据之间的相关关系,以便找出政治生活的数据规律。数据密集型研究范式的基础是大数据,而其基本方法则是数据挖掘。

所谓数据挖掘就是从大量、不完全、有噪声、模糊的实际应用数据中提取隐含在其中而人们事先不知道的有用信息和知识的过程。该定义包含着四层含义:首先,数据源必须真实,数量巨大但含有噪声;其次,能够发现用户感兴趣的有用知识;再次,发现的知识要可接受、可理解、可运用;最后,所发现的知识不需要具有放之四海而皆准的普适性,只要能支持特定的发现问题。这里所谓的知识包括概念、规则、模式、规律和约束等,因此数据挖掘也被称为数据库中的知识挖掘、知识提炼、模式分析、数据考古、数据采矿等,其本质都是把数据当作形成知识的源泉,从数据中发现知识就像从矿石中采矿或淘金一样。通过数据挖掘,我们能够从大量的混杂数据中找出那些令我们感兴趣的、隐含而先前未知的有用知识或信息。

政治学研究为什么要用数据挖掘来发现规律?这主要是因为政治行为数据具有大数据的所谓“4V”特征。(1)Volume(数据量大)。人们的政治生活是丰富多彩的,几乎任何活动最终似乎都关乎政治。例如,我们每天在网站中浏览新闻,在博文中表达观点,在朋友圈中点赞,对热点事件的围观,甚至购物消费、旅游、聚会等等,似乎都透露出我们的政治偏好和态度。人们的一切行为、兴趣、偏好恰好又遇上了万物智能化、互联化的大数据时代,一切都被记录在网络之中。因此,人们的政治生活细节被智能芯片转化成了数据,而且通过有线或无线网络迅速汇聚一起,沉淀为无所不包的大数据。随着智能技术、网络技术和云计算技术的快速发展,反映政治生活的各类数据也呈爆炸性增长,如今数据规模特别巨大,用一般的数据处理手段难于应付,必须运用数据挖掘技术才能从海量数据中“数里淘金”。(2)Variety(类型繁多)。以往的政治学研究也重视数据的收集和运用,例如问卷调查,但那时的数据仅指数值型数据,而且事先规定了某种结构,这就是所谓的结构型数据。但在大数据时代,反映政治生活的数据复杂多样,不再局限于结构化数值型数据,例如我们日常生活所使用的文档、图片、音频、视频、位置、上网痕迹等等,一切行为都能够被数据化,也有可能反映人们的政治活动。如此类型繁多的数据,必须使用先进的数据挖掘技术才能找出有用的信息和规律。(3)Velocity(快捷便利)。由于技术的限制,以往我们只能收集少量的静态数据,并且处理结果严重滞后于迅速变化的政治生活,例如面对突发性事件,我们无法及时处理,更缺少全程跟踪和反馈。利用智能、网络、存储、计算等大数据技术,我们可以即时了解时态,在线跟踪反馈,一切政治行为都尽在掌握之中。数据挖掘技术是从快速多变的政治行为中迅速找出规律的技术利器。(4)Value(蕴含价值)。随着互联网、物联网的广泛应用,信息感知无处不在,信息海量,形成规模巨大的数据库,但这海量的数据并非价值均等,因此数据的价值密度较低。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是数据挖掘技术的重要任务。例如在反恐行动中,反恐专家要从浩如烟海的数据中挖掘出恐怖分子的数据痕迹,捕捉到有价值的关键数据。从大数据的上述特点中,我们可知,数据挖掘技术是从政治行为大数据中找出有用知识或规律的必备工具。

数据挖掘数据怎样挖掘政治行为大数据呢?随着计算机软件、硬件技术及计算技术的发展,数据挖掘技术已经具备了从混杂、海量的数据中找出有用信息或规律的能力,并已经出现了比较成熟的数据挖掘公司和挖掘软件,例如HadoopMap Reduce等就是已得到比较广泛应用的软件。政治数据的挖掘要经历定义问题、数据收集与预处理、数据挖掘实施,以及挖掘结果的解释与评估等过程。要在海量的大数据中找到规律性的东西并不容易,不能像小数据时代那样直接寻找数据之间的因果关系,而是通过数据的清洗、分类、聚类、关联等挖掘技术去寻找数据之间的特征量及它们之间的相关关系。(1)数据清洗:大数据中的原始数据由于来源混杂,数量众多,所以泥沙俱下,数据中混杂着噪声,有些数据不完整或不清晰。例如网络舆情数据就是这类数据,要从海量网民的片言只语、监控视频、聊天语音等含噪声的原始数据中寻找有用信息,首先就必须对这些原始数据进行清洗。(2)数据分类:政治大数据混杂多样,有结构化数据、非结构化数据,也有半结构化数据,有文档、音频、视频、图片等,用决策树方法、贝叶斯方法、遗传算法等方法将数据分类是数据整理、挖掘的初步工作。(3)数据聚类:把政治大数据中类似的数据归类到一起,形成一个新的类别进行分析,能够进一步发现有用信息。聚类分析是数据挖掘的重要手段。(4)数据关联:万事万物之间都是相互联系的,从海量的大数据中发现数据某一数据与其他数据之间依赖关系,找出数据间关联规则,这就找到了大数据的有用信息或规律。识别或发现频繁发生的事件是关联规则发现的核心,关联也就是某种规则,其实也就是规律。

数据挖掘只能从大数据中挖掘出数据的相关关系,呈现出来的是数据规律。数据规律仅仅是数据之间的相关关系,这是一种表象关系,具有偶然性,并不一定反映表象背后的因果关系,因此它与具有必然性的因果规律具有本质的区别。面对海量的数据,要找到每个数据的前因后果关系几乎是不可能的,就像分子物理学不可能找到每个分子的因果链一样。数据规律是否属于客观规律呢?虽然数据规律没有揭示表象背后的具体因果机制,但它具有倾向性和规律性,在实践中能够向我们提示事物发展的方向,具有帮助发现的功能。因此数据规律也是规律的一种,它与因果规律互补,共同帮助我们认识世界,认识人类及其政治行为规律。因此数据规律也是客观规律,是政治规律的数据表现形式。

四、大数据预测:认知政治态势的新途径

人们对未来要么充满期待,要么心存恐惧,所以未来的走向趋势,自古以来都是人们关心的焦点。政治事件的发生与我们的日常生活密集相关,深刻地影响着国家、民族、政府和个人的生活,所以政治事件的预测及其防控就显得格外重要。因此,无论是国家、组织和个人,都有意无意地都在预测着未来。从科学哲学的科学标准来说,一门学科若要被称为科学,除了能够解释已经发生的各种现象之外,最重要的是必须能够预测未来。我们认识政治现象背后所隐藏规律的目的,一是解释已经发生的政治现象、政治行为,发掘现象之间的关联关系,二是通过以往规律揭示政治的未来走向,预测未来的趋势。因此,政治预测是政治学研究的核心问题。例如网络舆情、选民态度、政治倾向、突发事件等等,都需要我们提前做出准确的政治预测。

所谓预测,就是根据过去的历史经验去推测未来走向。不同的时代有着不同的预测方法,预测方法与科学技术的发展水平密集相关,传统的政治预测方法主要有经验猜测、理论推演、统计推断等。在科技不发达的年代,由于数据的缺乏,人们主要凭着过去的政治经验来推测未来的政治形势,国家兴衰、民意涨落等一切政治事件都靠经验来猜测。所谓理论推演就是根据事物之间的因果关系,把过去已经发生的事件作为“因”,把未来即将发生的事件作为“果”,这样就能够获得未来走向。统计推断是根据少量数据,利用统计插值方法,由反映过去的少量数据通过插值外推,得出未来的走势,由此推断未来。这些传统的政治预测主要是以经验为依据进行大胆的猜测,或者利用不太完整的数据进行建模、推测,这些预测方法在数据欠缺的条件下为政治预测做出了贡献,但是,因为缺乏完整的数据体系和科学的数据挖掘手段,传统的政治预测方法存在着不少问题,预测手段落后,预测结果准确度不高。

大数据时代的来临为科学的政治预测带来了坚实的数据基础和科学的挖掘手段,我们可以利用大数据预测方法改进传统的政治预测手段。政治行为数据已经聚集成为海量的规模,这海量的数据不但反映了政治行为的过去历史,也反映了各种变量之间的相关性。由海量数据做基础,再根据相关性,就可以比较精确地预测出未来的政治行为,这就是大数据预测。大数据预测是正在发生的数据技术革命的结果,是政治预测的科学新方法。

政治行为为什么要用大数据才能更准确地预测呢?政治行为是人类最复杂的行为,其中充满着智慧、博弈甚至狡诈,传统的依靠经验猜测、理论推演或统计推断,不但难于把握过去的政治现象和规律,更难于预测未来的政治现象。因为数据不但是描述、认识政治现象和规律的工具,更是科学化预测的基础,反映过去的数据越多,预测就会越精确。经验猜测法是在严重缺乏数据的情况下全凭过去的经验去猜测,而经验是缺乏主体间性的个人体验,以此依靠猜测当然难于精准预测未来。理论推演是一种逻辑演绎,全凭作为演绎前提的理论假设是否正确,而缺乏数据基础的理论假设往往属于虚假性的假设,因此其推演结果也就难于让人信服。统计推断虽然利用了统计理论,但由于依据少量的样本数据难以全面刻画复杂的政治行为,因此难免出现以偏概全。作为复杂行为的人类政治,必须用大量的数据才能刻画其行为和状态,数据越多,刻画的维度就越多,其行为、状态就描述得越精确。政治大数据记录了人类及其组织的几乎所有行为的原始数据,充分反映了政治的各种状态,是人类政治行为最没有遗漏的完备描述。大数据对未来政治的一切预测都建立在海量的数据基础之上,完全是“让数据说话”,尽量减少主观臆测的成分,这样,政治学就从凭灵感猜测的“艺术”走向了靠数据说话的“科学”。政治现象纷繁复杂,似乎难于把握,大数据怎样实现政治预测的呢?这主要是因为大数据的海量数据构成了一个复杂世界、复杂网络,政治行为虽然复杂,但数量达到PB级别的数据足以从极其微观、精细的各个维度刻画其复杂性;只要用复杂性、统计学等科学理论就能够在混沌之中找出秩序,揭示规律,做出预测。首先,人类及其政治组织虽然存在复杂性和多变性,但它也有路径依赖性,有其行为习惯,未来的走向会依赖过去的行为,依其惯性运行,因此我们可以以政治大数据预测政治的未来走向。其次,根据复杂性理论,政治行为的大数据虽然看似纷繁复杂、眼花缭乱,但会显现出小世界特征。复杂系统经过相互作用会显现出简单行为,由此我们可以对其未来做出预测。最后,由大数据构成的复杂系统会遵循幂律分布,幂律决定了数据网络的结构及其行为走向,主宰着我们的真实活动的节奏。如果了解了人类及其政治行为的过去数据,那么其未来就不会有多少令人惊讶之事发生,一切都在掌握之中。

政治行为大数据预测,使得组织和个人的政治趣向、政治意图和政治行为都可以被预测。政治复杂网络研究权威巴拉巴西说:“当我们将生活数据化、公式化以及模型化的时候,我们会发现其实大家都非常相似。我们都具有暴发模式,而且非常规律。看上去很随意、很偶然,但却极其容易被预测。”他认为93%的人类行为都可以预测的,通过大数据可以揭开人类行为背后隐藏的规律和模式,并对其做出精准的预测。大数据能够海纳百川,记录复杂多变的政治动态,并精确预测未来的政治态势。大数据政治预测,可以让我们提前预知国际、国内,组织、个人等政治走向,并及时做好政治决策,提前采取适当的政治应对。对于那些有利的政治走向,我们可以适当加以助推,而对于那些不利的政治走向,我们可以提前采取预防措施。


参考文献:

[1]Steve Lohr,“The Age of Big Data”,The New Times2012-2-11.

[2]杨光斌:《政治学导论》,中国人民大学出版社2011年版第1-3页。

[3]T.HeyS.Tansley and K.TolleThe Fourth ParadigmData-Intensive Scientific DiscoveryMicrosoft Research2009ppxvii-xxxi.

[4]孟广天,郭凤林:《大数据政治学:新信息时代的政治现象机器探析路径》,载《国外理论动态》2015年第1期。

[5]黄欣荣:《数据密集型科学发现及其哲学问题》,载《自然辩证法研究》2015年第11期。

[6]参见[]迈尔·舍恩伯格、库克耶:《大数据时代》,盛杨燕等译,浙江人民出版社2013年第105-109页。

[7]朱明编著:《数据挖掘》,中国科技大学出版社2008年版第4-5页。

[8]同上书,第4页。

[9]David Chandler,“A World without CausationBig Data and the Coming of Age of Posthumanism”,MillenniumJournal of International Studies2015Vol.43(3).

[10][美]巴拉巴西:《爆发:大数据时代预见未来的新思维》,马慧译,中国人民大学出版社2012年版第289页。