农村研究Rural research

中农调查/ Rural Survey

中农成果/ results

不操纵无因果：实验政治学几个核心的方法论问题

作者：余　莎游　宇责任编辑：网络部信息来源：《甘肃行政学院学报》2017年第2期发布时间：2017-12-08 浏览次数： 5179次

【摘　要】在过去30年，实验方法的崛起为政治学研究掀起了一场方法论的革命。在此背景下，本文回顾了实验政治学几个核心的方法论问题：与观察性研究相比，实验研究在因果推论方面有何优势；（2）政治学者如何做实验研究来保障这一优势；（3）如何评价实验政治研究的效度；（4）实验方法用于政治学研究有何局限与挑战。笔者认为，一旦弄清实验方法的这些基本特征，政治学者便可充分利用其优势、克服其局限，以此作为理解政治现象的研究利器。

【关键词】定量研究；定性研究；内在效度；外在效度；实验政治学研究

一、引言：实验政治学的崛起

在过去的一个多世纪里，政治学者对于实验方法的看法经历了“大转型”。20世纪初，美国政治学会主席罗威尔在演讲中指出，“在政治研究的‘生理机能’上，我们天生便是不能进行实验的；政治学或政治现象本身就是观察性的而非实验性的科学，因此我们所需要的是更多、更精确的对于政治现象的观察”（Lowell，1910：7）。这一观点，从本体论层面就否定了在政治学领域运用实验法的可能性。然而，半个多世纪之后，在一篇经典的比较政治学方法论综述文章中，著名的政治学家利普哈特（Lijphart，1971：683-684）肯定了实验方法在政治学研究中的地位，“就科学解释而言，实验方法几乎是最理想的方法，但遗憾的是，由于实践和伦理上的阻碍，这种方法在政治学中很少被运用”。尽管利普哈特对于应用实验方法做政治学研究的实践仍然悲观，但实验在方法论层面的优势得到其认可。直至最近30年，实验方法并未如先哲预期那样寸步难行；相反，它在政治学界得到了广泛的支持和推广（Morton Williams，2010）。

从实验政治研究的发表规模便可一窥上述趋势（Druckmanetal.，2006）。如图1所示，在美国政治学最顶级的三大期刊中，运用实验研究的规模在近30年来不断增加；尤其在近10年来，实验政治研究更是实现了跨越式的成长。不过，在实验政治学成长的背后，一方面既有学界对实验方法的赞赏与重视；另一方面也有对其的批评与质疑，从实验对象的代表性（Mintzetal.，2006；谢宇，2012；Clifford Jerit，2014）到实验情境的真实性（Kinder Palfrey，1993；Barbabas Jerit，2010），从实验能否随机分配（Deaton，2010；Sinclair et al.，2012；Banerjee Duflo，2014）到对实验数据的建模是否正确（Imai，2005；Keele et al.，2012）等等。可以毫不夸张地说，政治学者最近几十年对于实验方法的关注，可谓是华山论剑，争论不休。可见，实验方法的崛起已经为政治学掀起了一场方法论的革命。

俗话说，“工欲善其事，必先利其器”。究其根本，实验方法在政治学研究中异军突起的主要原因在于，整个学科将因果推论（causal inference）与实证导向的理论提炼（empirically guided theoretical refinement）等两大研究目标置于重中之重（Druckman et al.，2006）。正如下文所述，前者更是实验研究的主要目的所在。因此，也不难理解为何实验在这场方法论辩论战场上“越战越勇”，成为政治学者观察政治现象、了解政治逻辑的重要利器。

正如Druckmanetal.（2011）一文所提，在实验方法如此普及、预期未来影响更广的时候，有必要界定实验方法的几个核心概念。本文认为，不仅如此，还有必要梳理上述方法论辩论历程中所涉及的实验方法论的核心问题，比如，为什么要进行实验研究，实验方法与其他研究方法相比有何异同与优势；（2）政治学者通常是怎样设计实验方案、怎样完成实验以保障其优势；（3）如何评价这些实验政治研究，如何平衡与兼顾实验的内、外效度；（4）实验政治学者面临哪些约束与挑战等等。鉴于国内学者日益关注实验政治学的发展，例如黄琪轩（2011）介绍了实验方法在比较政治经济研究中的应用；马亮（2015）则考察了公共管理实验研究何以可能；臧雷振（2016a）梳理了近年来的实验方法在政治学研究中的应用进展与议题分布，并反思了社会科学进行实验研究面临的问题与挑战（臧雷振，2016b），以及国内政治学、公共管理学者已经开始从事实验研究。在这样的学科发展背景下，回顾这些方法论问题甚为重要。它无疑可以帮助学界了解实验政治学兴起与发展的缘由，同时为未来的实验政治学者以及批评者们提供最基础的辩论导览，因此，这将是本文的主要任务，也是本文对于实验政治学文献所做的边际贡献。本文接下来的各节将逐一解答上述四个问题。

二、为什么要做实验：实验研究的目的与优势

多数社会科学研究均有一个目的：进行因果推论（王天夫，2006；彭玉生，2011）。社科学者要理解社会现象，就要找到现象发生的原因、考察现象背后的规律，这不仅是帮助知识积累、促进科学发展的探索之途，也是维护社会稳定、推动社会进步的必由之路。然而，对于任何社科学者而言，因果推论都是一项富有挑战性的任务。这是因为，在理论上来讲，因果推论的根本任务是在控制其他“干扰因素”的情况下，建立两个或多个变量（结果变量Y与原因变量X）之间的因果关系；而在实际研究中，研究者往往只能看到社会现象的结果Y，却要想方设法利用既有经验证据来“推测”与“证明”发生结果在之前的原因为X，而非干扰因素。

要解决上述问题，最直接的方法便是：比较某个因素发生与没有发生所产生的结果。举例来说，要研究观看总统辩论是否影响选民的政治态度，需要比较同一选民收视辩论节目之后与其没有收视时的态度是否存在差异；（2）要考察财政补贴对居民收入的影响，需要比较同一居民收到政府补助之后的收入水平与其未曾接受补贴时的收入水平；（3）要关注参加就业培训是否增加就业，需要比较个体参加培训之后是否高于其未参加时的就业概率。于是，这就产生了一个根本问题，研究者无法观察到研究对象同时处于“观看了辩论VS未曾收视”、“收到补贴VS未受补贴”、“参加培训VS没有参加”这两种状态。对此，只有通过建构可比的比较（construct comparable comparison）来做因果推论：假设观看了辩论的研究对象若未收视节目时的其行为表现，与确实没有收视节目的研究对象的行为表现，完全相同；那么观察到的两类群体的行为差异就可以放心地归因于是否观看辩论，以此类推。

上述进行因果推论的实证策略，即是鲁宾因果模型（Rubin Causal Model）的核心思想（Holland，1986；Imben Rubin，2015）。而实现这一实证策略的具体方法，又可以分为三种：案例比较、定量统计、实验方法。具体地，案例比较通过找到“最相似案例”（Lijphart等的思路）或“最大差异的案例”（Przeworski的思路）来推断因果关系、检验理论假说（科利尔，2013）。定量统计是在多元回归分析的基础上通过控制其他影响因素来考察“可能的原因”是否影响“可能的结果”。然而，在因果推论的成效上，这两种方法饱受批评。例如，案例比较存在“变量多、案例少”的问题，使得其“控制”很弱，容易出现虚假相关，理论外推的可能性也较小；而定量统计则面临测量误差、模型设定偏误、样本选择等问题。这场有关“定性VS定量”的方法论大辩论，成为政治学在20世纪末至21世纪初最值得关注的事件。尽管上述辩论均有合理之处，但其实都没有谈到两种方法进行因果推论的最本质的问题。因为无论是通过找最相似或最不相似案例，或者多元回归分析，这背后的推论逻辑均是控制其他因素，以保证定性研究的案例之间、或者定量研究的观察单位之间是可比的。只要可比性假设成立，上述问题都可以通过恰当的研究设计加以解决。

因果推论最本质的问题在于，无论案例比较还是定量统计，都是基于历史记录资料或者统计调查数据的观察性研究，都很难保证可比性假设成立。例如，《公民文化》（阿尔蒙德、维巴，2014）选择了五个民主国家为案例，来考察政治文化与民主制度稳定性之间的关系，但这一策略并不能排除虚假相关（德菲利斯，2013）。再例如，若用调查数据来考察观看总统辩论对于政治态度的影响，由于调查对象可以自主选择观看或者不观看（甚至选择不同媒体直播的评论解读），这就使得两组观察对象的政治态度可能本质上（观看或不观看之前）存在差异。在这两个例子中，如果造成差异的因素不可观测，那么研究者将永远无法得到准确的因果推论（Gerber et al.，2014）。换言之，由于观察性研究难以控制“不可观测的未知干扰因素”（unobservable confounders），因此，这会使得研究设计遭遇自选择、遗漏变量或者逆向因果等问题，严重影响因果推论（Przeworski，2007）。

对于上述可能存在的问题，实验方法则试图通过操纵研究关注的变量、随机分配研究对象等方法来解决：实验可以通过随机分配来避免自选择问题、排除遗漏变量等干扰；即使它并不能消除这些干扰对于结果变量的影响，但随机分配可以保证原因变量独立于未知干扰，从而可以得到较为干净的因果推论。换言之，随机分配其实是保障可比性假设成立的基本策略。此外，在随机分配的基础上，研究者再操纵原因变量，对实验对象施以实验干预，然后直接“观察”干预的结果。这一过程帮助研究者打开了“数据生成过程”的黑箱：可以厘清事件时序、排除逆向因果；（2）这一过程也可以帮助研究者避免模型设定误差；（3）在这一过程中，数据将被研究者系统地记录与保存，可以避免数据收集过程中样本损失与测量误差等。

正是由于实验方法有着上述的严格控制，相比基于观察性数据的案例比较、定量统计研究来说，实验研究者都更能自信地称变量之间的关系不仅为“相关关系”，而是“因果关系”。正所谓“没有实验操纵，就没有因果推论”，实验方法早已被社科学者视为因果推论的黄金准则（gold standard）。

然而，如前文所述，政治学者在相当长的一段时间内仍然依赖历史资料分析或者调查统计数据，而对于实验的外在效度、可行性持有怀疑态度，部分原因是他们对观察性数据做的因果推论很有信心。但是，随着社科领域的方法论革命的影响加深，他们也日益认识到案例比较、定量统计这两个比较不错的实证策略在实现因果推论所面临的重重难题，于是也逐渐借助实验的逻辑来论证、提升自己的研究设计。例如Gerring Mc Dermott（2007）、Paluck（2010）在尝试用实验的语言来阐述如何在定性研究和案例研究中实现科学的因果推论，甚至呼吁将实验设计融入定性研究设计中。同样地，在政治学研究中，比较高级的定量方法——如工具变量（Instrumental Variables）、双重差分（Difference in Difference）、断点回归（Regression of Discontinuity）、倾向值匹配（Propensity Score Matching）等——之所以如此流行，也是因为它们能够帮助研究者克服用观察性数据进行因果推论的难题（Angrist Pischke，2009）。

与此同时，政治学者也开始大量做实验研究。一方面，实验政治研究的总体规模在进入21世纪后增长非常迅速（如图1所示）；另一方面，实验政治研究的主题与实验形式都非常广泛，政治学者根据各自的研究问题而采用了不同的实验形式。例如，他们可以在实验室观察政治家的竞选演说、面部表情、竞选策略如何影响选民的投票参与、政治支持等（Iyengar，2011）；也可以用调查实验来考察政治态度如何受到框架效应的影响（Sniderman，2014；马得勇，2016）；还可以用实地实验（field experiment）来考察选举游说（通过打电话或者寄信件的方式）是否影响投票参与、政治态度的研究，其中为Gerber Green的系列实地实验最为典型。总之，实验渐已成为政治学研究的主流方法之一；从方法论角度来看，实验在政治学研究中得以应用与推广，与它可以控制不可观测的未知干扰、实现干净的因果推论有着密切的联系。

综上所述，政治学者用实验方法来解释政治现象、进行因果推论；要达此目标，实验方法在一定程度上比案例比较、定量统计更具优势，因为后两者基于观察性数据的分析会受到未知干扰的影响，从而使得案例之间、观察值之间存在除原因变量之外的未知差异。在认识到这一方法论上的优势后，政治学者日益依赖实验方法以及实验逻辑来设计研究方案。

三、怎样做实验政治研究：有效控制与随机分配

如上所述，实验研究与观察性研究最大的区别在于研究者可以通过实验来干预数据生成过程，从而控制其他、排除干扰。接下来，本节将重点介绍实验政治研究是如何来达到这一目标。具体地，这又涉及如下实验步骤：实验设计，回答对谁施行何种实验干预；（2）如何进行随机分配、如何保障成功干预；（3）观察与记录实验结果。值得注意的是，由于实验形式多样，可以分为实验室实验、调查实验、实地实验等（甚至更多其他形式），本文接下来要讨论的内容大多为它们所共同面临的问题或者通用的解决办法。当然，有些问题对于某种实验来讲比较严重，例如实验室实验的外在效度、调查实验的顺利干预、实地实验的随机分配可行性等，对此，本文在接下来的分析中将特别指明。

1.实验设计的基本要素

总体来看，实验设计要回答对谁施行何种实验干预（experimental treatment）：“对谁”指的是分析单位（unit of analysis），“施行何种实验干预”是指怎样测量自变量。

实验干预需要根据具体研究的目的而定。例如，在观看总统辩论的研究示例中，研究者在设计实验干预时需要考虑，给实验对象观看哪一场总统辩论，观看辩论的整体过程还是部分片段，观看过程中是否有第三方的媒体解读，实验对象独自观看、还是三五成群地一起观看并边看边讨论等等。由此可以看出，实验干预既包括设计自变量的测量指标，还包括在怎样的情境中测量这一变量。一旦某实验干预方案确定下来，它在整个实验研究中，都应该保持不变，这一过程可以看成是实验干预的标准化（standardization）。其实，不仅实验干预应该遵守标准化的测量，对实验结果的测量也应如此。

关于实验干预的设置，另外一个问题是，到底需要多少种（不同的）实验干预。同样地，这取决于不同的研究问题或者研究目的。假设研究不仅关注观看总统辩论的总体影响，还要区分每一位候选人的具体影响，例如，观看了希拉里辩论的选民是否更支持她，或者观看了特朗普的选民是否更支持他。此时，实验干预有两种。用定量统计的术语来讲，该研究关注的自变量为一个有多项取值的名义变量（multi-nominal variable）。当然，有些研究关注不仅一个自变量，而是两个或多个自变量以及（更通常情况下是关注）变量间的交互效应。例如，还是这个例子，研究者此时不仅关注观看两位总统候选人的不同影响，还关注他们在辩论中占上风或占下风而产生的影响。此时，研究者需要根据因子设计（factorial design），即根据每一个自变量的每一种取值变化，来设置实验干预的种类。此例中，研究者需要考察四种不同的实验干预：观看希拉里占上风时的辩论片段、或希拉里占下风时的辩论片段、或特朗普占上风时的辩论片段、或特朗普占下风时的辩论片段。

当然，实验除了需要干预组（treatment group）外，还需要对照组（control group）。对照组的设置也有若干种选择：空白对照（blank control），即不采取任何实验处理或实验干预，此时实验对象没有观看任何总统辩论，直接进入后面的实验流程；（2）安慰剂对照（placebo control），提供实验对象一些信息或者进行干预，但是缺乏研究最关注的实验干预部分，如让其观看总统辩论，但没有哪位候选人占据主要（出镜）时间或者没有明显的辩论的上/下风；（3）不相关对照（treatment-irrelevant control），即也提供实验对象一些信息或者干预，但这些信息不关及研究问题，例如让此组实验对象观看一些（不会影响其政治态度、投票偏好的）商业广告，而非总统辩论。可见，对照组如何设定也很关键，它将影响到研究者如何诠释所观察到的态度差异（Gerber et al.，2010）。

调查实验在设计实验干预组与对照组时，与上述做法稍有差异。调查实验是指在（问卷）调查中，通过控制调查问题的内容、顺序、形式以及其他特征来进行实验干预的实验设计，这也是普通的调查研究与调查实验最本质的区别（Mutz，2011）。例如，在关于政治态度框架效应的实验研究中，处理组与对照组的实验对象可能会面临不同语气（积极或者消极）的提问方式、或者不同语境（正面或者负面）的阅读材料。再例如，用列举实验形式做的调查实验研究，处理组与对照组的差异可能在于问题所涉的条目多少，或者顺序差异，可以参考孟天广、季程远（2016），Lacy（2001）等的实验设计。尤其当涉及比较敏感的政治态度相关问题时，列举实验的优势更为突出（王浦劬、季程远，2016）。由这些设计方案可以看出，调查实验有时候会将实验干预与结果测量融入到一起同时进行，虽与“先干预—后观察”这一常规路径不太一致，但本质上并不会影响结果。

最后，在完成实验干预的设计之后，研究者需要考虑“对谁做实验”。一般来说，研究者会假设实验对象代表了研究对象。那么，需要招募多少、以及如何招募实验对象来参与实验是需要考虑的两个重要问题。研究所需的实验对象规模，即定量研究中的样本大小，取决于实验设计中实验干预组的种类多少，这要求样本量至少要满足进行统计推断的最低标准。

2.随机分配与区块设计

上述的实验设计只是关注了研究者将如何干预数据生成过程，而要保证实验方法进行因果推论，仅有干预还不能成功，需要干预过程满足“有效控制”。随机分配就是控制的主要手段之一。

最简单的分配方式是完全随机化，即将所有实验对象随机地分配到各实验组（干预组和对照组）中。随机化是指任何实验对象进入任何一个实验组的概率都是相同的，有很多操作方式可以帮助研究者实验随机化，例如抛硬币、随机数表、或者随机程序等等。本质上来看，完全随机分配是将原因变量之外的所有可观测的控制变量、不可观测的未知干扰都通过随机分配的形式进行控制，是一种比较“盲目的”控制方式。如果明确已知某些变量会影响实验结果，则可以通过随机区块设计（blocking design或randomized blocking design）来将其纳入实验控制。根据这些变量，研究者可以先将研究对象分为不同区组，然后在每一个区组内再进行随机分配。

与完全随机分配相比而言，随机区块设计的效率更高，但要求的样本量更大。从定量研究的视角来看，完全随机分配基本是人为创造两个或多个完全同质、从而可比的研究对象组，再比较几组的实验结果是否显著，从而判断实验干预的因果效应。因此，在此情况下，往往只需要均值统计检验即可完成。而随机区块设计的过程是在考虑了其他因素的情况下，在每个区组内创造两个或多个完全同质、从而可比的研究对象组。此时，就整个样本来看，实验干预组与对照组的差异大小，既来自于实验干预，也可能与所处的区组有关。因此，这个过程就相当于求实验干预在“区组特征”取值情况下产生的条件均值。一般来讲，当实验对象异质性比较高，样本量也比较大的时候，随机区块设计是更好的选择。例如，很多实地实验都会利用研究对象所在的地区（集镇）为依据划分区组；在关于政治态度的调查实验或者实验室实验中，研究者也常用调查样本或者实验对象的特征（如收入、年龄、教育背景）等划分区组。

在实际研究中，上述理想的随机分配方案不一定可行，随机分配有时面临伦理的或实践的约束。根据贝尔蒙特报告（Belmont Report），凡是以人类为（实验或田野）研究对象，都需要遵循三个伦理原则：尊重、有益、公平（Teele，2014）。而上世纪60年代Milgram用电击研究人们为什么听从权威的著名实验，一直是学界关于实验伦理的反面教材。（11）在美国，许多高校以及科研单位都成立了制度审查管理委员会（Institutional Review Boards，简称IRBs）来审查实验研究是否符合伦理标准。为此，Morton Williams（2010）列出了实验政治研究需要考虑的各种伦理问题，以及实验设计的相关注意事项，来帮助政治学者尽量获得IRB的支持。

除此，实践约束也影响随机分配的执行。在实验室中进行随机分配相对容易：研究者明确知道、也可以要求所需的随机化过程。实地实验却复杂得多。实地实验通常需要多方合作，而研究者希望的完美随机分配，不一定符合实地实验资助者的需求；其次，实地实验的执行者在施行实验干预时，有动机偏离随机分配，尤其涉及到资源分配时；最后，研究对象是否同意参与随机分配的实验。除此之外，阻碍随机分配的还有伦理问题，例如，当实验可能带来负面效应或实验涉及利益分配时，随机分配是否公正，是否告知实验对象、他们是否同意随机分配过程等等。对此的详细讨论，可以参考Teele（2014）主编的《实地实验及其批评》。当然，这些问题可以通过改善实验设计来克服。例如，Banerjee Duflo（2014）列举了发展经济学的实地实验设计，来展示研究者们尽力保证随机分配的各种安排，例如改变随机分配的层级单位、提供激励或者监督机制、在更易随机分配的环境进行实验等。然而，这些措施是否有效，是否能说服实验批评者，仍然存在争议。

那么，接下来的问题是，如何判断随机分配是否成功。其中，平衡检验（Balance Test）是最常用的工具。通过观察各实验组的特征变量、因变量的前测变量（如果有的话）、以及其他控制变量之间是否存在显著差异。然而，也有政治学者反对这一做法（Imai et al.，2014；Mutz Pemante，2011）。他们认为，这种根据可观测变量来做判断的方法并不完全正确，因为研究者对于“不可观测的未知干扰是否在实验组间并无差异”并不知晓；此外，根据平衡检验的结果来调整实验各组对于结果预测的影响力，这一做法也会导致估计偏误。总体来说，平衡检验对于随机分配是否成功，只是一个参考性的指标，或者说，通过平衡检验是随机分配成功的必要条件而非充分条件。

最后，即便随机分配成功，也不代表实验干预成功，还需要考察实验对象是否“接受了”分配，即“受到了”实验干预的影响。当出现实验对象没有接受干预时，这被称作“拒绝服从”（noncompliance）。例如，假设实验对象被分配到观看希拉里的辩论视频片段的干预组，而该实验对象是特朗普的忠实支持者，于是他可能会拒绝观看辩论，这种情况就会导致最终结果的估计偏误。但假若实验对象决定观看与不观看的理由与政治态度/投票偏好无关，那么就可能不会导致偏误。类似地，假如实验对象因此退出实验，这就造成样本流失（attrition）；而样本流失是否导致偏误，也取决于实验对象退出的原因是否跟实验研究的结果变量有关。

实验研究，尤其是实地实验，经常面临实验对象拒绝服从或者样本流失这两类问题。此时，简单地比较干预组与对照组已不能回答研究者关注的问题。对此，实验学者受到观察性研究者的启发，通常采用工具变量法来解决问题——用“分配”做“干预”的工具变量。然而，这一做法在方法论上也是比较有争议的，一方面若存在未知干扰导致的异质性处理效应（heterogeneous treatment effect）问题，工具变量并不能解决；另一方面，工具变量的有效条件往往不易满足（Deaton，2010）。除此之外，实验研究者还常常依赖操作性检验（manipulation check）来考察实验对象是否服从以及受到干预的影响等等。

3.其他的方法论问题

随机分配与实验干预之后，研究者要“观察”和记录实验结果。与原因变量的测量一样，结果变量的测量要保持一致，对于所有实验组都用同一指标、在同一情境下进行测量。对于实验数据的处理，研究者在大多数情况采用与观察性数据相同的统计方法，但有些研究者也认为实验数据是来自于不同的分布，因而需要特殊考虑（Keele et al.，2012）。具体因研究问题与数据结构而定，本文不做详述。

除了上述讨论之外，从实验的设计到最终结果的呈现还有一些方法论问题需要研究者特别关注。例如，是否提供实验对象以货币激励，实验情境应该简约中立（stylized）还是框架显著（framed）。而政治经济学者与政治心理学者对这两个问题持不同看法（Mc Dermott，2011）。在实验过程中，采用双盲设计（double blinded design）还是单盲设计（single blinded design）？研究关注的政治行为决策，是单次博弈还是多次博弈？对于政治态度的测量，用单项目的题目还是依赖既有量表？采纳同被试实验设计（within-subject design）还是跨被试实验设计（between-subject design）？这种种问题，都关乎研究者能否在实验中观察到预期的因果效应，也关乎这一观察结果是否可靠。

由上述分析可知，实验成败的关键系于随机分配，其目的是为了控制其余变量，包括可观测的协变量（covariates），以及不可观测的干扰因素。为了提高效率，对于可观测的变量，还可以通过区块设计的方式直接纳入控制，正如Gerber Green（2012：110）建议，“能用区块设计控制的就尽量使用（这一研究设计），而其余的再用随机分配来控制”。此外，对于实验变量可能存在的交互效应，用因子设计来处理。但随机分配并不一定可以完美实施，需要巧妙的机制来保障参与实验的各方都配合实验。最后，实验的随机分配不代表实验对象接受了处理，此时，可以依赖事后的统计方法来加以解决。总之，实验学者在设计实验、实施实验以及事后分析的过程中，都在尽最大努力来控制其他因素，保障得到清晰的因果效应。

四、如何评价实验政治研究：内在效度与外在效度

假设实验完毕，数据搜集完毕，政治学者也得到总统辩论是否影响政治态度的初步结论。接下来的问题在于，读者（社科学者）在多大程度上可以相信这一结论。这需要从两个方面来看：一方面，实验观察到的因变量差异（政治态度的差异）是否可以归因于自变量（观看总统辩论）；另一方面，二者的关系，是否取决于某一实验的某些特征或者属性（characteristics or attributes of the experiment），例如，特定的实验对象（subjects），或者特定的实验情境/设定（context or setting）。换言之，在其他群体、其他情境中，研究者是否还会得到相同的结论。这两个问题，前者涉及实验研究的内在效度，后者涉及外在效度，它们也是评价任何实验研究有效性的两个重要标准。本节接下来将详细介绍内在效度与外在效度的概念，并从方法论视角讨论二者的关系以及其对实验研究的影响。

1.内在效度与外在效度的概念

对于内在效度概念，早期的定义是“实验干预是否产生显著影响”。其实，这种说法并不准确，因为是否显著影响要取决于两个方面，一是在理论上二者是否显著相关；二是实验设计与实验操纵能否保证干净的因果推论，即能够将结果变量的差异归因于实验干预。而后者才是真正意义上的“内在效度”。换言之，内在效度考察的是实验结果归因于实验干预的信心，即没有其他因素产生影响，可以排除竞争性的解释，也可以排除不可观测的未知干扰，能够肯定地将“实验中观察到的共变”看成是因果关系。总之，内在效度涉及有效控制，避免错误归因。随机分配、区块设计以及其他控制手段，都是保障实验内在效度的具体措施，此处不再赘述。

外在效度指的是实验结论外推的可能性，包括能否外推到实验外的样本中，以及能否外推到实验外的情境中。对于这两个维度，前者考察的是实验对象能否代表研究关注的真实行为决策者，即研究总体；后者考察的是实验情境的行为决策是否代表研究关注的真实行为决策，这两个因素同时决定了实验研究的结论是否可以外推。若详细考察“实验情境的行为决策”，还又可以从三个层面来看：实验室中的刺激是否真实；（2）实验室中的反应是否真实；（3）实验中的行为决策背景/环境是否真实。以总统辩论的研究为例，考察其外在效度，需要回答这些问题：来参与的实验对象是否代表总体选民；实验室中观看的总统辩论是否为真实发生的总统辩论；实验室中测量的政治态度是否代表着他们的真实态度；在实验室中观看与在现实中观看对选民的作用是否相同等等。

关于外在效度的讨论，一个值得关注的看法是：如果外在效度是考察在实验（研究）外的样本/情境中是否成立，那么考察任何一项研究的外在效度就不切实际，只有通过比较不同的研究（涉及不同的样本/环境）才能得出是否外在有效。在这个意义上，观察性研究并不比实验研究具有更高的外在效度，观察性研究也需要不断地比较不同的案例、不断检验因果关系的稳健性等来尽量实现外在效度。与之类似，对于实验研究来讲，这就需要重复实验，才能判断与提高外在效度。那么，网络实验抽取代表性样本，实地实验对真人真事做实验，算不算提高外在效度的做法？也算，但这是基于“代表性”假设，它们只能在代表性的“总体范围内”一般化结论，但不能推外。因此，实验政治研究还需要依赖重复实验以提高外在效度。

具体而言，重复实验是一系列在概念上等价（conceptually equivalently）的实验研究集合，它们组成了一个更大的研究项目，从而扩大结论的“适用范围”。但是，除非这个“适用范围”事先界定清楚，不然这个重复过程永无止境。在具体操作上，重复实验包括两个部分：简单地将实验复制到不同的样本、情境中，但这仅仅是从“因果效应”来设计重复实验；（2）更为重要的是，还需要从检验“因果机制”的角度来设计重复实验，这就能够更清楚地判断因果效应能否外推到其他群体或情境中（Garcia Wantchekon，2010）。可见，重复实验是通过考察实验各个要素的变化对于实验结果的影响，从而来确定因果推论是否稳健，或因果推论在什么样的范围内成立（桑德，2011）。

2.内在效度与外在效度的关系

实验研究有较高的内在效度，但其外在效度有限，这是大部分学者对于实验方法的认识。此时，实验学者更无奈的一种回应方式则是：内在效度与外在效度之间的关系犹如“鱼和熊掌，不可兼得”，因此任何一项实验研究都需要在内在效度与外在效度之间权衡妥协；而面临这一选择难题时，实验学者通常更加看重内在效度，因为只有在小范围实现了内在效度，得到了准确的结论，考察外推才有意义；换言之，没有内在效度的外在效度没有任何意义（Morton William，2010）。

基于这一看法，实验学者对于外在效度相关批评的回应通常是：即便实验对象为学生或便利样本而不具代表性，至少可以认为在这一小部分群体能够得到准确的因果关系。更进一步地，假设样本的特征并不影响因果推论、或者理论本身并不会因研究对象而变、或者假设各类人群都有着相同的认知思维/行为决策逻辑等，那么样本并不会对因果推论带来严重的偏误。（2）实验情境尽管人为创造，也是一种“真实”的情境，对于实验参与者来说，实验干预是确确实实存在的。经济学者对此的态度更为开放，他们认为实验室是可以创造一个微观的经济系统，因为有真实的（货币）激励，在实验室中能够观察到的经济交易就是真实的（Smith，1982）。

但上述辩论有巧妙转移话题之嫌，即将外在效度问题变为内在效度问题。这种沟通很容易产生两个误解。由于外在效度是建立在多项研究的比较基础上，一旦发现结论不同，批评者（有时候研究者）容易草率地认为研究没有外在效度，同时也可能导致研究者对结论不同的反应过于消极，仿佛其研究如临大敌、需要推倒重来。（2）坚持内在效度重于外在效度这一立场，可能会扩大实验学者与批评者之间的沟通障碍——批评者更加关注外在效度，实验者更加不在乎对于外在效度的批评；这样陷入循环，不利于推动双方的交流与研究的进步（实验学者与非实验学者的“口舌大战”从未停止，部分也是源于对此的不同信念）。

本文认为，换个角度思考内、外效度间的关系，也许可以化解误解。具体地，从方法论的角度来看，如果一项研究在不同样本或者不同情境中得到不同的结果，那么可以认为“因果效应”具有异质性，样本的特征或者情境的特征就决定了“因果效应”如何发生变化。例如，考察教育对政治立场的影响，假设来自于民主国家的实验证据不足以揭示威权国家将会如何，那么探索教育对政治立场的因果效应（处理效应）如何随着政治体制的变化而变化就至关重要，也成为提高外在效度的重要方法。从这个角度来看，研究者关注的重心不再是“一项研究是否外在有效”，而是在什么条件下（样本/情境下）原来的结论可以复制、或者可以发生什么改变。换言之，建立研究的外在效度即是要探索理论的适用范围。

由此来思考“内在-外在”的关系，我们可以发现：一旦发现一项研究“不可复制”，双方均不必为此过于敏感，因为这为研究提供了更好的机会来考察实验的哪些特定属性导致了“异质处理效应”；（2）不用再纠缠于“内在-外在”谁更重要，因为都很重要：内在效度考察的因果推论是否准确，要确保控制其他因素，而实验方法相当于复制了因果影响的过程；外在效度考察的是因果推论的适用范围，通过复制实验便可得知。可见，唯有两者都重视，并通过实验设计尽量同时提高二者，才能真正有助于建立和检验理论。

综上所述，一项成功的实验政治研究需要通过随机分配等控制手段尽量实现内在效度，还需要在不同群体、情境中重复实验以提高外在效度。传统观点认为二者的关系是对立的，提高内在效度就需要牺牲外在效度，本文作者却认为该视角扩大了实验学者与非实验学者之间的交流鸿沟，这将阻碍实验政治学的发展。对此，本文提出从异质性处理效应这一视角来重新审视外在效度，或许可以减轻误解。这对于那些没有明确的研究（对象的）范围的实验研究，尤其有用，因为若没有事前界定，那么就需要通过“复制研究”来逐步“外推”，扩大适用范围，探索理论成立的边界。

五、实验不能做什么：实验研究的局限

上述分析表明，首先，实验研究通过有效控制，能够更好地做因果推论；其次，外在效度并非对实验研究的致命批评，反而可能成为发挥优势的用武之地——通过复制实验探索理论成立的边界。随着这些优势日益突出，政治学研究越来越“依赖”实验方法，这就引发了一些学者对于政治学未来发展的担忧。具体表现为：对于实验能做的研究来讲，政治学者倾向于过度关注因果效应的识别，而忽略因果机制；（2）对于难以用实验做的研究，政治学者更有可能直接放弃，其结果是：政治学将来只关注小问题，不关注大问题，这种以实验导向来选题的学科发展很可能将引导政治学走上歧途。

当然，这些担忧不无道理。尤其当政治学者并没有完全解决方法论的缺陷、并不能完全克服来自现实或伦理的约束时，盲目推广并呼吁放弃其他研究方法，是大胆且危险的方向。毕竟，定义一门学科的是研究框架与研究环境，而非研究方法（Druckman Lupia，2006：109）。对于上述担忧，实验研究者则进行了如下回应。

首要的担忧是：实验能否检验因果机制？其答案是肯定的，且并不弱于其他两种研究方法。“实验只能检验因果关系，不能说明因果机制”，这其实是一种误解。从方法论来看，要完全识别因果机制，需要在实证上逐一考察因果链条上的每一组（中介）变量间关系，但问题在于，这些每一组变量间的关系又可以无限细分成新的中介变量间的关系，这个过程若无限循环，在理论上几乎就不可能完成因果机制的论证（刘骥等，2011）。从研究实践来看，受时间、精力、甚至数据可得性限制，研究者通常退而求其次，通过引用其他的研究结论，或者合理假设、理论推导，或者通过重新搜集“中介变量”相关资料来实现因果机制的论证。但这些做法，都无法根本解决前面的难题，因为任何知识的积累都需要清晰的实证证据。

实验研究要检验因果机制，就需要设计多个实验，分别操纵原因变量、操纵中介变量或者操纵影响中介变量的其他干预变量（相当于做中介变量的工具变量），然后再考察中介效应或因果机制。这一方案由Imai et al.（2011）提出，检验因果机制的实验被称作“平行鼓励性实验设计”（parallel encouragement design），他们以媒体如何通过情绪进而影响公众对移民的政治态度为例，展示了要检验因果机制的前提假设以及实验设计。简言之，实验研究要想检验因果机制，必须依赖一些假设，并将理论关注的中介变量融入实验设计中（Ludwigetal.，2011）。

然而，也有实验学者并不持乐观态度，他们认为因果机制太难检测，因为它所依赖的很多假设都很难以成立（Greenetal.，2011）。如果实验都很难检测，那么通过观察性研究就更难了，从Imaietal.（2011）可得知，观察性数据更难满足那些假设。除此之外，很多大样本的定量研究也难以直接验证因果机制，而是通过一系列事后的“稳健性检验”来间接推敲，这种做法饱受“数据挖掘”（data mining）的批评和质疑。反观案例比较，尽管其容易描述因果机制，但很难“证明”因果机制，原因如上。相比之下，实验还因可操纵、易复制或许稍具优势。

接下来，第二个担忧是：实验只能研究小问题，不能研究大问题。对于什么算是大问题，Shapiro（2014）在讨论政治学的实地实验研究时，指出了一系列不能付诸于实验的问题，可做参考。例如，政体类型对经济发展的影响（反之亦然），和平、战争以及革命的影响因素，假若一国设立独立的中央银行，结果会将如何，转型的政治、经济制度的成因以及影响，总统制与议会制的不同影响，以及政治协商建立民主制度的动态过程等等。这些问题，要么涉及生命安全、涉及政治社会稳定、涉及宏观经济，都是些大问题，通常很难通过实验来进行研究。可见，从伦理与实践角度来看，当操纵变量可能带来严重后果，或者几乎难以操纵的时候，政治学者难以进行实验研究。

对于实验政治学者而言，想要研究这类大问题，就需要通过恰当的情境设置来降低后果。有时候是用假设性的情境代替真实情境，有时候是通过将大问题转变为小问题，还有研究用后果较小或者没有后果的态度代替可能有后果或者后果严重的行动。举例来讲，Paler（2013）用实地实验考察了国家收入来源——税收VS国际援助类的意外收入（windfalls）——对于公民问责、政治参与的影响。类似地，Martin（2015）用实验室实验考察了国家税收增加是否会增加乌干达百姓对于腐败官员的问责。这类问题，无疑是大问题，因为国家收入来源是宏观体制，难以被研究者操控；官员问责涉及一国的司法体制，操纵将带来严重后果，因此都不可能在实验情境中严格执行。研究者的实验方案是提供实验对象国家的收入来源信息，或者让实验对象参与实验室的“纳税遵从”实验来代替真实的岁入设置，用实验对象对问责的意愿来代替他们问责的行动。

除此之外，还有一些研究问题从方法论来看是难以通过实验来分析，例如，研究性别、种族等的政治影响。根据Holland（1986：956），这类个体特征相关的变量不能通过实验来操纵，所以严格来讲它们不能当作原因来分析。本文在此对其能否作为因果分析的原因不予置评，但要考察实验能否操纵个体特征，因为这涉及到能否用实验方法来研究这类问题。对于政治学来讲，他们关注性别、种族并不是关注这背后的生理学或地理学成分，而是关注这种特征所赋予的“身份”，即社会如何对待这种身份。那么，若想通过实验方法来进行研究，只需要将这种身份信息传递给实验对象即可。换言之，政治学者不需要在行为上改变一个人的性别或者种族，只需要告诉实验对象一个人的性别与种族即可。这类研究，可以参考Distelhorst Hou（2014）以及Sanbonmatsu（2002）等实验设计。

由上可知，当面临大问题，或者难以通过实验操纵的研究问题时，实验学者的解决思路是用“换汤不换药”的方式适当转换研究问题，或者改变提问方式，从而将“不可实验”变为“可以实验”。用这一方法做的实验研究，除了上述领域外，还包括非正式制度是否有效（Blattmanetal.，2014）、民众是否支持核战争或者核武器（Press et al.，2013）、哪种投票制度更为有效（Battaglinietal.，2007）等等。由此可见，称“实验只研究小问题、忽略大问题”，可能有些言过其实。实际上，研究问题应当不分大小，不能因为研究从小处入手、从微观入手就否定研究问题的“重要性”，同时任何宏观问题其实都需要归根于微观机制，因此也都可以通过恰当的研究设计来转变成可操作化的“小问题”。

综上所述，本节讨论了政治学者对于盲目追随实验研究的两大担忧。通过对具体的实验政治研究分析可知，其实实验方法并没有忽略因果机制，相反，还有学者建议通过考察因果机制来加强实验研究的外在效度。实验学者也并没有因为微观方法就放弃宏观的大问题，而是通过更精心的实验设计来克服种种局限。诚然，这些实验设计都不完美，检验因果机制的实验设计依赖于很多假设，而经过了转变问题的实验研究其外在效度可能降低。然而，这正是说明实验学者非常认真地对待不同的研究问题、并谨慎地诠释实验结果。要说实验方法形塑了学科发展，倒不如说是学者们的研究兴趣在挑战实验方法的适用性与可塑性。如今，实验政治研究的规模越来越大，研究设计越来越复杂，正是回应上述批评与挑战的结果。

六、总结与启示

当国内的政治学还在普及定量方法，试图赶上西方学术前沿时，美国的政治学研究前沿已经悄悄转向了实验方法。在此背景下，如何帮助国内政治学者快速了解实验政治学的成长将是一项重要的任务。基于此，本文从四个方面进行回顾与梳理：实验方法何以在政治学研究中如此普及，政治学者做实验的目的与优势何在；（2）政治学者如何设计实验方案来研究哪些政治现象，这些实验设计的特征如何能够保障其优势；（3）政治学应当如何来评价一项实验研究的效度，如何平衡实验控制与外在效度间的关系；（4）政治学者对于实验方法的推广有何担忧，实验学者又是如何应对这些局限与挑战。在梳理文献、回答问题时，本文着重从方法论的角度入手，一方面既是希望能够帮助对实验方法感兴趣的政治学者全面掌握实验方法的优与劣，将实验方法收纳入自己的研究工具箱；另一方面，也是希望促进实验学者与批评者们之间能更有效地交流实验政治研究的短与长，提升研究质量、携手学科发展。

由上文可知，相比案例比较、定量统计，实验的优势在于通过随机分配、区块设计等手段实现有效控制，从而得到干净的因果推论。但是，无论实验设计还是实验实施过程，研究者都需要尽量保障控制，对于可能“失控”的问题，研究者在事后分析数据时需格外谨慎。无论是实验对象的背景特征是否产生影响，抑或是实验干预的情境是否足够真实，甚至实验过程是否存在不服从、样本流失、相互交流等现象，甚至实验对象是否认真参与、研究者是否正确干预、实验设计是否回答了研究问题等等，各种因素都会影响实验的成败。这些都需要引起从事实验研究的政治学者的足够重视，当然，这些也是批评者们挑战实验研究的重中之重。

通过回顾上述各项方法论问题，本文希望能够加深国内学者对于实验方法的了解，以进一步思考在中国进行实验政治研究的可能优势与实践约束。从中国目前的政治学发展来看，实证研究的需求与规模在逐渐增大，而实证研究的根本任务是要解释各政治现象，探索其成因以及影响，这都离不开准确的因果推论。因此，可以预期实验方法将因其在方法论上的优势而大力推动中国政治学的实证研究。（2）一旦涉及实证政治研究，其成败与价值往往取决于经验数据的来源与质量，目前国内政治学研究方法仍处在“比较/案例为主、统计/定量为辅”的状态，也正是源于数据的制约。而通过实验方法可以获得大量、经济而可靠的微观数据，帮助国内政治学者克服实证研究面临的数据障碍，提升实证政治研究的质量。（3）实证政治研究的规模增大、质量提升，有助于拓宽中国政治学的研究领域，这样增加了跨学科研究的需求，而实验方法作为各个学科开展研究的共同方法，实验的逻辑作为因果推论的根本逻辑，又势必可以促进国内的政治学与经济学、政治学与心理学、政治学与公共管理学等交叉学科研究的共同进步。

当然，推广实验方法在中国政治学研究中应用，还可能面临诸多方面的约束。例如，实验研究需要研究者与国家政府部门、公共政策实践者以及其他相关人士进行协调与配合，这对于调查实验和实地实验尤其重要。除此，如Lü（2016）所述，在中国做政治学的实验研究又面临一个独特的困境：实验的特征在于干预数据生成，这就可能干预社会的政治态度或政治行为，既可能会给研究者、实验对象带来麻烦，又会污染这块干净的实验公地。因此，对于国内政治学来说，除了利用实验优势来完成各自的研究任务之外，还需要考虑在中国的实验政治研究如何能长久地进行、持续地发展。如何在不影响公众日常生活、社会管理秩序、国家事业发展的前提下，提出具有现实意义的研究问题、设计科学可行的实验方案、搜集“真实可靠”的实验数据、采用正确的统计方法来分析实验结果，是每一名实验政治研究者都不容忽视的任务，也是用实验方法进行中国政治研究的成败关键所在。要满足这些条件，这都需要建立在对实验方法以及实验政治研究有着充分的了解基础之上，而本文撰写的宗旨便是为此提供一个了解的机会。

参考文献：

[1]程同顺，邝利芬，孙迪.美国政治学研究方法的最新进展：基于美国政治学三种期刊的研究（2001—2012）[J].政治学研究，2015，（2）：116-128.

[2]德菲利斯著.郝诗楠译.因果推论与比较研究[A].高奇琦主编.比较政治学前沿（第1辑）：比较政治的研究方法[C].北京：中央编译出版社，2013.

[3]丹尼尔·弗里德曼，山姆·桑德.实验方法：经济学家入门基础[M].曾小楚译.北京：中国人民大学出版社，2010.

[4]高奇琦编.比较政治学前沿（第3辑）：比较政治学的质性与量化之争[M].北京：中央编译出版社，2015.

[5]耿曙，陈玮.比较政治的案例研究：反思几项方法论上的迷思[J].社会科学，2013，（5）：20-29.

[6]黄琪轩.比较政治经济学与实验研究[J].国家行政学院学报，2011，（2）：73-78.

[7]科利尔著.章远译.比较研究方法[A].高奇琦主编.比较政治学前沿（第1辑）：比较政治的研究方法[C].北京：中央编译出版社，2013.

[8]刘丰，陈冲.国际关系研究的定量数据库及其应用[J].世界经济与政治，2011，（5）：18-41.

[9]刘丰.定性比较分析与国际关系研究[J].世界经济与政治，2015，：90-110.

[10]刘骥，张玲，陈子恪.社会科学为什么要找因果机制——一种打开黑箱、强调能动的方法论尝试[J].公共行政评论，2011，（4）：50-84.

[11]卢凌宇.政治学田野调查方法[J].世界经济与政治，2014，：26-47.

[12]马得勇.政治传播中的框架效应——国外研究现状及其对中国的启示[J].政治学研究，2016，（4）：57-69.

[13]马得勇，兰晓航.精英框架对大学生有影响吗——以实验为基础的实证分析[J].清华大学学报（哲学社会科学版），2016，（3）：160-171.

[14]马亮.公共管理实验研究何以可能：一项方法学回顾[J].甘肃行政学院学报，2015，（4）：13-23.

[15]孟天广，季程远.重访数字民主：互联网介入与网络政治参与——基于列举实验的发现[J].清华大学学报（哲学社会科学版），2016，（4）：43-54.

[16]孟天广，杨平，苏政.转型中国的公民意见与地方财政决策——基于对地方政府的调查实验[J].公共管理学报，2015，（3）：57-68.

[17]加布里埃尔·A.阿尔蒙德，西德尼·维巴著.公民文化：五个国家的政治态度和民主制度[M].张明澍译.北京：商务印书馆，2014.

[18]斯坦利·米尔格拉姆.对权威的服从：一次逼近人性真相的心理学实验[M].赵萍萍，王利群译.北京：新华出版社，2015.

[19]庞珣.国际关系研究的定量方法：定义、规则与操作[J].世界经济与政治，2014，：5-25.

[20]彭玉生.社会科学中的因果分析[J].社会学研究，2011，（3）：1-31.

[21]祁玲玲.定量与定性之辩：美国政治学研究方法的融合趋势[J].国外社会科学，2016，（4）：130-137.

[22]王浦劬，季程远.论列举实验在敏感问题调查中的应用——以非制度化政治参与为验证[J].中国软科学，2016，（9）：135-143.

[23]王天夫.社会研究中的因果分析[J].社会学研究，2006，（4）：132-156.

[24]谢宇.社会学方法与定量研究（第二版）[M].北京：社会科学文献出版社，2012.

[25]余莎，耿曙，孔晏.如何有效征税：来自纳税遵从实验的启发[J].公共行政评论，2015，（3）：151-175.

[26]臧雷振.政治学研究中的实验方法——近年来的应用进展及研究议题分布[J].国外理论动态，2016a，（5）：68-75.

[27]臧雷振.社会科学研究中实验方法的应用与反思——以政治学科为例[J].中国人民大学学报，2016b，（5）：150-156.

[28]臧雷振，黄建军.美国政治学研究方法发展现状及趋势——新世纪初的新争论、挑战与反思[J].政治学研究，2014，（4）：73-89.

[29]Angrist，Joshua and Jorn-Steffen Pischke.2009.Mostly Harmless Econometrics：An Empiricist’s Companion.Princeton，NJ：Princeton University Press.

[30]Banerjee，Abhijit and Esther Duflo.2014.“The Experimental Approach to Development Economics，”in Field Experiments and Their Critics：Essays on the Uses and Abuses of Experimentation in the Social Science，Dawn Teele eds.，New Haven London：Yale University Press.

[31]Barbabas，Jason，and Jennifer Jerit.2010.“Are Survey Experiments Externally Valid？”American Political Science Review 104（2）：226-242.

[32]Battaglini，Marco，Rebecca Morton，and Thomas Palfrey.2007.“Efficiency，Equity，and Timing of Voting Mechanism”American Political Science Review 101（3）：409-424.

[33]Blattman，Christopher，Alexandra Hartman，and Robert Blair.2014.“How to Promote Order and Property Rights under Weak Rule of Law？An Experiment in Changing Dispute Resolution Behavior through Community Education”American Political Science Review 108：100-120.

[34]Campbell，Donald and Julian Stanley.1963.Experimental and Quasi-Experimental Designs for Research.Boston：Houghton Mifflin.

[35]Clifford，Scott，and Jennifer Jerit.2014.“Is There a Cost to Convenience？An Experimental Comparison of Data Quality in Laboratory and Online Studies”，Journal of Experimental Political Science 1（2）：120-131.

[36]Distelhorst，Greg，and Yue Hou.2014.“Ingroup Bias in Official Behavior：A National Field Experiment in China.”Quarterly Journal of Political Science9（2）：203-30.

[37]De Rooij，Eline，Donald Green，and Alan Gerber.2009.“Field Experiments on Political Behavior and Collective Action，”Annual Review of Political Science12：389-395.

[38]Deaton，Augus.2010.“Instruments，Randomizaiton，and Learning about Development”Journal of Economic Literature 48：424-455.

[39]Druckman，James，Donald Green，James Kuklinski and Arthur Lupia.2006.“The Growth and Development of Experimental Research in Political Science”American Political Science Review 100（4）：627-635.

[40]Druckman，James，Donald Green，James Kuklinski and Arthur Lupia.2011.“Experiments：An Introduction to Core Concepts，”in Cambridge Handbook of Experimental Political Science，James Druckman，Donald Green，James Kuklinski and Arthur Lupia eds..Cambridge New York：Cambridge University Press.

[41]Druckman，James and Cindy Kam.2011.“Students as Experimental Participations：A Defense of the‘Narrow Data Base’，”in Cambridge Handbook of Experimental Political Science，James Druckman，Donald Green，James Kuklinski and Arthur Lupia eds..Cambridge New York：Cambridge University Press.

[42]Druckman，James，and Arthur Lupia.2006.“Mind，Will，and Choice”，in Charles Tilly and Robert Goodin（eds.），The Oxford Handbook on Contextual Political Analysis.Oxford：Oxford University Press.

[43]Falk，Armin and James J.Heckman.2009.“Lab Experiments Are a Major Source of Knowledge in the Social Sciences，”Science 326（5952）：535-538.

[44]Garcia，Fernando Martel，and Leonard Wantchekon.2010.“Theory，External Validity，and Experimental Inference：Some Conjectures”The Annals of the American Academy of Political and Social Science 628：132-147.

[45]Gerber，Alan，and Donald Green.2009.“The Effects of Canvassing，Direct Mail，and Telephone Calls on Voter Turnout：A Field Experiment，”American Political Science Review 94（3）：653-663.

[46]Gerber，Alan and Donald Green.2012.Field Experiments：Design，Analysis，and Interpretation.New York London：W.W.Norton Company.

[47]Gerber，Alan，Donald Green and Edward Kaplan.2014.“The Illusion of Learning from Observational Research，”in Field Experiments and Their Critics：Essays on the Uses and Abuses of Experimentation in the Social Science，Dawn Teele eds.，New Haven London：Yale University Press.

[48]Gerber，Alan，Donald Green，Edward Kaplan，and Holger Kern.2010.“Baseline，Placebo，and Treatment：Efficient Estimation for Three-Group Experiments”Political Analysis 18：297-315.

[49]Gerring，John and Rose Mc Dermott.2007.“An Experimental Template for Case Study Research，”American Journal of Political Science 51（3）：688-701.

[50]Green，Donald，Shang Ha，and John Bullock.2010.“Enough Already about‘Black Box’Experiments：Studying Mediation is More Difficult than Most Scholars Suppose”The Annals of the American Academy of Political and Social Science 628：200-208.

[51]Goertz，Gary，and James Mahoney.2012.A Tale of Two Cultures：Qualitative and Quantitative Research in the Social Science，New Jersey：Princeton University Press.

[52]Harrison，Glenn W.and John A.List.2004.“Field Experiments，”Journal of Economic Literature 42（4）：1009-1055.

[53]Holland，Paul.1986.“Statistical and Causal Inference，”Journal of the American Statistical Association81（396）：945-960.

[54]Imai，Kosuke.2005.“Do Get-Out-the-Vote Calls Reduce Turnout？The Importance of Statistical Methods for Field Experiments，”American Political Science Review99（2）：283-300.

[55]Imai，Kosuke，Luke Keele，Dustin Tingley，and Teppei Yamamoto.2011.“Unpacking the Black Box of Causality：Learning about Causal Mechanism from Experimental and Observational Studies，”American Political Science Review105（4）：765-789.

[56]Imai，Kosuke，Gary King and Elizabeth Stuart.2014.“Misunderstanding Between Experimental and Observationalists about Causal Inference”，in Field Experiments and Their Critics：Essays on the Uses and Abuses of Experimentation in the Social Science，Dawn Teele eds.，New Haven London：Yale University Press.

[57]Imbens，Guido W.，Donald B.Rubin.2011.Causal Inference for Statistics，Social，and Biomedical Science：An Introduction.New York：Cambridge University Press.

[58]Iyengar，Shanto.2011.“Laboratory Experiments in Political Science，”in Cambridge Handbook of Experimental Political Science，James Druckman，Donald Green，James Kuklinski and Arthur Lupia eds..Cambridge New York：Cambridge University Press.

[59]Karpowitz，Christopher，Tali Mendelberg，and Lee Shaker.2012.“Gender Inequality in Deliberative Participation，”American Political Science Review 106（3）：533-547.

[60]Keele，Luke，Corrine Mc Connaughy，Ismail White.2012.“Strengthening the Experimenter’s Toolbox：Statistical Estimation of Internal Validity，”American Journal of Political Science 56（2）：484-499.

[61]Kinder，Donald，and Thomas Palfrey，eds.1993.Experimental Foundations of Political Science.Ann Arbor：University of Michigan Press.

[62]King，Gary，Robert Keohane and Sidney Verba.1994.Designing Social Inquiry：Scientific Inference in Qualitative Research.Princeton：Princeton University Press.

[63]Lacy，Dean.2001.“A Theory of Nonseparable Preferences in Survey Responses”，American Journal of Political Science，45（2）：239-258.

[64]Lijphart，Arend.1971.“Comparative Politics and the Comparative Method，”American Political Science Review 65：682-693.

[65]List，John.2011.“Why Economists Should Conduct Field Experiments and 14 Tips for Pulling One Off，”The Journal of Economic Perspectives，25（3）：3-15.

[66]Lowell，A.L.（1910）.The Physiology of Politics：Presidential Address，Sixth Annual Meeting of the American Political Science Association.American Political Science Review，4（01），1-15.

[67]Ludwig，Jens，Jeffrey Kling，and Sendhli Mullainathan.2011.“Mechanism Experiments and Policy Evaluations，”The Journal of Economic Perspectives 25（3）：17-28.

[68]Lü，Xiaobo.2016.“Ethical Challenges in Comparative Politics Experiments in China.”In Ethics and Experiments：Problems and Solutions for Social Scientists and Policy Professionals，Scott Desposatoeds.London：Routledge.

[69]Martin，Lucy.2015.“Taxation，Loss Aversion，and Accountability：Theory and Experimental Evidence for Taxation’s Effect on Citizen Behavior”，Working Paper，University of North Carolina-Chapel Hill.

[70]Mc Dermott，Rose.2002.“Experimental Methods in Political Science，”Annual Review of Political Science5：31-61.

[71]Mc Dermott，Rose.2011.“Internal and External Validity，”in Cambridge Handbook of Experimental Political Science，James Druckman，Donald Green，James Kuklinski and Arthur Lupia eds.Cambridge New York：Cambridge University Press.

[72]Mintz，Alex，Steven Redd，and Arnold Vedlitz.2006.“Can we generalize from student experiments to the real world in political science，military affairs，and international relations”，The Journal of Conflict Resolution 50（5）：757-776.

[73]Morton，Rebecca and Kenneth Williams.2010.Experimental Political Science and the Study of Causality：From Nature to the Lab.New York：Cambridge University Press.

[74]Mutz，D.，2011.Population-Based Survey Experiments，Princeton，NJ：Princeton University Press.

[75]Mutz，Diana，and Robin Pemantle.2011.“The Perils of Randomization Checks in the Analysis of Experiments”，Working Paper，University of Pennsylvania.

[76]Paluck，Elizabeth.2010.“The Promising Integration of Qualitative Methods and Field Experiments，”The Annals of the American Academy of Political and Social Science 628：59-71.

[77]Paler，Laura.2013.“Keeping the Public Purse：An Experiment in Windfalls，Taxes，and the Incentives to Restrain Government”American Political Science Review107（4）：706-725.

[78]Press，Daryl，Scott Sagan，and Benjamin Valentino.2013.“Atomic Aversion：Experimental Evidence on Taboos，Traditions，and the Non-Use of Nuclear Weapons”American Political Science Review 107：188-206.

[79]Przeworski，Adam.2007.“Is the Science of Comparative Politics Possible？”in The Oxford Handbook of Comparative Politics，Carles Boix and Susan Stokes eds..New York：Oxford University Press.

[80]Sanbonmatsu，Kira.2002.“Gender Stereotypes and Vote Choice”American Journal of Political Science 46：20-34.

[81]Shadish，Thomas Cook and Donald Campbell.2002.Experimental and Quasi-Experimental Designs for Generalized Causal Inference.Boston：Houghton Mifflin.

[82]Shapiro，Ian.2014.“Methods Are Like People：If You Focus Only on What They Can’t Do，You Will Always Be Disappointed”，in Field Experiments and Their Critics：Essays on the Uses and Abuses of Experimentation in the Social Science，Dawn Teele eds.，New Haven London：Yale University Press.

[83]Sinclair，Betsy，Margaret Mc Connell，and Donald Green.2012.“Detecting Spillover Effects：Design and Analysis of Multilevel Experiments”，American Journal of Political Science 56（4）：1055-1069.

[84]Smith，Vernon L..1982.“Microeconomic Systems as an Experimental Science，”The American Economic Review 72（5）：923-955.

[85]Sniderman，Paul.2014.“The Logic and Design of the Survey Experiment：An Autobiography of a Method Innovation”in Cambridge Handbook of Experimental Political Science，James Druckman，Donald Green，James Kuklinski and Arthur Lupia eds..Cambridge New York：Cambridge University Press.

[86]Teele，Dawn.2014.Field Experiments and Their Critics：Essays on the Uses and Abuses of Experimentation in the Social Science.New Haven London：Yale University Press.

注释：

[1]除特别说明外，本文所讨论的实验仅仅指研究者通过系统地干预数据生成过程（data generating process）来搜集研究数据的过程。若研究者没有干预数据生成过程，而只是通过观察已经存在的数据来描述或者解释现象，不能称其为实验研究。根据此定义，自然实验、政策实验、计算机模拟、思想实验等均不能看成真正意义上的实验，参考Morton Williams（2010：42-57）。因此，图1也是按照这一定义的口径进行统计。

[2]代表作可参考《清华大学学报》（哲学社会科学版）2016年第4期的几篇实验研究，以及马得勇、兰晓航（2016），孟天广等（2015），余莎等（2015）。

[3]Druckman et al.（2011）用此研究问题做示例来介绍了实验政治学的核心概念。本文也将多处借用这一示例，一方面，由于它能很好地展示观察性研究的缺陷以及实验设计将面临的种种问题；另一方面，媒体政治是美国政治学研究的主要领域之一，而国内政治学者也日益关注互联网对于公民政治态度/政治参与的影响，这两者之间有着紧密的联系，因此用前者做示例对于国内政治学的主流研究有着重要的启发价值。

[4]从Lijphart（1971）介绍案例比较的方法论开始，关于定性研究与定量研究方4法论的讨论就持续不断，详细可以参考高奇琦主编的《比较政治学前沿（第3辑）：比较政治学的质性与量化之争》中所收录的相关论文，这一争论持续到21世纪初，有学者在美国西部政治学年年会上发言批评当前政治学界歧视定性研究（臧雷振、黄建军，2014；程同顺等，2015）。有不少谈研究设计与方法论的专著都尝试沟通二者，如King et al.（1994）（行内简称KKV，取三位作者姓氏的首字母），Goertz Mahoney（2012）。这一辩论也得到国内政治学者的热烈响应，尤其在陈硕博士的KKV中译本出版后，《公共行政评论》2015年第4期组织了专栏讨论这两种研究方法。此外，朱天飚教授组织了多次关于政治学方法论的研讨会，以及很多已发表的期刊论文（刘丰、陈冲，2011；耿曙、陈玮，2013；卢凌宇，2014；庞珣，2014；刘丰，2015；祁玲玲，2016）等等，都可以看出国内的政治学界还在不断探索与沟通这两种研究方法。

[5]需要注意的是，这里的“观察”并非上文“观察性研究”中的观察。

[6]对于定量研究来说，统计模型的设定，本就可以看成是研究者对于数据生成过程的假定或者信念（belief）。

[7]这句话摘自Holland（1986：959），英文原话是“No Causation without Manipulation”，Holland称这是他同另一位统计学家Donald Rubin一起提出的口号（motto）。本文的标题也借用了此语。

[8]Gerber Green的一系列实地实验研究，请参考其综述论文De Rooij et al.（2009）。这一系列研究中，最有影响力的一篇是Gerber Green（2000）。

[9]关于如何设计实验研究的参考书目繁多，其作者来自各个不同的研究领域。政治学者所撰写的实验方法著作中，本文作者极力推荐两本入门读物：Morton Williams（2010），Gerber Green（2012）。此外，还可参考Mc Dermott（2002），Morton William（2010），List（2011）等综述性、指南性的文献。

[10]在实验方法的文献中，有三个概念用来描述实验研究的自变量：experiment manipulation，experiment intervention，experiment treatment。三者本质相同，并无太大差异，本文也不做区别，偶有通用，都指同一内涵。

[11]对于该实验设计、实验结果以及所涉及的伦理问题的详细讨论，参考米尔格拉姆（2015）。

[12]这一做法在调查实验中比较常用。研究者通常会在调查中增加一道或者几道问题来考察实验对象是否受到干预的影响。

[13]实验经济学者常常将货币激励作为控制实验对象的偏好的唯一手段，从而影响实验室中的经济行为决策。但对于政治学研究来说，也有话题不涉及需要金钱来衡量的偏好，此时给予货币激励，是为了激励实验对象更认真地参与实验，更认真地对待实验干预，以此来得到更多更真实的数据。

[14]参见Campbell Stanley（1963：5），原文是“Internal Validity is the basic minimum without which any experiment is uninterpretable：Did in fact the experimental treatments make a difference in this specific experimental instance？”但在该定义后来经Campbell与合作者等修订成了下文所表述的定义，具体定义详见Shadish et al.（2002：53）。

[15]这一定义，本质上是将Shadish et al.（2002：89-90）的定义进行了重新组合。然而，学界对于外在效度的定义并没有一致的看法。例如，Morton Williams（2010：255）认为外在效度只涉及实验对象，及样本代表性，而不涉及情境是否真实，后者属于生态效度（ecological validity）的范畴。

[16]正如Mc Dermott（2011）所强调，认为仅有一项研究是不可能得到外在效度的，无论研究范围多大多广；研究的外在效度只能通过重复检验得到。这一主张也得到了Druckman Kam（2011）的支持，他们认为这比较符合波普尔式的因果论，因果关系永远不可能得到证实，经验证据是从多重检验中积累起来的，不管这些检验是否有局限性。

[17]例如，利用观察性数据考察教育与政治态度的关系，使用一国公民为样本如何能推广到其他国家或者代表总体？再例如，基于几个发达国家（或发展中国家）的案例比较如何能得出普遍性的结论。

[18]概念上等价是直译法，也可以称作“理论上等价”，这是James Druckman，Donald Green等政治学者的术语，经济学家称其为“平行法则”precept parallelism（Smith，1982）。

[19]只要实验室的环境对于实验里的行为者来说是真实的就足够了，这种真实性被学者称作实验现实主义（experimental realism），与之相对的是世俗现实主义（mundane realism）。

[20]这是典型归纳式的理论建构视角，没有可靠的经验支撑，理论也就站不住脚。Gerberetal.（2014）就是在此前提下呼吁政治学者尽量只做实验研究，因为政治学有太多的理论都没有经过仔细的经验检验，而又有很多新理论是建立在这些没有经过检验的理论基础上，因此并不可靠。

[21]也有时候，政治学者可以“操纵”实验对象的性别，例如Karpowitz et al.（2012）。

Prev：共融与差异：云南德钦茨中村丧葬仪式的人...

Next：迈向共同富裕的财政再分配——政府间转移...