《应该如何评估样本的代表性？》

应该如何评估样本的代表性？

内容提要

国内有些学者认为，可以采用将样本的某些特征与总体的同类特征进行比较的办法来评估样本的代表性。本文则强调：在具体的调查研究过程中，这种评估的方法既不可行，也不科学。评估样本的代表性的关键，是判断它是不是一个概率样本，而要做这样的判断，只能依据实际抽取样本的具体方法和具体程序，而不是依据最后所得到的样本的具体特征。本文还探讨了未应答现象及其对样本的代表性的影响。

本文所说的“样本”，是指在社会调查活动中根据概率抽样原则从调查对象的总体中抽取出来填答调查问卷或进行结构性访谈的那一部分人。除非普查或者所有被调查者的特征都一样，否则，所有旨在根据样本的特征来推论总体的特征的抽样调查，都面临一个如何评估样本的代表性的问题。对这个问题，国内有些学者认为，其评估的基本方法，是将样本的某些特征（如性别结构、年龄结构等）与总体的同类特征进行比较，如果发现二者之间的差别不大，则可以认为样本的质量较高，代表性较好，反之，则说明样本的代表性较差（国内几本影响比较大的有关社会研究方法的教材都持这种观点）。本文旨在阐明：在具体的调查研究过程中，这种评估的方法既不可行，也不科学。评估样本的代表性的关键，是判断它是不是一个概率样本，而要做这样的判断，只能依据实际抽取样本的具体方法和具体程序，而不能依据最后所得到的样本的具体特征。为了说清楚这一点，还得从概率抽样与抽样误差的意义说起。

一

概率抽样与抽样误差的意义

从调查总体中抽取样本的基本方式可以分为两大类型，一是概率抽样，二是非概率抽样。在概率抽样中，总体中的每个元素都有一个已知且不为0的被选入样本的概率，这个概率通过某些随机化的机械的操作而获得。①或者说，概率抽样的本质特征是研究者能计算出总体中的每个人被选入样本的概率，而无须每个人被选入样本的概率都相等。②概率抽样主要有四种形式，即简单随机抽样、系统随机抽样、分层随机抽样和聚类抽样。其中，简单随机抽样是最简单、也是最基本的概率抽样方法，其它的抽样形式都可以看作是对它的修正。简单随机抽样要求完全按照随机原则，直接从总体N个单位中抽取n个单位作为样本，并且要保证总体中每个单位被选入样本中的概率不但都是已知的，而且都要相等。简单随机抽样在统计推论当中占有十分重要的地位，大多数推论统计的方法都是基于简单随机抽样，即假定数据是按照简单随机抽样的方法收集的。③采用这种抽样方法的意义在于：研究者能够得知样本统计值（其中最常用的是样本均值）的抽样分布(sampling distribution)，从而能够根据中心极限定理计算出抽样误差的大小，这样，也就能够建立起样本统计值与总体参数值之间的联系，达到由样本统计值推论总体参数值的目的。而采用非概率抽样时，研究者则无法做到这一点。

样本统计值的抽样分布是一种理论性的概率分布，该统计值通过计算从同一总体中抽取出来的、规模都为n的所有可能的随机样本而得出。可以以样本均值的抽样分布为例来说明之：假设某大学共有10000名住校的同学，某研究者决定采用简单随机抽样的方法从中抽取500名同学进行问卷调查，以便了解同学们每月的伙食费支出等方面的情况，那么，根据组合原理，将共有C[500,10000]种抽法，也即从理论上讲可以得到C[500,10000]个不同的随机样本。如果统计这些样本中平均每名同学的每月的伙食费支出，我们就将得到C[500,10000]个统计数据，即C[500,10000]个样本均值。这些样本均值可能会各不相同，它们所组成的分布即为样本均值的抽样分布。由于在实际的抽样调查当中，我们不可能反复地抽取这么多的样本进行调查，而只抽取一个样本即可，因此，这种抽样分布纯粹是一种理论上的分布。然而，这种抽样分布对于统计推论却至关重要，它被认为是统计学中最重要的一个概念，是统计推论程序的基石。④

根据数学上的中心极限定理，如果从一个具有任何分布形状、且均值为μ、标准差为δ的总体中，采用简单随机抽样的方法抽取样本规模都为n的所有可能的随机样本，那么，当n变得足够大时（一般大于50即可），所有这些随机样本的均值的分布（即样本均值的抽样分布）具有以下三个特征：(1)样本均值的抽样分布将十分接近于正态分布；(2)样本均值的抽样分布的均值等于总体的均值；(3)样本均值的抽样分布的标准差等于总体的标准差(δ)除以。这个标准差也叫样本均值的抽样分布的标准误差(standard error)，简称为SE。当总体的标准差未知时，只要样本规模足够大，样本的标准差(S)会接近于总体的标准差，就可以近似地用样本的标准差来代替总体的标准差，从而可以计算出SE的值，即。SE所反映的是所有可能的样本均值与总体均值之间的平均离差，即关于样本均值的抽样平均误差，简称为抽样误差(sampling error)。它反映了样本均值在总体均值附近的平均变异程度。⑤上述三个特征被称为“三个令人惊异的事实”。⑥正是这三个特征或事实的存在，才使得由样本统计值推论总体参数值成为可能。

我们可以假设检验为例来说明这种推论的基本逻辑。由于样本均值的抽样分布是一个正态分布，因此，当知道其分布的标准差（即SE）以后，根据正态分布的特征，我们就能够知道有百分之多少的样本均值将落在总体均值两旁的一个范围之内。比如，我们能够知道：在保持样本规模和抽样方式（简单随机抽样）不变的条件下，95%的样本均值将落在总体均值加减1.96个标准差(SE)的范围之内，也即95%的样本均值将落在[μ±1.96SE]的范围之内。如果我们假设总体均值为μ，然后，采用简单随机抽样的方法抽取一个规模为n的样本，那么，这个样本的均值落在[μ±1.96SE]之内的概率将是95%，也即落在[μ±1.96SE]之外的概率是很小的，只有5%，属于所规定的小概率事件。如果这个样本的均值落在了[μ±1.96SE]之外，即出现了小概率事件，那么，我们便要怀疑原先的假设（即假设总体均值为μ）的正确性。这就是大样本单总体均值的假设检验的基本逻辑。

这样，抽样分布及中心极限定理在理论上架起了样本均值与总体均值之间的桥梁。但对这个“桥梁”尤其是对抽样误差的理解，我们应该注意以下几点：

首先，只有采用简单随机抽样，上述计算抽样误差，即样本均值的抽样分布的标准差(SE)的公式以及涉及SE的统计推论才会成立。也就是说，它们并不适合于简单随机抽样以外的其它概率抽样方式。⑦

其次，如果是采用简单随机抽样，那么，可知抽样误差只与总体的标准差（δ）和样本规模(n)有关。由于总体的标准差是一个未知的固定值，因此，减少抽样误差的唯一手段就是增加样本规模。增加样本规模固然能减少抽样误差，但必须注意两点：一是抽样误差与成反比，依靠增加样本规模来减少抽样误差的效果并不十分明显，当样本量增加到原先的4倍时，抽样误差才会减至原先的一半；二是随着样本规模的增加，不但会增加调查的成本，而且可能会增加非抽样误差，从而导致调查质量的降低。

第三，上述统计推论的思路与计算，只考虑了抽样误差，并没有考虑非抽样误差，也即是在假定不存在非抽样误差的条件下进行的。然而，在实际的抽样调查当中，非抽样误差不但很难避免，而且很可能要大于抽样误差。有的学者甚至估计抽样误差也许只占总的调查误差的5%。⑧因此，采用上述统计推论方法所得出的结论，只是反映了一种不存在非抽样误差的理想状况，而不一定是实际情况。

第四，也是本文特别强调的是，抽样误差所反映的是所有可能的样本均值在总体均值附近的平均变异程度，是一种理论上的平均误差。而在实际的具体调查中，我们只抽样一次，即只抽取一个样本，对这个具体样本而言，我们无法知道其样本均值与未知的总体均值之间的实际差异到底是多少，也即无法知道其抽样误差到底是多少。⑨

如前面提及的那样，有些学者认为，可以采用将样本的某些特征与总体的同类特征进行比较的办法来评估样本的代表性，如果发现二者之间的差别不大，则可认为样本的质量较高，代表性较好，反之，则说明样本的代表性较差。笔者认为，这种评估方法既不可行，也不科学。说它不可行，是因为我们并不知道总体的特征，如果我们已经知道了总体的特征，也就没有必要进行旨在根据样本特征来推论总体特征的抽样调查了。即使已经知道了总体的某个或某几个方面的特征，可以拿这个或这些特征来与样本的同类特征进行比较，这种比较也是局部的、片面的，研究者也可能对这个或这些特征并不感兴趣。说它不科学，其理由之一是因为样本特征与总体特征之间的具体差别的大小，并不与样本是不是概率样本以及代表性的高低有必然的联系。或者说，退一步讲，即使能进行某个样本特征与总体特征之间的比较，当发现二者之间的差别很小时，我们也无法判断这种“很小”的差别所代表的真正意义。如果不存在非抽样误差，这种“很小”的差别能说明在这个特征（但不能同时说明其他特征）上的抽样误差很小。然而，要是还存在非抽样误差，则这种“很小”的差别也可能是抽样误差与非抽样误差相互抵消之后的结果。总而言之，这种评估的方法，就好比根据甲与乙在某些方面是否相像来判断他俩之间是否具有父子关系一样，是靠不住的。

那么，究竟应该如何评估一个具体样本的代表性？答案只有一个：评估一个样本的方法不是依据该样本的特征，而是依据其抽取的过程。⑩对这个过程的评估涉及多个方面，比如：抽样框是否明确，样本规模有多大，样本的抽取是否严格遵循了概率抽样程序，在具体的实施过程中，有没有未应答现象，应答率是多少，等等。笔者不想在此探讨如何评估所有这些方面的问题，而只是就与未应答现象有关的几个问题做些初步分析。

二

未应答现象及其对样本的代表性的影响

在问卷调查中，很难避免出现未应答(nonresponse)现象。未应答可以分为单位未应答(unit nonresponse)与项目未应答(item nonresponse)两种类型。前者指被抽中的被调查者由于种种原因而完全未能填答调查问卷；后者指被抽中的被调查者未能回答问卷中所有应该回答的问题，也即被调查者只回答了其中的一部分问题，而对某些问题未予回答。出于简便起见，本文只讨论单位未应答的情况（因此，下文中的“未应答”特指“单位未应答”）。

谈及未应答现象，首先涉及应答率或未应答率的计算问题。这个问题看似简单，其实却比较复杂，即使在开展调查研究活动十分普及的美国，也一直没有形成一种统一的计算方法。(11)为什么会出现这种局面？Groves认为，至少以下四个调查设计方面的因素会影响应答率的计算：(1)抽样框中的所有单位是否都具有被调查的资格。例如，在入户访谈中，如果被抽中的某些地址是没有人的空户或非居民住户，将怎样处理（计算）？(2)被抽中的每个单位是包含一个样本元素还是多个样本元素。例如，在入户访谈中，是访谈被调查住户中的所有的人（一般指成年人）还是只访谈其中的一个人？如果是访谈所有的人，一旦未能进入该户调查，则将可能失去几个样本元素（人）；而如果只访谈其中的一个人，一旦访谈未成功，则只失去一个元素，其应答率的计算（是基于个人层次还是基于家庭层次）当然也就不一样。(3)所有样本中的人是否具有相等的被选中的概率。如果不相等，则将使应答率的计算变得相当复杂，此时，只简单地计算一个没有加权的应答率是没有什么意义的，宜计算加权的应答率或分别计算具有不同的抽取概率的各子群体的应答率。(4)是否允许在抽样实施阶段进行样本替换。某些抽样设计允许调查执行者替换样本，即当接触不上被调查者或被调查者拒绝接受访谈时，可以就近找一个住户（或人）或者找一个相似者进行替换。但这样做时，将面临一个如何记录、处理最初的未访谈者的问题。不同的研究者可能对应答率有不同的理解，从而导致他们对上述几个方面的因素（当然还有其它的因素）的处理方式以及计算应答率的方法也不一样，他们也可能会根据不同的目的而计算出不同的应答率或其它相关的比率，如接触率、合作率和拒绝率等。(12)

由于没有一种统一的计算应答率的方法，这很容易导致不同学者所谈论的“应答率”没有可比性。在这种情况下，明智的做法是：研究者在报告问卷调查的具体实施过程以及与应答率有关的信息时，应该详细报告其实施细节、具体数据和计算方法，以便读者正确判断和比较。遗憾的是，不少学者尚未做到这一点。以风笑天(13)和郝大海(14)在论争中提及的“CGSS2003”调查项目为例，该项目按抽样方案抽取了5900名城镇居民，因为各种原因访谈未成功的比例大约是30%，经过较多的样本替换之后，最终实际完成样本5894个。由于读者无法获知有关样本替换的具体信息，比如是否发生过样本替换、替换了多少、是怎么替换的等方面的信息，那就难免令读者对其应答率（回收率）产生“误读”。

其实，在调查执行过程中，难免要进行适当的样本替换，在Fowler介绍的减少未应答所带来的误差的三种方法中，第一种方法就是使用替换的应答者。(15)但是，研究者不能盲目地替换样本。不管什么时候使用替换者，都应该做到：(1)准确地记录哪些单位是替换者；(2)辨别出哪些资料记录是从替换单位获得的；(3)报告替换的数量；(4)当计算调查应答率时，把替换者视为未应答的个案(cases)。(16)

学者们之所以关注未应答率的高低，主要是因为未应答现象的存在可能产生未应答误差，这种误差会影响样本的代表性。未应答误差的大小与两个因素有关：一是未应答率的高低，二是未应答者与应答者之间的差异的大小。(17)如果未应答者与应答者之间不存在系统性的差异，那么，未应答的存在只是使实际的样本规模有所减少，从而导致抽样误差的增加（在不考虑非抽样误差的情况下）。如果未应答者与应答者之间在有关变量上存在系统性的差异，那么，未应答的存在势必影响样本在这些变量上的代表性。未应答率越高，未应答者与应答者之间存在的系统性的差异越大，这种影响就将越大。问题是，由于我们很难知道未应答者的情况，也即我们通常无法知道未应答者与应答者之间是否存在系统性的差异以及这种差异的大小，因此，我们通常无法搞清楚这种影响到底有多大。

尽管我们通常无法搞清楚未应答率的高低对样本的代表性的具体影响，但我们也不能假设这种影响不存在，保证较高的回收率还是十分必要的。1979年，美国管理与预算局(the office of management and budget)就曾临时采取过以下指导原则（但并没有给应答率下定义）：“基于统计方法的资料收集，其应答率至少达到75%。提议中的资料收集，如果其预期的应答率低于75%，则要求有特别正当的理由。应答率低于50%的资料收集活动应该被终止。不批准提议中的、预期应答率低于50%的资料收集活动。”(18)至于如何才能保证较高的回收率，很多学者都探讨过这个问题，笔者在此无意重复。笔者想强调的是，在关注未应答误差的同时，我们也不可忽视应答中的误差。应答误差产生的原因多种多样，如果按照调查过程中的参与者来划分，应答误差可以分为研究者、被调查者、调查员（访谈员）、资料录入员等带来的误差。研究者在概念操作化、假设操作化、问卷设计、抽样设计、理解统计分析结果等上面都有可能带来误差；被调查者尽管应答了，却可能没有给出真实的答案；调查员（访谈员）的访谈技巧可能欠佳从而可能会影响访谈的效果、他们可能不按既定的抽样方案选取被调查者、可能会随意替换被调查者、也可能错误地记录被调查者的回答、甚至有可能故意制造虚假数据；资料录入员在录入问卷数据时也有可能出错。总之，即使被调查者应答了，也可能产生误差，即应答误差。这种应答误差的大小可能与应答率的高低有一定的联系，即如果片面地追求高应答率，有可能导致这种应答误差的增多，从而降低调查的质量。

不管是未应答误差，还是应答误差，都属于非抽样误差。尽管我们可能意识到这些非抽样误差的存在，却很难估计它们对样本的代表性的具体影响。所以，所有的推论统计都没有考虑它们，即假定它们都不存在。这样做可能会使所得出的调查结论并不符合实际情况，然而，我们又不得不如此，除非你不做这种调查研究。

三

结束语

所有旨在根据样本的统计值来推论总体的参数值的抽样调查，都面临一个如何评估样本的代表性的问题。对这个问题，国内有些学者认为，其评估的基本方法，是将样本的某些特征与总体的同类特征进行比较，如果发现二者之间的差别不大，则可以认为样本的质量较高，代表性较好，反之，则说明样本的代表性较差。本文则强调，在具体的调查研究过程中，这种评估的方法既不可行，也不科学。

在不考虑非抽样误差的前提下，评估样本的代表性其实是评估其抽样误差的大小。采用简单随机抽样方法的意义在于，研究者能够得知样本统计值（如样本均值）的抽样分布，从而能够根据中心极限定理建立起样本统计值与总体参数值之间的联系，并能计算出抽样误差的大小。然而，抽样误差（即样本均值的抽样分布的标准差）所反映的是所有可能的样本均值在总体均值附近的平均变异程度，是一种理论上的平均误差，对于一个具体样本而言，我们无法知道该样本均值与未知的总体均值之间的实际差异到底是多少，也即无法知道其抽样误差到底是多少。因此，实际上，我们无法采用将一个具体样本的某些特征与总体的同类特征进行比较的方法来评估该样本的代表性。正因为如此，评估一个具体样本的代表性的方法，不是依据该样本所具有的特征，而是判断它是不是一个概率样本。要做这样的判断，只能依据实际抽取该样本的具体方法和具体程序。或者换句话说，对一个具体样本的代表性的评估，其实是对实际抽取该样本的具体方法和具体程序进行评估。因此，研究者应该在自己的研究报告中清楚地、详细地公布这方面的信息，如公布样本的抽取是否严格遵循了概率抽样程序、在具体的实施过程中有没有未应答现象、应答率是多少、是否发生过样本替换、替换了多少、是怎么替换的等方面的信息，以便读者对其样本的代表性的高低做出正确的判断。

完

作者

游正林：1964年5月生，中国政法大学社会学院副教授，博士。主要研究方向：劳动社会学，社会调查研究方法。

版权归作者所有，转自《学术中国》。