公司简介 | 服务领域 | 业务流程 | 研究方法 | 理论天地 | 网上招聘 | 联系我们  
您的位置: 新泰启点理论天地 → 抽样方法
理论天地
[抽样方法] [消费者行为学]
[营销调研]
抽样方法
将样本单位分类
按随机"定额"分层
分类的误差
清单相互重矗
没有必要考虑客观性和规则性
层内的同质性
利用己有的变量
没有必要进行复杂的控制
层的数目
增加尾数所产生的效应
等量分配
最优分层
抽样方法

层的形成

本节所讨论的要点对所有类型的分层设计,对元素和整群抽样,都具有重要的意义。下面所讨论的看起来在实践中更重要些,它们也经常被误解,但处理起来比较简单,以下A到D讨论获得有效样本的方法,而E到L讨论的则是如何提高样本效率的方法。

A、将样本单位分类

每个样本单位都必须清楚地分到一个层中,因此,对用于分层的任一变量来说,总体中所有的抽样单位都必须有可利用的资料。当资料仅可用于抽样单位的一小部分时,对分层而言一般是没有用的。要全面资料这一严格规则在下述几种情况下可以放松一些。

(1) 如果抽样单位中的一小部分的资料遗漏了就可以把这部分归入一个"混杂"层中。

(2) 有时总体中所有的抽样单位没有唯一的变量可用或可取,但整个总体各部分中可以找到一些有关的变量并可能有效地使用。

(3) 在多阶段抽样的每一阶段,我们需要从内部再行分层的只是上一阶段中已经选入样本的那些抽样单位。

(4) 如果把整个总体分层花费太大,则可以采用双重抽样方法在一个样本的基础上进行分层。

B、按随机"定额"分层

典型地说,分居包括在选样前把单位归到各层中,但在有些情况下,虽然所有单位的分层变量都可用且分层权数WH也是已知的,但把所有的单位都予以分类花费还是太大了。此时应该确定所需要的样本容量NH并从整个总体中用随机的办法抽样样本,直到从第H层选出NH个单位;它可以理解为把从其他层选出的单位作为第H层中的"空白"来处理,从整个总件中随机选样一直到NH的"定额"对所有的层都完成为止。NH对按比例抽样或不按比例抽样都可以事先确定下来。这一方法与把总体分类后再进行分层的方法完全等价。

在其他情况下,权数WH虽然可得到,但总体单位必须等到全面观察之后才能进行分类。这时,采用事后分层仍可以弥补按比例抽样的大部分效益。

C、分类的误差

把一些抽样单位分类到错误的层中并不极大地降低分层的效牟,与此相似。分层变量的小的不准确所引起的危害也很小。

如果在这样后发现有一些单位被归入"错误的"层,一般最好仍把它们留在所分类层中。这样做只是稍微降低了分层的效率,但不会使选样发生偏差,因为平均来说,样本只会包含错误分类的七部分。相反如果仅对样本进行校正,就有可能导致偏差。

D、清单相互重矗

如果总体抽样框被定义为n个清单之和,且从每个清单中都分别进行选样,那么每个清单就成为一个层。当有的抽样单位在两个或两个以上的清单上出现时,就会导致重复号码,这些问题可以用三个可选的方法之一来进行处理(儿上期)。

E、没有必要考虑客观性和规则性

在把抽样单位分类到各层中去时并不需要考虑客观性规则性。

(1) 与此相反,主观分类对于产生同质的层可能优严格的程序。在整个选样过程中,这一部分可以根据对清单和主题的专门了解来有效地运用个人判断。

(2) 在分层过程中没有必要考虑规则性和一致性。对于某一件事情来说,分层变量的分组界限可能随意变动以适合具体情况。对于另一件事情来说,分组的使用不必在选样的过程中都是对称的。分层变量应该用于当它们 有意义并能表明差异的重要来源时,而不应该用于这些条件不存在的情况下。例如,在美国的一个有关县的样本中,北部的县按民主党选民的百分比分层,而南部的县按非白人所占的百分比来分层。在另一个全国性的样本中,城市的县按制造业中雇用劳动力的百分比分层,而乡村的县则按农场的平均大小未分层。

F、层内的同质性

为了使方差有大的降低,我们需要分层变量与主要的调查目的紧密相联,其目的是形成对调查变量而言抽样单位是相对司质的层.它们的方差降低到这样的程度:层内抽样单位之间的差异小于它们整个总体中的差异,因此,我们尽量增加各层内抽样单位的同质性或使其同质性最大化。对于抽样单位的某了总体来说,这相当于增加各层平均数之间的差异或异质性。这了目的对按比例抽样是足够的,而且也和不按比例分层样本的设计有关。但是,对不按比例子祥本的设计还必须加上另一个目的,增大层间抽样单位标准差的异质性。

G、利用己有的变量

我们怎样才能最好利用可用于分层的几个变量呢?哪些变量能获得较多的效益可能并不清楚,而且,调查的不同目的可 能要求使用不同的分层变量并导致挑选折衷的方案。

对于小的或中等大小的样本,花很长时间寻找最佳变量或是精心制作分类程序似乎都没什么必要。分层的潜在效益在很多情况下特别是在按比例抽样时倾向于中等大小。研究人员一般对调查主题了解得很清楚从而从可用于分层的变量中作出一个满意的选样。下面是几个实用的提示:

(1) 一般来说,使用几个变量较粗的划分所产生的效益要大于使用一个变量较精细的划分所产的效益,这一点和下面要讨论的增加层数所产生的效应有关。

(2) 当使用几个变量时,构建层并不需要完备性和对称性:较小或较不重要的层可以合并。

(3) 互不相关(但与调查变量有关)的分层变量应予优先考虑。相反,如果两个分层变量高度相关,那么只使用其中一个变量带来的效益与同时使用两上带来效益相同。这与相关变量的回归问题类似。

(4) 我们可能会有两个变量的资料,一个是定性的,另一个是定量的(或许是连续的可测量数据)。前者只能用于分层选样,后者则可以用于前者所不能用的估计上,例如用于比率估计或回归估计。

H、没有必要进行复杂的控制

对于几个分层变量复杂的控制将产生太多的层。当每个变量都导致一些划分时,所形成层的总数等于各变量划分数目的乘积。如果分层不仅是整个总体而且也要对几个研究域(也许是不同类的域)进行,那么就可能产生太多的层。

层的数目必须有所限制。它受制于分层的努力是否带来好处,最后还受制于组成样本的抽样单位的数目。每个层中至少选出两个抽样单位,以计算方差的无偏估计值。因此,层的数目不应大于进行研究可提供的抽样 单位数的一半。对于元素抽而言,层的数目应该更少才好。首先,因为每层在计算方差时要少一个“自由度”。第二,因为层数太多而使分析次级组的难度加大。

深入分层对大规模的整群样本比较合适,因为这时分层的效益比较大。从每层中只选出两个初级整群是普 遍的做法。经常还只从每个层中选出一个初级整群,然后通过对层"折迭"来计其方差。当然,分层数有时的确可能超过选样数。这种方法被称为"多重分层"、"双向分层"、"深入分层"、"控制选样"、或"拉下方"设计。

I、层的数目

接单一分层变量进行分层应该分为多 少个层呢?当分层变量是连续的,如按美元计算的收入;或分层变量的划分是可以 继续进行的,如美国按地理划分为区,然 后又分为州、县、等等,这时就存在着挑 选的问题。一般不宜把划分搞得过细。(1) 很小的层(总体的一个零头)对于分层的效益几乎没有什么贡献;这些得益是与层的权数wh成正比的。(2) 只要有几个层的组成就可以获得一个变量的绝大部分的可能效益,进一步分层再增加的效益不多。对于一个单一变量而言,有三至十个层就足够了。

J、增加尾数所产生的效应

把层数从H个往上增加所产生的效应可以用模型R2/H2+(l-R2)来表示。这里,R2 是方差中受分层影响的部分,它与分层变量和调查变量之间的关系相对应。方差的这一部分随层数的平方而降低,但方差的(l-Rz) 部分则与分层变量无关,不受层数增加的影响。因此,在中等数目的分层产生以后,方差就逼近这个水平。例如,R2=0.64代表分层变量和调查变量之间的强相关R=0;8。而H=6个层把方差降低到0.018+0.36=0.378 把层教加数加倍为H=12,方差仅进一步降低为0.004+0.36=0.364。这一模型对分层变量进行线性回归的最优分配已有所发展,它看起来对我们正在做的非定量变量的试验和按比例分配也很适用。

K、等量分配

等量分配是指从每一个层中选出的抽样单位数目是一个常数nh=c。抽样比为 fh=1/Fh=/c/cFh,即从第h层中cFh=Nn 个单位中选出c个单位。当分层界限并不严格固定时,等量分配是特别实用的。这样做可以命名样本把总体分成含蓄的层或区段。

当所有的层包含的单位数目都相同F=1/f,且所有层的权数都是Wh=l/H 时,就会出现按比例分配这种特殊情况;这时就可以采用按比例抽样的方差公式。

例如,一个姓名的清单或一组卡片可以分为H=n/c 个区段,每个区段的含量为cF,然后从每个区段中随机选出一个容量为。的样本。城市的地图可以分成一些街区,把街区组合成n/2 个区段后就可以从每个区段中选出两个街区。

对于不按比例抽样而言,等量分配也可以很简单。选出的单位数仍为常数c,层的容量固定在cFh=c/fh,来仔细地配合所希望的任一抽样比fh。抽样比可以表示为fh=f/kh其中kh是和抽样比成反比的因子,且F=l/F为一个常数的基本比,kh一般应保持为一些简单的 "增长因于"(通常为整数)。因而区段就从cFkh个单位中产生,而c个单位就是从中随机选出的。层的权数为Wh=cFkh/ZcFhk=kh/Zkh,这些都能保持得很简单。在这一讨论中,我们假定权数代表单位数,Wh=Nh。但这些方法也可用于用其他单位来度量层的规模 Fh=Fkh。这种设计的简单性和灵活性可以有几方面的应用。如成对选样。由于c=2,可以允许产生许多的层。重复抽样,其中的 c次选样可以通过层的合并来越过层去代表采用 c次独立重复这一简单形式的样本。此外,如果层也是研究域的话,那么相等的nh对估计和比较都有好处。

除了简单性之外,等量分配常常还是有效的。如果标准差Sh在整个总体中是相当一致的,而且又采用了按比例抽样,那么从相等的样本容量的层而得出相等的样本量就比较符合直观的要求。理论表明,当nh=Wh.sh时,常数的nh对最优分配而言也是有效的.这就意味者构建层时要使Wh.Sh 的值在各层中相等.按下来将讨论为什 么这是划分总体的一个有效的方法。

L、最优分层

戴伦纽斯在他的几篇论文中将选择层的是最好的边界的方法以称为最优分层方法。他讨论了如何中决定最好的边界点yh(hl,2,----H-1)来产生H个层:当nh=kWhSh时,样本最最优分配的,而边界点对一个固定的的层的数目(H)将提供最小的方差。他假定变量 Yi 是连续的,并考察当调查变量本身就是一个分层变量时的。理论情况。

Yi 的分布常常具有长尾,特别是在导致最优分配问题的偏斜分布中。建立分层边界的两个对立方法直观上可以不予考虑。如果分布的全距被划分为相等的间隔,因而对于所有的h,(Yh-Yl)都是相等的,那么各层的相对容量Wh就会极不相等,尤其在尾端就会太小。另一方面,如果总体分布的面积按各层划分为相等的相对含量Wh,则尾端的范围就会就得太大。例如,包含大元素的层在一个偏料分布的右尾将有一个很长的范围(Yh-yh-l) 之间需要有一个折衷,一个类似的折衷方法常被用来表示经济的、人口的和普查资料的分组。例如收入分布,或城市大小(以千计)常出现的以象1,2.5,10,25,50,100,250,500,1000等为边界的分组中。这些直观上的折衷有助于了解与此类似的理论上的边界问题。这个最优解并不实用,因为等式中所有的五个参数都依赖于yh。但人们曾提出过几个建立层的规则,能使我们接近最优解。

各层的WhSh的值相争可以导致优边界。这一规则并不提供直接建立一组最优边界的一个简单方法、因为它 的参数是取决于边界的。但对于已分组的资料,这个规则可以帮助我们合并一些组或是进一步划分其它组以达到好的边界。相等的Wh.Sh的值也意味着最优先分配中相等的样本容光焕发量nH.因此,最优人配的最优分层也倾向于导致等量分配的样本(nh=nh+1)。

与此类似,周相等的Wh(yh-yq-l)的值来建造层也可以得到最边界的良好近似值。这也可以作为分组白合并 和进一步划分的规则,但它并不能直接得到最优边各层的相对权数Wh代表变量Yi相对频率曲线的比例。取值为y时,这一曲线的高度为fy。如果曲线与高为fy而宽为d的矩形址方图近似,则Wh=Zfy.d,即是对该层整个范围(Yh-YH-l)的总和,要求Wh(y-yh-l)相等的规则需要构造fyd2的总和相等的层。

上述最后一量的平方概引出一个既实用又有效的规则:计其 fy的值,然后将其累加并把累计数分成近似相等的部分。与此对应的yh的值就将是的近似的最好边界。在实践中,分层变量是以分组组距的形式出现的,大致的近似可能是必要的。上述规则假定分组组距d是相等的,修正:累计 dyfy的值,并把累计值分成大致相等时部分。

fy的累计规则对各种各样的分布都有能给出相当于好的结果。科克伦对采用上述三个近似规则详细考察了一些理论分布,也发现这三个规划是成功的,他还得到了按比例抽样和等量分配的最优边界.两位作者都发现相等的层规模总计(即各层中WhYh的值相争)这个简单规则效果较差。当变异条数Sh/Yh 在各层中大致相争时,这一规则的效果还不错。这时,相等的WhYh隐含相等的WhSh,这正可以得出与最优解很接近的值。

最优分层的规则可以作为构建层的实际指南,但根少作为达到最优解的精确方法采用。在分层变量和调查变量之间的相关程度不很高的通常情况下,需要更多的证据。当分层变量是非定量(定性的)的时候,当用几个分层变量比最好的单一变量所起的作用更大的时候,就有必要进行进一步的修正。

Top↑
               留言本 | 企业邮箱