L、最优分层
戴伦纽斯在他的几篇论文中将选择层的是最好的边界的方法以称为最优分层方法。他讨论了如何中决定最好的边界点yh(hl,2,----H-1)来产生H个层:当nh=kWhSh时,样本最最优分配的,而边界点对一个固定的的层的数目(H)将提供最小的方差。他假定变量 Yi 是连续的,并考察当调查变量本身就是一个分层变量时的。理论情况。
Yi 的分布常常具有长尾,特别是在导致最优分配问题的偏斜分布中。建立分层边界的两个对立方法直观上可以不予考虑。如果分布的全距被划分为相等的间隔,因而对于所有的h,(Yh-Yl)都是相等的,那么各层的相对容量Wh就会极不相等,尤其在尾端就会太小。另一方面,如果总体分布的面积按各层划分为相等的相对含量Wh,则尾端的范围就会就得太大。例如,包含大元素的层在一个偏料分布的右尾将有一个很长的范围(Yh-yh-l) 之间需要有一个折衷,一个类似的折衷方法常被用来表示经济的、人口的和普查资料的分组。例如收入分布,或城市大小(以千计)常出现的以象1,2.5,10,25,50,100,250,500,1000等为边界的分组中。这些直观上的折衷有助于了解与此类似的理论上的边界问题。这个最优解并不实用,因为等式中所有的五个参数都依赖于yh。但人们曾提出过几个建立层的规则,能使我们接近最优解。
各层的WhSh的值相争可以导致优边界。这一规则并不提供直接建立一组最优边界的一个简单方法、因为它
的参数是取决于边界的。但对于已分组的资料,这个规则可以帮助我们合并一些组或是进一步划分其它组以达到好的边界。相等的Wh.Sh的值也意味着最优先分配中相等的样本容光焕发量nH.因此,最优人配的最优分层也倾向于导致等量分配的样本(nh=nh+1)。
与此类似,周相等的Wh(yh-yq-l)的值来建造层也可以得到最边界的良好近似值。这也可以作为分组白合并
和进一步划分的规则,但它并不能直接得到最优边各层的相对权数Wh代表变量Yi相对频率曲线的比例。取值为y时,这一曲线的高度为fy。如果曲线与高为fy而宽为d的矩形址方图近似,则Wh=Zfy.d,即是对该层整个范围(Yh-YH-l)的总和,要求Wh(y-yh-l)相等的规则需要构造fyd2的总和相等的层。
上述最后一量的平方概引出一个既实用又有效的规则:计其 fy的值,然后将其累加并把累计数分成近似相等的部分。与此对应的yh的值就将是的近似的最好边界。在实践中,分层变量是以分组组距的形式出现的,大致的近似可能是必要的。上述规则假定分组组距d是相等的,修正:累计 dyfy的值,并把累计值分成大致相等时部分。
fy的累计规则对各种各样的分布都有能给出相当于好的结果。科克伦对采用上述三个近似规则详细考察了一些理论分布,也发现这三个规划是成功的,他还得到了按比例抽样和等量分配的最优边界.两位作者都发现相等的层规模总计(即各层中WhYh的值相争)这个简单规则效果较差。当变异条数Sh/Yh 在各层中大致相争时,这一规则的效果还不错。这时,相等的WhYh隐含相等的WhSh,这正可以得出与最优解很接近的值。
最优分层的规则可以作为构建层的实际指南,但根少作为达到最优解的精确方法采用。在分层变量和调查变量之间的相关程度不很高的通常情况下,需要更多的证据。当分层变量是非定量(定性的)的时候,当用几个分层变量比最好的单一变量所起的作用更大的时候,就有必要进行进一步的修正。