![定性数据的统计分析](https://wfqqreader-1252317822.image.myqcloud.com/cover/619/23509619/b_23509619.jpg)
4 定类-定序列联表的检验统计量
检验统计量M2适用于两个变量都是定序变量的情况。如果一个解释变量是定类的且只有两个类别,则仍然可以使用该统计量。如果定类变量的类别超过两个,就要使用另一种统计量。使用这种统计量的步骤是,计算定序应变量在定类解释变量每一行上的均值,然后比较行均值之间的变差。该统计量具有df=I-1的大样本卡方分布。当I=2时,该统计量等同于比较两行均值之差的M2。
4.1 2×2列联表的概率比
概率比用于量度变量之间的相关,以2×2列联表为例:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0025_0001.jpg?sign=1738883935-uZXifPPtMpbBcGfPH0Nj00J3bvTSm8gi-0-d39de840fa6f8873bc72cb3cfd14caa1)
Ω是非负数,当分子大于分母时,Ω>1。概率比之比(或简称概率)等于:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0025_0002.jpg?sign=1738883935-Pb2ElveZfTCYqQB09jNSOVYWJl7O5BP4-0-f9cc6789145e6a72ab68dfb6e2cd71d5)
概率又称交叉乘积比或优比。优比可以用来量度列联表中两行里不同两列的概率。以表1-1为例,因为男性和女性的边缘和不相等,所以各列的单元格频次不能互相比较(即各列的女性和男性的数据不能互相比较),必须用各行单元格频次之比n11/n12和n21/n22或单元格概率比Ω1和Ω2比较。如果θ>1,则女性接受高等教育的概率大于男性;反之(θ<1),女性接受高等教育的概率小于男性。一般而言,列联表的边际数据分布大多数是不同的,因此将同列的单元格数据进行比较没有意义,只有优比才能正确地反映同列数据的大小。
概率比也可以用条件概率表示:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0001.jpg?sign=1738883935-clkT5juqGPTu9FaFFaFRvWotPsaUuOY9-0-c62c385e24c2b319e01d48c9e9d3e2a8)
因此
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0002.jpg?sign=1738883935-PJmos8CIIg8pfPruJmP1WMAEBWhcWayC-0-c9929da3169aabf1deae10f94c6e8ce6)
当θ=1时,Ω1=Ω2,两组条件概率分布(π1(1),π2(1))和(π1(2),π2(2))相等,两个变量相互独立。
当1<θ<∞时,必然出现π1(1)>π1(2),π2(2)>π2(1),变量正相关。当0≤θ<1时,必然出现π1(1)<π1(2),π2(2)<π2(1),变量负相关。
在一般情况下,总体的π和θ是未知的,我们要用随机样本的频次求θ的估值:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0003.jpg?sign=1738883935-3UpTJr45gEvZFmipALMGDH5RDkTHAAPq-0-129eba26b92eb2e4ec7e5fff5e32a278)
的优点在于,任一行或任一列的频次乘以常数,
的值不变。如果行或列的次序颠倒,
的值是原值的倒数,方向相反。因此,两个互为倒数且方向相反的
表示相同变量的相关程度。
根据算式1-6,当任意单元格频次nij=0时,等于0或∞。因为单元格频次在随机抽样中是一变量,每次随机抽样都会有不同的结果,所以为了避免
=0,可用下式替代式1-6:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0026_0010.jpg?sign=1738883935-im2fmlmLKTbVgmxkq1BMDPvx56epOqZG-0-79fa7b6a57892f0d4305ebcf8e778bc4)
该式的计算结果只有微小的变化,可以反映变量之间的关系。
4.2 用随机样本的log
估计总体的logθ
随机样本的log的标准差为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0001.jpg?sign=1738883935-wQNze3Mptm8eJHMva0GRq7iCEdnV7XC8-0-11ff0ffe242f7c0785712564e9f75646)
总体的logθ的置信区间为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0002.jpg?sign=1738883935-vp6wQoPQyhEeW2ZY4OuSbcERCNaVz3mT-0-bb49f17e5374ccbfaf13bd453716b8c8)
式中,p是双尾概率。
根据表1-1,样本概率=(471×2078)/(1793×410)=1.33,
=0.285。概率
表明样本中接受高等教育的男性是女性的1.33倍。
=0.285的估计标准误为:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0027_0007.jpg?sign=1738883935-BtUzQi5N40r16N0JYNjd79Wr1KXO80we-0-95063316e305ca6bcec4377124dbeb74)
95%置信区间的总体logθ:0.285±1.96(0.075)→(0.140,0.430),相应的总体θ的置信区间为(e0.140,e0.430)→(1.150,1.537)。这个区间不包含1,所以性别和是否接受高等教育是相关的。如果区间包含1,则性别和是否接受高等教育就有可能是相互独立的。