![定性数据的统计分析](https://wfqqreader-1252317822.image.myqcloud.com/cover/619/23509619/b_23509619.jpg)
1 列联表的频次和概率结构
1.1 观测频次分布
设Χ和Y是定类或定序变量,分别有I个和J个类别或层次,列联表的行表示Χ的类别或层次,列表示Y的类别或层次。这样,表格具有IJ个分类组合(单元格),可以写作I×J列联表。
列联表的观测频次:单元格频次nij,边际频次ni+和n+j,样本量n。
以上符号的角标i表示行的类别或层次,j表示列的类别或层次。行和列的总数被称为边际频次,各单元格频次的总和就是样本量n。表1-1是观测频次分布的一个例子。
表1-1 是否接受高等教育和性别的交互分类
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0010_0001.jpg?sign=1738883456-HaUkFoWKWM949QmN6cRD6wLnhrbag0CQ-0-b74e3d682c2c58a962c9ab1ceebcfdad)
资料来源:中国社会科学院社会学研究所的社会调查。
n11=471n12=1793n1+=2264
n21=410n22=2078n2+=2488
n+1=881n+2=3871n=4752
1.2 联合概率和条件概率分布
列联表的数据除了可以用频数表示外,还可用概率来表示。当调查数据是总体的时候,例如全国人口普查,列联表的概率分布用π表示。概率有不同的类型,例如表1-2中有联合概率、条件概率和边际概率。在I×J列联表中有IJ个概率,用πij表示行为I、列为J的单元格概率,IJ个概率用{πij}表示。
表1-2 联合、条件和边际概率分布
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0010_0002.jpg?sign=1738883456-pzme4rDGDNRB7l2VFvfTsYomrQw5HAR1-0-5e72e5baeb58a29782707ad62d3163ed)
资料来源:中国社会科学院社会学研究所。
当变量X和Y是对称的(也就是变量没有应变量和解释变量之分)时,概率分布{πij}被称为X和Y的联合分布。观测频次和联合概率的关系为:
nij/n=πijni+/n=πi+n+j/n=π+j
行或列的边际概率分布是该行或该列的联合概率分布之和。{πi+}表示行(变量Χ)的边际概率分布,即每一行的单元格概率之和;{π+j}表示列(变量Y)的边际概率分布,即每一列的单元格概率之和:
![](https://epubservercos.yuewen.com/DACE01/12197328103601706/epubprivate/OEBPS/Images/figure_0011_0001.jpg?sign=1738883456-ZoE8TtW4aYvdFJxPPujSFW6YDgbsJo1g-0-87da31ece46b290fe46989572ad57175)
行和列的边际概率分布之和有如下关系:
∑iπi+=∑jπ+j=∑i∑jπij=1.0
即:联合概率分布的行边际概率分布之和等于列边际概率分布之和,等于列联表所有单元格概率之和。
当列联表的变量是不对称的时,Y是应变量,Χ是解释变量。当Χ被确定后(不再是随机的),X和Y的联合分布不再适用。在Χ确定的类别或层次,例如Χ的i 类别,Y有条件概率分布,其概率表示为πj(i),j=1,…,J。条件概率和观测频次的关系为:
nij/ni+=πj(i),边际概率分布为∑jπj(i)=1,j=1,…,J
如果X是应变量,Y是解释变量,则条件概率和观测频次的关系为:
nij/n+j=πi(j),边际概率分布为∑iπi(j)=1,i=1,…,I
当两个变量是对称的时,可以应用联合概率分布、Y的条件概率分布(Χ确定)〔或Χ的条件概率分布(Y确定)〕描述它们的关系。当行变量是解释变量、列是应变量时,单元格联合概率除以同一行的边际联合概率就是该单元格的条件概率,这一关系可以由观测频次导出:
nij/ni+=(nij/n)÷(ni+/n)等于
πj/i=πij/πi+
如果解释变量和应变量位置互换,单元格联合概率除以同一列的边际联合概率就是该单元格的条件概率:
πi/j=πij/π+j
在一些研究中需要比较和解释定序变量各个层次的条件概率分布。列变量必须是定序应变量Y,层次用j表示;行变量可以是定类或者是定序解释变量X,类别或层次用i表示。
1.3 变量独立的概率表述
当两个变量在统计上独立时,列联表各单元格的联合概率等于对应的边际联合概率之积:
πij=πi+π+ji=1,…,I和j=1,…,J
根据上式,又可推导出下式:
πj/i=πij/πi+=(πi+π+j)/πi+=π+ji=1,…,I
公式说明,当变量Χ和Y独立时,Y的第j列各单元格的条件概率等于该列的边际联合概率。换言之,当Χ为解释变量、Y为应变量时,如果对于所有的i=1,…,I,条件概率满足{πj/1=…=πj/I=π+j},Χ和Y相互独立。
对于从总体随机抽取的样本,我们用p替代π,{pij}表示列联表的样本联合概率,{nij}表示单元格频次,n=∑i∑jnij表示样本总量。因此,我们有:
pij=nij/n
和
pj(i)=pij/pi+=nij/ni+(ni+=npi+=∑jnij)
我们要利用随机样本的概率推论总体的数值,该值是概率的值域。
1.4 概率之差
在I×2列联表中,π1(i)(i=1,2,…,I)是行为i、列为1的单元格的条件概率。因为边际条件概率是1,所以(π1(i),π2(i))=(π1(i),1-π1(i))被称为二项应变量的条件概率分布。同列不同行的概率差表示为π1(i+1)-π1(i),相应地,第2列的概率差与第一列的概率差有如下关系:
π2(i+1)-π2(i)=(1-π1(i+1))-(1-π1(i))=π1(i)-π1(i+1)
概率差的值域在-1.0和1.0之间。当行i和i+1的条件概率分布相同时,概率差为0。如果各行之间均有π1(i)-π1(i+1)=0,应变量Y在统计上独立于行的分类或分层,则两个变量独立。
在I×J列联表中,如果(I-1)(j-1)个概率差πj(i)-πj(I)=0,i=1,2,…,I-1,j=1,2,…,J-1,则变量相互独立。
如果将两个变量视为对称的,其概率有联合分布,则行为i和i+1的条件概率差等于i和i+1各行的单元格联合概率除以边际概率之差:
π1/(i+1)-π1/(i)=π(i+1)1/π(i+1)+-πi1/πi+
对于2×2列联表,行与行之间和列与列之间的联合概率之差分别为:
π11/π1+-π21/π2+;π11/π+1-π12/π+2
以上两者的值不一定相等。