![回归分析(修订本)(社会学教材教参方法系列)](https://wfqqreader-1252317822.image.myqcloud.com/cover/854/23667854/b_23667854.jpg)
3.6 对特定X下Y单一值的预测
在3.5节中,我们根据样本中的X,对回归直线上相应的Y值进行估计,得到的估计结果实际上是Y的条件均值或条件期望。如果我们希望基于一个新的X值预测对应的Y的值,不难想象在这种情况下Y的取值将会有更大的置信区间。由于随机项ε的存在,特定xi(仍记为x∗)下的y∗不落在回归直线 b1x∗上,而是服从于以回归直线
为均值、以
为方差的分布。估计量和相应的估计标准误见表3-3。
表3-3 对Y值预测的统计量和标准误
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0078_0008.jpg?sign=1738857237-HnRJtnVzBUsd2Y4sCNi4gVbabcJd5K82-0-804378db823f9e0721f70879d5224d34)
根据表3-3,在95%的置信水平下,预测某x∗下y∗的置信区间为:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0078_0009.jpg?sign=1738857237-PEzBEdyA73rJwZUvfnG0zFo8V2NnsiJG-0-88afa4caafa705cd31f3f0f673c6cd69)
同样地,由于总体误差的标准差σε是未知的,用误差标准差的样本估计Se作为σε的估计,则可以得到在95%置信水平下,对特定X下Y单一值的区间估计为:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0079_0001.jpg?sign=1738857237-dU2j8QRUuKiZ0O5pIt3K5WZBOdi6pym5-0-60fea6aa078e55143d7858c870d75879)
[例题3-1] 假设我们试图对某一社区中个人的受教育程度(X=edu)对年平均收入(Y=earn)的影响进行研究。我们从该社区中随机地收集到11名个体的受教育年限(单位:年)和年平均收入(单位:千元)数据(见表3-4)。
利用该数据:
(1)判断最佳拟合直线方程;
(2)计算直线的拟合优度;
(3)检验数据是否支持年平均收入受到个人受教育程度的影响(显著度α=0.05)这一假设;
(4)在95%置信水平下,估计受教育年限为12年者的年平均收入;
(5)预测当edu=20时,某个人的年平均收入。
表3-4 某小区11个个体的年平均收入与受教育年限
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0079_0002.jpg?sign=1738857237-vP6Hkluumz3zyEQxiO42AtTYHQuFNtWS-0-d5989faa4a1d666a801493ff3dc3ce51)
(1)通过上表计算出:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0079_0003.jpg?sign=1738857237-z2HrxqoBfimhQQdw7xm43iJvRcRfSS8C-0-d743d5a9301d0101836edcff71ac9d9a)
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0001.jpg?sign=1738857237-zXcEpruxIog0uzwovENpplMqZufBsOug-0-584fe74adecb36c12a9b5b366b83b86b)
因此,回归直线为:
(2)拟合优度的判定系数R2的计算。可以先计算受教育年限与年平均收入之间的相关系数,然后利用简单回归情况下这一关系式得到相关系数:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0004.jpg?sign=1738857237-R6hNFIbLPeqsvQIVohFfceOIWmOHrZ1k-0-ab2796d8fc76a3a050fe0e262e6aa9c2)
所以,上述回归直线拟合优度的判定系数R2=0.51。也就是说,回归方程能够解释年平均收入总方差中的51%。
(3)检验受教育年限对年平均收入的影响是否显著,实际上就是检验β1是否等于零。
零假设H0: β1=0
备择假设H1: β1≠0
计算检验统计量:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0005.jpg?sign=1738857237-Cbr5dvsXPTd05xbqGfAwdfnd3dzi1WiF-0-0d976c4a767b4a76ad1ad23a0962d631)
由于
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0006.jpg?sign=1738857237-pz4aqtJRFpA9JQofvMdNKuJtWfRF16fq-0-fe1604b1227a34703e3177e2d8d44820)
则,所以
。
因为在α=0.05处,t0.025(9)=2.26<3.10,所以,拒绝零假设β1=0。这表明受教育年限对年平均收入有显著影响。
(4)当edu=12时,估计的期望年平均收入为:
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0080_0009.jpg?sign=1738857237-jVkGbALmEZkcZaUcLK2Qu9gnmDT8aBNl-0-3ca2cad746c4e83635aae27b97b515dc)
并且估计标准误,另根据第(3)问求解中的计算结果S=2.03,所以,S. E. =0.687。由公式(3-23)可知,t0.025(9)=2.26,则受过12年教育的个体年平均收入(earn)的95%置信区间为:
(9.28 -2.26 × 0.687,9.28 +2.26 × 0.687)=(7.73,10.83)
(5)由于edu=20已经超出样本中自变量的取值范围 [5,16],因此利用回归拟合直线预测edu=20时个体年平均收入的取值是很危险的。
当预测值的范围超出了样本中 x 的取值范围时,利用回归直线预测要千万小心。这时,不仅因为预测值的置信区间变得过大而不可靠,更重要的是,自变量与因变量之间的关系可能在超出样本取值范围的某个 x处突然转变, (如图3-7所示)。但是,我们无法从已有的样本数据中得知这种趋势是否存在。
![](https://epubservercos.yuewen.com/2BA06E/12421581403624006/epubprivate/OEBPS/Images/figure_0081_0001.jpg?sign=1738857237-cdlyH5Ju7KYjwYlYxFviyMRsVJ9G7mKA-0-035d23bdd843e5466cf6475ca3fcf0ab)
图3-7 预测值与真实值之间可能出现的关系
在图3-7的例子中我们可以看到,超出数据范围 edu =16以后,受教育年限与年平均收入之间可能呈曲线关系,而不再是简单的线性关系。如果这时仍然按照原有的拟合直线对 edu =20进行估计,就会使预测结果出现很大的偏误。