统计学实验
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

三、统计数据的整理

(一)数据的预处理

数据的预处理是数据整理的前提,是对数据进行分类或分组之前所做的必要处理,内容包括数据的录入、审核、筛选、排序等。

1.数据的编码及录入

(1)数据的编码。编码是对一个问题的不同回答进行分组和确定数字代码的过程。封闭式问题的答案通常已经预先编码。例如:你的性别:1.男;2.女;回答“男”的用编码“1”,回答“女”的用编码“2”。

对开放式问题的回答进行编码则需要采用以下四个步骤,即列出答案、合并答案(一些形式上不同的答案,在本质上是一致的,可以合并)、设置编码、输入编码。

例2-3小卡尔·迈克丹尼尔,罗杰·盖兹.当代市场调研[M].北京:机械工业出版社,2000:280.有一个开放式问题:为什么你喜欢喝那个牌子的啤酒?试对其回答进行编码。

解:列出该问题的所有答案,如表2-1-2所示。

表2-1-2 回答实例

对以上回答实例可合并分类及编码如表2-1-3所示。

表2-1-3 对表2-1-2中的回答的合并分类和编码

(2)数据的录入。数据录入既要讲求效率,又要保证质量。对于重要的数据,一般录入两次(最好是不同的两个人各录入一次)。如果同一数据两次录入结果不一致,则需要修改。

2.数据的审核与筛选

数据的审核包括完整性审核和准确性审核。审核数据准确性的方法主要有逻辑检查和计算检查。此外,还要对数据的时效性进行审核,应尽可能使用最新的统计数据。

数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔出;二是将某些符合特定条件的数据筛选出来。数据的筛选可借助Excel完成。

下面我们给出一个例子,说明用Excel进行数据筛选的过程。

例2-4 表2-1-4是重庆、四川、贵州等10省(市、区)某年城镇居民家庭用于食品、衣着、居住、交通通信、文教娱乐、医疗保健等方面的人均现金消费支出的数据,试按要求做数据筛选。

表2-1-4 人均现金消费数据

(1)自动筛选。如果要显示出满足给定条件的数据,可使用自动筛选命令。任选一数据区域的单元格,点击“数据”栏下的“筛选”,如图2-1-21所示。

图2-1-21 选择“自动筛选”

再点击“自动筛选”,这时会在第一行出现下拉箭头,用鼠标点击箭头会出现图2-1-22所示页面。

图2-1-22 “自动筛选”选项

如果要筛选出人均医疗保健现金消费支出最高的前三个省(市),可点击医疗保健所在列的下拉箭头中的“前10个”,在选项中输入“3”,如图2-1-23所示。

图2-1-23 填写“自动筛选”对话框

点击“确定”,得到如图2-1-24所示结果。

图2-1-24 筛选结果

这表明在10个省(市)中,人均医疗保健现金消费支出最高的前三个省市为重庆、陕西、宁夏。

也可以自定义自动筛选方式,页面如图2-1-25。

图2-1-25 “自定义自动筛选方式”界面

(2)高级筛选。如果所设定的条件比较多,可以使用“高级筛选”命令。使用高级筛选时,必须建立条件区域。在条件区域中分行输入条件标志和条件值。输入条件时,凡是表示“与”的条件,都输在同一行;凡是表示“或”的条件,输在不同行里。例如,我们要筛选出人均衣着现金消费支出和人均交通通信现金消费支出都大于1500元的省(市),则建立条件区域如下(图2-1-26)。

图2-1-26 建立条件区域

选择“数据”栏下的“筛选”→“高级筛选”(见图2-1-27、图2-1-28)。

图2-1-27 选择“高级筛选”

图2-1-28 填写“高级筛选”对话框

填写完高级筛选对话框,点击“确定”,可得如下结果(见图2-1-29)。

图2-1-29 筛选结果

结果表明,在所有10个省(市)中,只有重庆、云南、陕西和宁夏的人均衣着现金消费支出和人均交通通信现金消费支出都大于1500元。

3.数据的排序

数据排序是按一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势。同时,排序还可以为分组提供方便。数据排序可以利用“工具”菜单的“数据分析”下的“排位与百分比排位”实现,也可以利用“数据”菜单的“排序”实现。

(1)利用“工具”菜单的“数据分析”下的“排位与百分比排位”。“排位与百分比排位”是将原始数据按照从大到小排序。

第一步,用鼠标点击工作表中待分析数据的任一单元格。

第二步,选择“工具”菜单的“数据分析”子菜单,用鼠标双击数据分析工具中的“排位与百分比排位”选项。

第三步,填写完“排位与百分比排位”选项,按“确定”按钮即可。

输出的结果可分为四列,第一列“点”是数值原来的存放位置,第二列是相应的数值,第三列是数值的排序号,第四列是数值的百分比排位,它的计算方法是:

例2-5 对例2-4中的数据,将10个省(市)人均食品现金消费支出、人均衣着现金消费支出按照从大到小的顺序排序。

解:选择“工具”菜单的“数据分析”子菜单,选择“排位与百分比排位”(见图2-1-30)。

图2-1-30 选择“排位与百分比排位”选项

单击“排位与百分比排位”选项,在“排位与百分比排位”对话框的“输入区域”中输入B1:C11,选择“分组”方式为列,选中“标志位于第一行”复选框,在“输出区域”框中输入输出表左上角的单元格行列号(此单元格为空单元格,且其右下角为空),本例输入C14(见图2-1-31)。

图2-1-31 填写“排位与百分比排位”对话框

点击“确认”,得结果如图2-1-32。也可以选择“新工作表”或“新工作簿”作为放置抽样结果的位置。

图2-1-32 “排位与百分比排位”结果

结果表明,人均食品现金消费支出最高的是原来位于第1的重庆,最低的是原来位于第7的甘肃;人均衣着现金消费支出最高的是原来位于第1的重庆,最低的是原来位于第3的贵州。

(2)利用“数据”菜单的“排序”。

第一步,用鼠标点击工作表中待分析数据的任一单元格。

第二步,用鼠标单击“数据”菜单的“排序”选项。

第三步,填写完“排序”对话框之后,按“确定”按钮即可。

例2-6 对例2-4中的数据,将10个省(市)按照人均居住现金消费支出从大到小的顺序排序。

解:选择“数据”菜单的“排序”子菜单(见图2-1-33)。

图2-1-33 “排序”界面

在“排序”对话框的“主要关键词”中输入居住,选中“降序”复选框,在“我的数据区域”中选择“有标题行”(见图2-1-34)。

图2-1-34 填写“排序”对话框

点击“确认”,得结果如图2-1-35。

图2-1-35 “排序”结果

结果表明,人均居住现金消费支出按照从高到低依次是宁夏、四川、重庆、陕西、甘肃、贵州、青海、新疆、云南、西藏。

(二)数据的整理

对数据进行整理的主要方式是统计分组,并形成频数分布。既可以用函数FREQUENCY进行统计分组,也可借助直方图工具进行统计分组。

1.用COUNTIF函数整理品质分配数列或单项式分配数列

COUNTIF函数可以汇总出各组单位数,常用于品质分配数列和单项式分配数列的编制。

例2-7 某教师所授某门课程的学生来自多个专业,数据如下。试将学生按专业分组,编制品质分配数列。

表2-1-5 学生所属专业原始数据表

解:第一步,将原始数据输入到Excel工作表中,发现学生来自市场营销、工商管理等5个专业,故先将学生按专业分为5组。如图2-1-36所示。

图2-1-36 原始数据及分组

第二步,选定F4单元格,统计财务管理专业的学生数。从“插入”菜单中选择“函数”项,或单击按钮“fx”,找到COUNTIF函数。按“确定”按钮,进入COUNTIF函数对话框,填写对话框,如图2-1-37所示。

一个是Range框,为原始数据区域框,本例中输入$A$1:$C$30,之所以采用相对引用的方式,是因为统计其他专业的人数时,需要复制该区域。

另一个是Criteria框,为确定哪些单元格将被计算在内的条件,其形式可以为数字、表达式或文本。本例的条件是“财务管理”,输入E4。

图2-1-37 填写COUNTIF对话框

第三步,按“确定”按钮即把财务管理专业的人数统计出来(为5),写到F4中,如图2-1-38所示。

图2-1-38 统计出财务管理专业的人数

第四步,选定F4单元格,运用公式复制功能,统计出其他专业的学生人数。鼠标放在F4单元格的右下角,当出现符号“+”时,按住鼠标左键向下拖拽,至F8单元格放开鼠标即把其他专业的人数写到相应的单元格中。再对结果进行修饰,即得到按专业分组的品质分配数列,如图2-1-39所示。

图2-1-39 整理得到的品质分配数列

2.用FREQUENCY函数整理单项式分配数列或组距分配数列

用FREQUENCY函数进行统计分组,要先输入样本数据,而且要排成一列,还要选定放置分组结果的单元格。

例2-8 某生产车间30名工人的日产零件数如下(单位:个),试利用函数FREQUENCY以组距为10进行等距式分组,第一组为100~110。

148、116、128、125、129、140、109、123、137、119

127、132、114、107、124、120、135、108、113、130

110、129、132、123、118、104、123、124、140、107

解:第一步,将30个数据以一列的形式输入到Excel工作表中,本例输入到A1至A30,并选定C2至C6单元格作为放置分组结果的区域。如图2-1-40所示。

第二步,从“插入”菜单中选择“函数”项,或单击“常用”工具栏右起第8个按钮fx,找到FREQUENCY函数,如图2-1-41所示。

第三步,按“确定”按钮,进入FREQUENCY函数对话框,如图2-1-42所示。

图2-1-40 输入数据

图2-1-41 选择FREQUENCY函数

图2-1-42 FREQUENCY函数对话框

第四步,填写对话框。

一个是Data_array框,为原始数据区域框,本例中输入A1:A30(见图2-1-43)。

另一个是Bins_array框,可在框中输入所分的组。FREQUENCY要求按组距的上限分组,输入的数据为比每组的上限少1的数据,不接受非数值字符的分组(如“×× 以下”“××以上”等)。由于分组结果要给出一组频数,故必须以数组公式的形式输入,即在输入数据的两端加大括号“{}”,各数据之间用分号隔开。本例输入{109;119;129;139;149}。

图2-1-43 填写FREQUENCY函数对话框

第五步,按Shift+Ctrl+Enter组合键,即将各组频数(5,6,11,5,3)记入指定的C2至C6单元格内,结果见图2-1-44。

图2-1-44 加入频数

第六步,对结果做修饰,加入分组标志及其值,再加入频数的具体名称,可得最后的分组,见图2-1-45。

图2-1-45 分组结果

3.用直方图工具整理组距式分配数列

Excel的数据分析工具中的直方图工具,可以进行统计分组,还可以计算频数和频率,绘制直方图、折线图等。其操作步骤为:

第一步,用鼠标点击表中待分析数据的任一单元格。

第二步,在Excel 2003中选择“工具”菜单的“数据分析”子菜单;在Excel 2007、Excel 2010、Excel 2013中选择“数据”菜单的“数据分析”子菜单。用鼠标双击“直方图”选项。

第三步,出现“直方图”对话框,对话框内与统计分组有关的主要选项的含义如下:

(1)输入区域:在此输入待分析数据区域的单元格范围。

(2)接收区域(可选):在此输入接收区域的单元格范围,该区域应包含一组可选的用来计算频数的边界值,这些值按升序排列。只要存在的话,Excel将统计在各个相临边界值之间的数据出现的次数(包含较大边界值,而不包含较小边界值)。如果省略此处的接收区域,Excel将在数据组的最小值和最大值之间创建一组平滑分布的接收区间。

(3)标志:如果输入区域的第一行或第一列中包含标志项(变量名),则单击“标志”复选框(前面出现√号,表示已被选定);如果输入区域没有标志项(变量名),则不需要选择该复选框,Excel将在输出表中生成适宜的数据标志。

(4)输出区域:在此框中可填写输出结果表左上角单元格地址,用于控制输出结果的存放位置。如果输出表将覆盖已有的区域,Excel会自动确定输出区域的大小并显示信息。

此外,还有柏拉图、累积百分比、图表输出等选项。通常,只是进行统计分组的话,可以不选它们。

第四步,填写完对话框后,按“确定”按钮。只选基本选项时的结果包括两列数据,第一列是数值的区间范围,第二列是数值分布的频数。