![完美统计图:Word/PPT/Excel数据可视化宝典](https://wfqqreader-1252317822.image.myqcloud.com/cover/158/44510158/b_44510158.jpg)
2.2 画统计图的准备1:选好统计表
画好统计表,要遵循两个基本原则,即“能排序就排序,能分组就分组”。
“怎样的统计表才适合画统计图?”“我是统计表,怎么就不适合画统计图?”为了说服和安抚这些声音,为了维护统计图数据大使的形象,本节聊一聊选好统计表这个话题。
统计图离不开统计表。统计表画好了,统计图才有可能画得好。统计表没画好,统计图肯定画不好。统计表是表格加数据,是画统计图的唯一来源。统计表没画好,将有损统计图数据的形象。可以说,有些不合格的统计图,根子就在于统计表没有画好。
接下来,举例说明统计表是怎样影响统计图这位数据大使形象的。
【例2-1】问:图2-2画得好吗?
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-P33_21582.jpg?sign=1739283886-t40TlXAeAP9SP6buY3ejNpH860eNtwR9-0-37f6bc21a1c4f0721edf857b26acf5b3)
图2-2 数据已排序的柱形图
答:画图2-2的统计表见表2-2。
表2-2 2020年2—4月中国邮政业务量的函件数
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-T33_21788.jpg?sign=1739283886-hCANVdF9qXyTcj2742RtiD0mXsuAY00E-0-6e85573b15861fc785859cf0547a0592)
来源:中国国家统计局
图2-2是一张柱形图,实话实说,画得不好。从绘图区看,柱形图中的3根柱子,虽然按由小到大的顺序排列,让人看了也没有不适感,但画得不规范。这张柱形图,要按时间来排序,而不是按数据来排序。由于这张画柱形图的统计表没有按时间排序,因此统计表就没有画好,统计图自然也画不好。
将表2-2中的数据按时间进行排序,得到规范的统计表见表2-3。
表2-3 2020年2—4月中国邮政业务量的函件数
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-T34_21794.jpg?sign=1739283886-bFDtNyh1wjNOXYEEvFdFUCCHnzRBrK3U-0-9018ac1567f30e0d4d9c598b28278313)
在表2-3中,邮政业务量的函件数按时间顺序排列。这样的统计表,能让人看到,在这三个月内,函件数的分布情况。
用好的统计表2-3就可以画出好的统计图,如图2-3所示。
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-P34_21585.jpg?sign=1739283886-Q9o4uIsW0wCMp9um5cr9kWs3AHO9nQfH-0-0f6a0307ac5a316c8ce04444b29ec16a)
图2-3 数据没有排序的柱形图
在图2-3中,柱形图的柱子按时间顺序排列,与统计表相比,可以让人更直观地看到在不同时间内,中国邮政业务量函件数的变化。
【例2-2】问:图2-4画得好吗?
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-P34_21586.jpg?sign=1739283886-7bEn2P2aGETYcYf0EAthn4CI7e09mg1E-0-83c8413f9b27a3fa40b60343582428f1)
图2-4 数据没有排序的柱形图
答:画图2-4的统计表见表2-4。
表2-4 2020年世界卫生组织区域新冠肺炎疫情累计确诊病例情况比较
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-T35_22707.jpg?sign=1739283886-9SI4oNwxPG5tx9D5eo6UqCckwcu7SKLr-0-86fa5694d0072d1f15fbc2e3ff4d518d)
来源:世界卫生组织 统计:截至北京时间:2020年5月23日15时32分
图2-4是一张柱形图,说实话,画得不好。柱子忽高忽低,而累计确诊病例的数据可以排序。由于统计表没有排序,因此统计表就没有画好,而统计表没有画好,图2-4自然也画不好。
将表2-4中的数据进行排序,得到规范的统计表,见表2-5。
表2-5 2020年世界卫生组织区域新冠肺炎疫情累计确诊病例情况比较
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-T35_22710.jpg?sign=1739283886-OkeZAo1xcMoAyxoFzP9mBzx2poFFirQ8-0-422221b7e1853aaf9a335d982987a767)
来源:世界卫生组织 统计:截至北京时间:2020年5月23日15时32分
在表2-5中,累计确诊病例按由少到多的顺序排列。这样的统计表,让人一眼就能看到累计确诊病例的最低点和最高点,同时,还能快捷地比较累计确诊病例在这六个区域的分布。用规范的统计表2-5就可以画出规范的统计图,如图2-5所示。
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-P36_21590.jpg?sign=1739283886-EkuONYA4TlVN753MuHJWXHLPxXKhhBJK-0-efe19b76aff6e718412739b317f56e52)
图2-5 数据已排序的柱形图
在图2-5中,柱形图的柱子由低到高排序,与统计表相比,让人更直观地看到累计确诊病例的最低点和最高点,各区域确诊病例排在什么位置也一目了然。
【例2-3】问:图2-6画得好吗?
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-P36_21591.jpg?sign=1739283886-iQMddrkakO1iUP0yyNLiUGIoHMwcUSXu-0-7e48f3c9068e9923df7c17b43480d62a)
图2-6 数据没有分组的柱形图
答:图2-6是用表2-6中的数据画的。
表2-6 2010—2019年世界诺贝尔文学奖10位得主的年龄与获奖年份
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-T36_21592.jpg?sign=1739283886-a4puUDrCtFu7ebgJThNNygeULCxmVXdJ-0-20b9daa231b5bd9d6227e712301c5367)
图2-6是一张柱形图,画得不中看。这张图,画了10根柱子,不仅让人看得眼花缭乱,而且根本就看不出年龄的分布特点。
在图2-6中,画10个年龄,画面就这样拥挤,可以设想一下,如果画更多的数据,20个、30个……甚至更多,画面又会怎样?可想而知,一定会挤成一团糟,让人一见就晕倒。
表2-6没有分组,有10个人,就有10个年龄的值,这是没有分组的资料。用表2-6的数据画出来的图2-6效果不佳,这是没有分组惹的祸。避祸趋利,可以采取分组法。按年龄分组,统计各组的人数,就能很好地呈现年龄的分布。
将表2-6中的数据按年龄进行分组,得到表2-7。
表2-7 2010—2019年世界诺贝尔文学奖10位得主的年龄分布
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-T37_21798.jpg?sign=1739283886-RMcq9f0ImqEEdACCBZSun0Oe0Os6s4jV-0-f87af1b94b965958ef32bd6b3183be57)
用好表2-7,就能画好图,如图2-7所示。
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-P37_21779.jpg?sign=1739283886-JCORUpUI7mBlSGH4cf4K09bOVtQdtfo7-0-b8300fde8db1bb1f47bb2b5bfe1f1354)
图2-7 年龄已分组的直方图
在图2-7中,年龄经过分组,分为4组,画出的直方图,其画面清爽,可以清楚地看到10位诺贝尔文学奖获得者的年龄分布情况。10年诺贝尔文学奖,10位获奖作者,以高龄者居多,都在50岁以上,60岁以上的有8人。
从以上3个例子可以看到,统计图的模样与统计表的设计直接挂钩。
在统计表中,【例2-1】不能对函件的数据排序,【例2-2】要对病例的数据排序,【例2-3】要对数据进行分组。那么,问题来了:在画统计表的时候,什么时候要对数据排序?什么时候不需要对数据排序?什么时候要对数据进行分组?什么时候不需要对数据进行分组?要回答这些问题,看一看统计表的基本框架与数据类型就一清二楚了。统计表的基本框架见表2-8。
表2-8 统计表的基本构成
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-T38_21799.jpg?sign=1739283886-i3yGXteMMPzmPEmOTHF0FH76Z6BEtrBa-0-8e707d00461913e47a5a8db4820dfee3)
在表2-8中,第一列是分类栏,包括分类的名称,以及分类的取值;第二列是数据栏,包括数据的名称和数据的取值。
在统计表中,分类的取值不同,数据的类型也不一样。数据的类型不同,直接影响到统计表中的数据是否排序,是否分组。所以,这里有必要来围观一下数据的三种类型,即时间型数据、文本型数据和数值型数据。
(1)时间型数据是指在统计表中,当分类的取值为时间时,那么统计表的数据为时间型数据。时间的形式,有年、月、日等。在时间型数据中,数据不排序。
比如,【例2-1】就是时间型数据的统计表。其分类的名称为“月份”,分类的取值为“2月、3月、4月”。数据的名称为“函件数”,数据的取值为“1.0、1.5、1.2”。“函件数”的数据不排序。
(2)文本型数据是指在统计表中,当分类的取值为文本时,那么统计表的数据为文本型数据。文本的形式,如文字、没有计算含义的数字等。在文本型数据中,数据能排序就排序。当分类取值的排列没有固定顺序时,数据就要排序;当分类取值的排列有固定顺序时,数据就不能排序。
比如,【例2-2】就是文本型数据的统计表。其分类的名称为“区域”,分类的取值为“东南亚、非洲、欧洲、美洲、东地中海、西太平洋”。数据的名称为“累计确诊病例”,数据的取值为一串数值。由于六大区域的排列没有固定顺序,谁都可以排名第一,所以“累计确诊病例”的数据就要排序。
(3)数值型数据是指在统计表中,当分类的取值为数值时,那么统计表的数据为数值型数据。分类的数值有实际含义。在数值型数据中,数据能分组就分组,分组后的数据不能排序。
比如,【例2-3】就是数值型数据的统计表。其分类的名称为“年龄”,分类的取值为“50—60、60—70、70—80、80—90”。数据的名称为“人数”,数据的取值为一串数值。由于“年龄”是分组数据,组与组之间有固定顺序,所以“人数”的数据不能排序。
显然,在统计表中,数据是否排序,与数据的类型有关。
对于时间型数据,数据不能排序。
对于文本型数据,数据能排序就排序。
对于数值型数据,数据能分组就分组,分组后的数据不能排序。
只有画好了统计表,画好统计图才有希望。
从没有分组的数值型数据到分组的数值型数据,这是一个技术活儿,下面以【例2-4】加以说明。
【例2-4】怎样整理年龄资料?
新华网收录了1901—2019年世界诺贝尔文学奖116位得主的年龄等资料。整理这些年龄资料的结果如图2-8所示。
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-P39_2689.jpg?sign=1739283886-XlDx3MVwHf2csqSyn6ICbwq1OtooE4Nf-0-8772861917c377d4fae089db554b2c3e)
图2-8 整理年龄的过程
对图2-8整理年龄的说明如下。
(1)准备。调出Excel 2010“数据分析”工具。其步骤为:右击“文件”按钮,在弹出的菜单中选择“自定义功能区”选项,在弹出的“Excel选项”对话框中,先选择“加载项”选项,再单击“转到”按钮,在弹出的“加载宏”对话框中分别勾选“分析工具库”和“分析工具库-VBA”复选框,最后单击“确定”按钮。这时,在“分析”这一组,“数据分析”工具闪亮登场。
(2)整理年龄的步骤如下。
第1步,录入数据与排序。对“年龄(岁)”排序,结果如图2-8中的第1步所示。
第2步,分组。对年龄分成5个组,并列出各组的最大值,结果如图2-8的第2步所示。
第3步,汇总并计算。对各组年龄的人数进行汇总并计算构成比,结果如图2-8的第3步所示。汇总各组年龄人数的过程为:单击“数据”选项卡,在“分析”这一组单击“数据分析”命令,在弹出的“数据分析”对话框中选择“直方图”选项,单击“确定”按钮,在弹出的“直方图”对话框中,在输入区域的文本框中输入“D5:D120”,在接收区域的文本框中输入“F5:F9”,单击“输出区域”单选按钮并输入G4,最后单击“确定”按钮,得到汇总的结果。计算各组的总和,并计算各组的构成比。
第4步,列出年龄分布的统计表,结果见表2-9。
表2-9 1901—2019年世界诺贝尔文学奖116位得主的年龄分布
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-T40_21784.jpg?sign=1739283886-iuCIk4ro2cprbLZmkkAaYIJCGU7G1ADS-0-555a27a497385534267f7a56d8e5f823)
第5步,画出年龄分布的统计图,结果如图2-9所示。
![](https://epubservercos.yuewen.com/A04543/23721477701896206/epubprivate/OEBPS/Images/Figure-P40_21800.jpg?sign=1739283886-Yv0UFaoXkzXwOaJeI2RPr90jVkuF0GhG-0-47823f27ac8848018977073a028ec95e)
图2-9 年龄分布的直方图
从【例2-1】和【例2-2】可以看到,在画统计图时,“数据能排序就排序”的重要;从【例2-3】可以感受到,在画统计图时,“数据能分组就分组”的不可缺少,从【例2-4】可以发现,在画统计表前,“数据能整理就整理”的美妙。
这里,问题又来了:用【例2-1】和【例2-2】的数据画的是柱形图,用【例2-3】和【例2-4】的数据画的是直方图,那么,柱形图和直方图,这些统计图的选择有什么讲究吗?这个问题来得及时,因为这正是下一节的重点。