大数据测试技术:数据采集、分析与测试实践(在线实验+在线自测)
上QQ阅读APP看书,第一时间看更新

1.1 规律是否存在

今天人们正面临着急速的数据膨胀,2003年人类创造的数据还仅有1018个字节,到2012年,数据已多达1021个字节,2015年的全球数据是2012年数据的8倍,而预计到2020年,全球数据将达到44ZB个字节(1ZB=10万亿亿字节)。事实上,大数据时代已经来临,基于大数据分析的各种应用正改变着人们的社会、生活和工作,也为企业带来了新的商业发展机遇。例如2012年12月12日,淘宝网推出了“时光机”,根据淘宝买家几年来的商品购买记录、浏览点击次数、收货地址等数据编辑制作了“个人网购日志”。该日志就是基于对4.7亿淘宝注册用户网购数据的分析实现的,是一个经典的大数据应用。

目前,越来越多的公司将数据当作一种重要的战略资源,进行数据储备和数据分析。与以往不同,在大数据时代,人们对数据的认识和处理方式发生了新的转变。过去,人们将数据看作是静止的、陈旧的,数据之间是无关联的,对数据的处理仅限于简单的查询和分类统计,并以此得出一些人们自认为存在的规律。然而,事实上,当人们对海量数据进行分析之后,往往会发现某些规律根本不存在

例如对一个物流仓库数据进行收集,希望发现并预测仓库中的哪些商品会延期交货,在开始阶段收集到的需要延期交货的数据如表1.1所示。

根据以往的经验,人们通常认为库存为零,或者库存较少,但未来预期销售较多,而运输数目又少的产品极可能出现延期交付现象。而且表1.1中的数据也恰恰符合这种认识。然而,当获得了10万条库存记录后,会发现其中许多库存数量大的商品也会延期交付。表1.2显示了部分库存量较大且会产生延期交付的产品数据。

表1.1 开始阶段收集到的需要延期交货的数据

表1.2 部分高库存且会产生延期交付的产品数据

另外,通过对不需要延期交货的数据进行统计,还会发现大量库存少的产品不会延期交付,如表1.3所示。

表1.3 库存少但不需要延期交付的产品数据

过去,人们形成的“经验”往往是基于非大规模数据的总结,而当数据规模达到一定数量时,原来的“经验”就变得不一定准确。比如基于大数据分析之后,Alpha Go曾下出了人类长期以来认为是亏损的棋路。