1.1.1 数据管理技术的发展
数据管理技术是指人们对数据进行收集、存储、分类、计算、加工、检索和传输的一系列活动的总和,先后经历了人工管理、文件系统和数据库系统3个阶段。
1.人工管理阶段
20世纪50年代中期之前,当时的计算机硬件是没有直接存取的存储设备,外存只有磁带、卡片和纸带,软件方面还没有操作系统,当时的计算机主要用于数值计算,由于没有相应的管理数据软件,用户需要对数据的存储结构、存取方法和输入/输出方式等进行设计。计算机内一组数据只对应一个应用,数据仅依赖特定的应用,不具备数据独立性和共享性。
2.文件系统阶段
20世纪50年代后期至60年代中期,计算机软硬件技术有了一定发展,应用范围也逐步扩大。计算机不仅用于科学计算,还大量用于管理工作。这一时期的数据处理技术是把计算机中的数据组织成相互独立的被命名的数据文件,可以进行按名访问,按记录存取。数据可以长期保存在外存上,可以对数据进行反复处理,并支持文件的查询、修改、插入和删除等操作,这就是文件系统。但往往一个数据文件是基于一个特定的应用,不同的应用即使有部分相同的数据,也是不能共享的,因此数据冗余度大,浪费存储空间。更严重的是,由于相同的数据重复存储,不能统一管理,容易造成数据的不一致。
3.数据库系统阶段
20世纪60年代后期,计算机用于管理的规模越来越大,应用范围也越来越广泛,这一时期计算机性能得到进一步提高,出现了大容量磁盘,存储能力大大增加且价格下降。在此基础上,以文件系统为管理数据的手段已经不能满足应用的需求。为了解决多个用户、多个应用共享数据的要求,使数据能够为尽可能多的应用提供服务,这就出现了数据库技术和专门管理数据的软件——数据库管理系统。在数据库管理系统中,数据面向全局,成为多个用户、多个应用程序共享的资源,并完全从应用程序中独立出来,由数据库管理系统统一管理。
半个多世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。早在1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中明确指出“数据就是财富”的观点,极大地赞扬大数据为“第三次浪潮的华彩乐章”。不过,直到2008年“大数据”这个概念才被正式提出。所谓大数据,这里给出一个定性的描述:大数据是指无法使用传统的软件技术和工具在一定时间内完成获取、管理和处理的数据集。它代表信息技术发展到了一个新的时代,信息爆炸给传统的计算技术和信息技术带来了困难与挑战。
进入21世纪,在物联网环境下,传感器、智能手机等都在产生海量数据,互联网上的多媒体数据量也在以指数级增长,现有的关系型数据库和SQL等数据库处理技术很难有效处理这些半结构化或非结构化的数据。如何对这些数据进行收集、存储、处理和分析,已经引起全世界的广泛关注,成为目前信息技术发展的主要潮流。大数据技术发展的主要推动力得益于计算机硬件和软件技术的快速发展,以及各企业对大数据处理需求的迅猛增长。其中,最直接的推动因素是Google公司发明的MapReduce大规模数据分布存储和并行计算技术,以及Apache推出的开源Hadoop MapReduce并行计算系统,使得过去只有一部分研究机构和大企业才可能做到的大数据分析,现在很多企业只需要极小的成本和时间就可以完成。除了MapReduce外,人们还研究并开发了众多新技术和新系统,如NoSQL和NewSQL数据管理系统。
总之,如何更好地分析和利用大数据,是决定许多企业成功和科学研究取得进展的关键。未来数据管理领域的发展趋势必然是各类技术相互借鉴、融合与发展的。