前言
写作背景
为什么要写这本书?
笔者在过去数年间,一直从事云计算、大数据、高性能存储与计算系统架构的前瞻性研发,以及中外合作交流等工作。
回想当初的创作初衷,笔者时常遇到行业内外的人对云计算与大数据有五花八门的观点、需求与问题,并且发现有些观点、看法与理解是被“误导”的。很多业务需求和对问题的理解与抽丝剥茧后的事实本质有较大偏差,久而久之笔者就有了结合云计算与大数据两大主题写书的想法。
至于本书内容,笔者先举几个例子。
(1)大数据之深入人心是近些年的事情,街头巷尾可谓尽人皆知,只要说是做大数据的,人家一定问你是做Hadoop的吗。于是乎,你要不是专攻Hadoop的,你都不好意思跟人家说你在做大数据。那么Hadoop能解决所有的大数据问题吗?答案是当然不能。本书将详细说明为什么大数据不仅仅只是Hadoop技术。同样地,伴随着Spark的兴起(及对Hadoop的替代),很多人觉得Spark是数据处理的“天花板”,这种认知的局限性也必将随着Spark在未来的逐步衰落而暴露出来。此外,对大数据的“误解”还体现在把数据量作为衡量大数据技术或产品的标准,而忽略了数据产生与处理速度、数据多样性、数据多维性、数据真实性、数据可校验性等其他同样重要的维度的标准。特别是在人工智能与大数据相结合的当下,能否智能、高效、灵活地处理海量、多维、多源、多模的数据才是衡量一个“大数据”系统的“金”标准。
(2)云计算比大数据要早四五年出名,从个人到企业到政府全都蜂拥而来,市场上名头最响的就是那些公有云的服务提供商了,于是有一种普遍性的观点——不做公有云的(比如私有云、混合云)就没有掌握云计算的核心科技。事实并非如此!单纯从体量(部署规模、服务客群规模)上判断“哪朵云”更优是有失全面性的——按照这个思路,只有大公司才具备创新的能力,那就不会有硅谷,不会有中关村,也不会成长出一批诸如微软(Microsoft)、苹果(Apple)、谷歌(Google)、亚马逊(Amazon),以及国内的BAT [百度(Baidu)、阿里巴巴(Alibaba)、腾讯(Tencent)]的企业。此外,若只唯体量论,这个行业很快就会消亡——体量从来都不是决定先进性的因素。本书将从行业与科技发展的来龙去脉讲起,用数据与事实说话,为大家讲述“云层”下的故事。
(3)对于软件化与商业化硬件平台,市场上一种普遍的观点认为软件的能力与灵活性无限,而硬件的价值创新已经无足轻重。于是所有的数据中心中全面铺设的是基于X86架构的商用硬件平台。此种做法值得商榷,笔者有两个观点:软件的能力极限是受到底层硬件限制的;商用硬件架构显然不能解决所有的业务问题,并且也不是最好(效率最高、性价比最高)的解决之道。在本书中,笔者对商品现货的叫法提出了一种不同的看法:VDH(Volume-Discounted Hardware,直译为批量折扣的硬件),本质上这才是“互联网+”时代的商业硬件的最终形态——多买多折扣。
此外,分布式系统的发展与云计算和大数据的蓬勃发展紧密交织。截至目前,仅中国市场就有超过200家“国产数据库”厂商,且绝大多数都对外宣称其产品为分布式数据库系统。然而在表象之下,95%的厂商都是基于开源甚至是依赖海外商业数据库公司的社区版来实现其产品的。虽然技术实现方面各有千秋,但笔者认为,中国要在基础科学研究方面取得引领性原创成果的重大突破,就必须欲致其高、必丰其基,不断在自立自强中实现新的跃升。
一个光怪陆离的现象频繁出现。这些分布式系统厂家给市场形成了一个认知:用低配的硬件,不但可以存得下海量的数据,还能算得很快。这里面存在着极大的误区:浅层计算,分布式可以很好解决,靠堆机器可以获得高并发、服务更多的客户;深层计算,分布式只会适得其反,效率会指数级地低于集中式系统架构,这个时候需要一些更灵活、创新的架构来实现对分布式与集中式架构的融合。
那么,随着云计算和大数据的风起云涌,我们今天各行各业遇到的挑战与机遇到底是什么?是云计算或大数据系统体系架构的设计与实现,还是最终应用的设计与交付,或是以上两大问题之间各层平台化服务架构的整合与搭建?笔者结合工作实践中的一些真实经历,对颇具代表性的问题进行了剖析,分享了一些经验,希望对读者的学习、工作与生活能有所助益。
本书内容
本书以真实的案例和数据为基础,力求理论联系实际,尽量避免深奥的理论推导,尽可能通俗易懂地讲述云计算和大数据知识。
全书共分5章,分别是揭秘云计算、揭秘大数据、云计算与大数据体系架构剖析、云计算与大数据进阶、大数据应用与云平台实战。
第1章揭秘云计算,着重介绍云计算发展历程、与传统IT比较而言云计算的特质、云与业务需求的互动关系、云多重形态的存在与各自的特质,剖析了不同类型云的效率并进行比较,最后介绍了基于开源项目的云平台及服务的搭建。
第2章揭秘大数据,开篇介绍了大数据的前世今生,并针对当下对大数据较为普遍的误解进行澄清;然后针对大数据所要解决的五大问题(大数据存储、大数据管理、大数据分析、数据科学与大数据应用)逐一进行剖析;最后阐述了数据科学的本质,并从平台与应用这两个维度来分析如何构建大数据的解决方案。
第3章云计算与大数据体系架构剖析,首先从开源与闭源两个角度阐述了业界的软件定义趋势、商用硬件趋势,并预言了硬件回归的必然趋势;然后从4个层面剖析了云计算与大数据领域的技术之争——底层存储、基础设施即服务、平台即服务、应用。
第4章云计算与大数据进阶,给读者讲述在云计算与大数据时代做什么,怎么做才是对的,其中内容包括靠近应用、水平可扩展、如何玩转开源、怎么做服务驱动的技术架构与运营。
第5章大数据应用与云平台实战,结合业界的具体实践讲解了两个平台建设的案例——一个是大数据平台的搭建,另一个是混合云平台的搭建,其中还深入详解了关于风控等应用场景的实践案例。
读者对象
本书的读者对象包括:
• 云计算、大数据相关项目与产品的开发者、使用者、决策者;
• 云计算、大数据技术的兴趣爱好者;
• 没有限制性思维、秉承终身学习信念的人。
订正遗漏与错误
由于笔者水平有限,书中难免有错误或表达不准确之处,敬请读者指正。欢迎发送邮件至邮箱Ricky@ultipa.com,期待能够得到朋友们的真挚反馈。
致谢
本书的出版,起源于笔者过往的经历,这其中包括于2016年出版的《云计算与大数据》一书,以及这些年又积累的大量的工程实践心得、技术理论文章、教研交流的幻灯片等资料。此次重写,笔者秉承与时俱进与推陈出新的理念,结合了学界和工业界最新的研究成果,以及个人和团队的实践总结,希望能够以书会友,与大家做更多的探讨。
回首顾盼,那阑珊处。6年前《云计算与大数据》首版付梓的情景还历历在目,在此要特别感谢人民邮电出版社的编辑邹文波先生和我的岳父刘君胜先生——犹记当年,本书能够从无到有、顺利面市,完全得益于他们的积极策划与耐心帮助。
感谢EMC中国研究院、卓越研发集团及嬴图团队的朋友们和同事们,他们此前很多的相关科研探索及产品开发工作都为本书提供了翔实的数据及资料。他们是王昊先生、张建松先生、林晓芳女士、曹逾博士、Michelle Lei女士。感谢嬴图团队的张磊女士和孙婉怡女士对本书的精心整理和编修工作。
孙宇熙
2023年1月