SAS技术内幕:从程序员到数据科学家
上QQ阅读APP看书,第一时间看更新

序言

《SAS技术内幕:从程序员到数据科学家》是值得一读的数据分析技术入门佳作。这本书是数据分析领域资深专家为融合程序员和统计分析人员不同视角而编写,给读者在计算机程序设计世界和数据分析世界之间架起一座桥梁。

我在北京大学计算机系从事计算机教学和科研几十年,所主讲的“数据结构与算法”被评选为国家级精品课程。图灵奖获得者尼古拉斯·沃斯(Niklaus Wirth)提出“程序=算法+数据结构”,而计算机语言则是构建程序世界的主要工具。在计算机编程语言世界里,除了汇编、C/C++和Java/C#等主流通用语言外,还有很多面向特定领域的高级语言,如SAS、R和MATLAB等。我一直鼓励学生们开阔视野,多接触一些工业界的专业工具和编程语言,不要局限在C/C++等通用语言的框架里。在这些专用语言的背后,往往蕴含特定的领域思维和设计哲学,基于专业人士在处理领域问题时积累的丰富经验进行了极其灵活的设计,专用语言的这些特性往往是通用编程语言所不考虑也不具备的。

近些年来,数据分析和商业智能发展迅猛,大数据和人工智能在学术界和产业界都生机勃勃。学术界科研人员注重的是引领世界科技发展的超前研究,在理论和创新方面有独到之处。工业界是前沿技术的成熟应用,学术界在培养应用型人才方面需要考虑工业界的真实需求。因此,北京大学很早就与全球数据分析行业的领导者SAS合作,开设了面向研究生和高年级本科生的统计分析选修课程“统计分析与商务智能”,取得了非常好的教学效果。SAS是全球数据分析领域的领导者,它们以创新的软件和服务,在数据分析、商业智能、数据管理等领域耕耘四十余年,一直秉持的理念就是提供“慧识力量”(The Power to Know®),使用户能够对海量数据深入了解并获得洞见和价值(Insight & Value),为企业的运营发展提供决策利器。

如果按照数据的生产和消费进行划分,大部分应用软件和系统,包括互联网社交媒体和电子商务都在大量制造数据,这一进程经过信息化时代和互联网时代已经得到充分体现。如何消费这些数据却催生了其他软件系统的发展,它们包括各种分析系统如商业智能(BI)、决策系统、专家系统和人工智能系统(AI)等。近些年来数据分析在公众媒体眼中变得非常热门,原因就是分析利用数据并从中获取价值在“信息化时代”和“互联网时代”之后的“大数据时代”变得尤为迫切。在过去的几年中,处理数据、对数据进行可视化分析、理解数据,跟数据进行沟通、深入探索,并从中获得价值,这些过程已经变得极为重要。在软件领域,数据分析将是21世纪头十年经过商业智能产业大并购之后的下一个蓝海!不过,蓝海中不再是程序员划着小船在徜徉,而是数据科学家们开着利舰遨游在大数据的海洋之上。

现实已经告诉我们,计算机程序员需要在程序员思维之外,尽快拥有数据分析思维,华丽转身成为数据科学家!文本分析、语音识别、神经网络、人工智能、自动驾驶等各种最新最热门的数据分析领域,说到底需要的是强大的综合能力,包括良好的计算机编程技能(Programming)、扎实的数学和统计知识(Mathematics & Statistics)、专业的业务领域知识(Business)以及与数据来源和消费方良好的沟通技能(Communication)等。除具备良好的编程能力和丰富的数据库知识之外,如果程序员掌握像SAS这样一种严谨且专门面向数据分析的语言,拥有扎扎实实修炼数学和统计分析的能力,那就能让自己站在数据分析的最前沿。

罗马不是一天建成的!但阅读本书将使普通的程序员也能快速入门SAS语言并以最简洁的方式掌握SAS编程核心,实现向优秀数据科学家的华丽转身!

北京大学信息科学技术学院

博士生导师、教授

张 铭

2018年8月