《Scala: 数据科学专业人士指南》是一本专为数据科学家设计的手册,深入浅出地介绍了如何运用Scala语言进行高效的数据处理与分析。该书不仅涵盖了Scala的基本语法和编程技巧,还详细探讨了如何结合Spark等工具优化大数据应用开发流程,助力读者在数据科学领域大展拳脚。
《Scala:数据科学专业人士指南(学习路径)》ASIN:B06XCJVY21, eISBN: 1787282856 | 2017 | 真实PDF格式 | 1100页 | 15 MB
Scala将是您在数据科学研究旅程中的宝贵工具,适用于从数据清理到前沿机器学习的各个方面。
关于本书
- 轻松构建数据分析和数据工程解决方案。
- 深入探讨每个阶段的数据分析过程——从读取和收集数据到分布式分析。
- 通过图表、数学公式及源代码探索广泛的处理方法、机器学习算法以及遗传算法。
谁适合阅读本书?
这本书非常适合熟悉Scala编程,并希望进入数据科学领域的读者。需要具备一定的统计学知识。
您将学到什么
- 转换并过滤表格数据以提取用于机器学习的特征。
- 读取、清理和转换SQL及NoSQL数据库中的数据,以及写入这些数据库中。
- 使用JavaScript库(如D3)创建引人注目的交互式可视化图表构建Scala Web应用程序。
- 轻松地从HDFS和HIVE加载数据
- 在Spark上运行流分析与图分析以进行探索性研究
- 通过部署到各种集群管理器中打包并扩展Spark作业的规模。
- 构建用于科学计算的动力工作流程。
- 利用开源库提取时间序列中的模式。
- 掌握处理顺序数据的概率模型。
Scala尤其擅长于大规模数据分析,因为无论任务规模如何都不会显著影响其性能。Scala强大的函数式库能够与数据库交互并构建可扩展框架——从而创建稳健的数据管道。
第一模块将向您介绍用于摄取、存储、操作和可视化数据的Scala库。通过真实世界的示例,您将学习从简单的并发结构到演员系统及Apache Spark等技术设计处理和建模数据的可扩展架构的方法,并且还将了解如何使用Web框架构建交互式可视化。
一旦熟悉了所有与数据分析相关的任务,第二模块则会引导您探索用Scala进行的数据分析。通过易于遵循的食谱,您可以学习如何利用Bokeh绑定进行探索性数据分析以及使用Spark ML库实现机器学习的经典算法。此外还会深入了解Spark流处理、用于数据流的机器学习和Spark图X。
有了坚实的数据分析基础后,第三模块将引导您进入最前沿的数据科学领域——机器学习。本部分涵盖了用Scala编写从依赖注入到隐式转换等各个方面来撰写机器学习算法的知识,并且还将探讨诸如聚类、维度降低、朴素贝叶斯分类器、回归模型、支持向量机(SVM)、神经网络等等主题。
这个学习路径汇集了Packt出版的最佳内容,为您提供了一个完整的解决方案包。它包含一系列涵盖有趣的数据分析任务的食谱集,帮助您使用Scala彻底改变数据处理技能。