西安工业大学图书馆书目检索系统

MARC状态：审校文献类型：中文图书浏览次数：23

并列正题名:: Mastering large datasets with Python:parallelize and distribute your Python code

提要文摘附注:: 本书共分3部分，主要介绍如何使用Python语言来处理大型数据集，第1部分介绍map和reduce编程风格，以及Python中基础的map和reduce函数，并介绍如何将对象持久化，通过惰性函数和并行函数来加快大型数据集的处理速度，第2部分介绍Hadoop和Spark框架，以及如何使用mrjob库来编写Hadoop作业，如何实现PageRank算法，如何使用Spark来实现决策树和随机森林的机器学习模型，第3部分重点介绍云计算和云存储的基础知识，包括如何通过boto3的Python库将文件上传到AWS S3服务，以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。

全部MARC细节信息>>

显示全部馆藏信息

西安工业大学图书馆书目检索系统

Online Public Access Catalogue