机读格式显示(MARC)
- 000 01787nam0 2200337 450
- 010 __ |a 978-7-121-40368-2 |d CNY99.00
- 021 __ |a CN |b 01-2020-3391
- 049 __ |a O440105GDY |b UCS01010382005 |c 3004266055
- 100 __ |a 20210403d2021 em y0chiy50 ea
- 200 1_ |a 深入大型数据集 |A Shen Ru Da Xing Shu Ju Ji |b 专著 |e 并行与分布化Python代码 |d Mastering large datasets with Python |e parallelize and distribute your Python code |f (美)John T. Wolohan著 |g 张若飞译 |z eng
- 210 __ |a 北京 |c 电子工业出版社 |d 2021
- 215 __ |a 20,300页 |c 图 |d 24cm
- 314 __ |a 责任者Wolohan规范汉译姓:沃勒翰
- 330 __ |a 本书共分3部分,主要介绍如何使用Python语言来处理大型数据集,第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度,第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型,第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。
- 510 1_ |a Mastering large datasets with Python |e parallelize and distribute your Python code |z eng
- 517 1_ |a 并行与分布化Python代码 |A Bing Xing Yu Fen Bu Hua Python Dai Ma |9 bing xing yu fen bu hua Python dai ma
- 606 0_ |a 软件工具 |A Ruan Jian Gong Ju |x 程序设计
- 701 _0 |c (美) |a 沃勒翰 |A Wo Le Han |c (Wolohan, John T.) |4 著
- 702 _0 |a 张若飞 |A Zhang Ruo Fei |c (程序设计) |4 译
- 801 _2 |a CN |b OLCC |c 20210601
- 801 _2 |a CN |b O440105GDY |c 20210403
- 905 __ |a XATU |d TP311.561/479