机读格式显示(MARC)
- 000 01710nam0 2200301 450
- 010 __ |a 978-7-302-60081-7 |d CNY48.00
- 049 __ |a A330300WZL |b UCS01011016384 |c 2005634484
- 100 __ |a 20220531d2022 em y0chiy50 ea
- 200 1_ |a 数据清洗与ETL技术 |A Shu Ju Qing Xi Yu Etl Ji Shu |f 冯广主编
- 210 __ |a 北京 |c 清华大学出版社 |d 2022
- 215 __ |a 12,215页 |c 图 |d 26cm
- 225 2_ |a 大数据系列丛书 |A Da Shu Ju Xi Lie Cong Shu
- 330 __ |a 本书分为6章,采用理论知识与项目教学的方式组织内容。第1章为绪论,由大数据切入,介绍大数据的基本概况,进而引入ETL,且对这3个过程做了整体说明,接着引入本书的个入门案例,利用ETL技术对论文中的年份进行处理。第2章引入ETL的个过程(数据抽取),详细介绍数据抽取的方式,紧接着对各种形式下的数据源抽取进行分类介绍,后在Windows和Linux环境下搭建MySQL,且对此进行数据抽取操作。第3章为数据转换,介绍数据转换的基本知识点,并对数据转换工具进行详细说明,后将Kettle安装及其部署作为本章的一个案例,并利用Kettle工具对某一文件的错误行进行统计并生成日志。第4章为数据加载,介绍数据加载的基本理论知识,然后搭建数据仓库,后对几种环境下的数据进行加载分析。第5章为ETL在大数据下的实现,讲解ETL在Spark、Hive、Sqoop这3种环境下的实现,并搭建Hadoop伪分布式集群,后利用Sqoop实现ETL过程。第6章为案例分析,讲解ETL在高校大数据建设、反洗钱系统、商业智能(BI)和电信领域内的应用及其实现。
- 410 _0 |1 2001 |a 大数据系列丛书
- 606 0_ |a 数据处理 |A Shu Ju Chu Li
- 701 _0 |a 冯广 |A Feng Guang |4 主编
- 801 _2 |a CN |b OLCC |c 20220804
- 801 _2 |a CN |b A330300WZL |c 20220602
- 801 _0 |a CN |b WT |c 20220602
- 905 __ |a XATU |d TP274/961