MARC状态:审校 文献类型:中文图书 浏览次数:40
- 题名/责任者:
- 数据清洗与ETL技术/冯广主编
- 出版发行项:
- 北京:清华大学出版社,2022
- ISBN及定价:
- 978-7-302-60081-7/CNY48.00
- 载体形态项:
- 12,215页:图;26cm
- 丛编项:
- 大数据系列丛书
- 个人责任者:
- 冯广 主编
- 学科主题:
- 数据处理
- 中图法分类号:
- TP274
- 提要文摘附注:
- 本书分为6章,采用理论知识与项目教学的方式组织内容。第1章为绪论,由大数据切入,介绍大数据的基本概况,进而引入ETL,且对这3个过程做了整体说明,接着引入本书的个入门案例,利用ETL技术对论文中的年份进行处理。第2章引入ETL的个过程(数据抽取),详细介绍数据抽取的方式,紧接着对各种形式下的数据源抽取进行分类介绍,后在Windows和Linux环境下搭建MySQL,且对此进行数据抽取操作。第3章为数据转换,介绍数据转换的基本知识点,并对数据转换工具进行详细说明,后将Kettle安装及其部署作为本章的一个案例,并利用Kettle工具对某一文件的错误行进行统计并生成日志。第4章为数据加载,介绍数据加载的基本理论知识,然后搭建数据仓库,后对几种环境下的数据进行加载分析。第5章为ETL在大数据下的实现,讲解ETL在Spark、Hive、Sqoop这3种环境下的实现,并搭建Hadoop伪分布式集群,后利用Sqoop实现ETL过程。第6章为案例分析,讲解ETL在高校大数据建设、反洗钱系统、商业智能(BI)和电信领域内的应用及其实现。
全部MARC细节信息>>
索书号 | 条码号 | 年卷期 | 馆藏地 | 书刊状态 | 还书位置 |
TP274/961 | CN1896284 | ![]() |
阅览 | 内阅图书 | |
TP274/961 | CN1896285 | ![]() |
可借 | 未央馆 | |
TP274/961 | CN1896286 | ![]() |
可借 | 未央馆 |
显示全部馆藏信息