机读格式显示(MARC)
- 010 __ |a 978-7-111-52750-3 |d CNY99.00
- 021 __ |a CN |b 01-2015-4153
- 099 __ |a CAL 012016045990
- 100 __ |a 20160419d2016 ekmy0chiy50 ea
- 200 1_ |a 基于R语言的自动数据收集 |A ji yu R yu yan de zi dong shu ju shou ji |e 网络抓取和文本挖掘实用指南 |f (德) 西蒙·蒙策尔特 ... [等]著 |d = Automated data collection with R |e a practical guide to web scraping and text mining |f Simon Munzert ... [et al.] |g 吴今朝译 |z eng
- 210 __ |a 北京 |c 机械工业出版社 |d 2016
- 215 __ |a XV, 366页 |c 图 |d 26cm
- 225 2_ |a 数据科学与工程技术丛书 |A shu ju ke xue yu gong cheng ji shu cong shu
- 304 __ |a 题名页题其他责任者:(德) 克里斯蒂安·鲁巴(Christian Rubba), (德) 彼得·迈博纳(Peter Mei?ner), (德) 多米尼克·尼胡斯(Dominic Nyhuis)
- 306 __ |a 本书中文简体字版由约翰-威利父子公司授权机械工业出版社独家出版。
- 320 __ |a 有书目 (第360-366页)。
- 330 __ |a 本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评
- 333 __ |a 程序设计相关人员些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
- 410 _0 |1 2001 |a 数据科学与工程技术丛书
- 510 1_ |a Automated data collection with R |e a practical guide to web scraping and text mining |z eng
- 517 1_ |a 网络抓取和文本挖掘实用指南 |A wang luo zhua qu he wen ben wa jue shi yong zhi nan
- 606 0_ |a 程序语言 |A cheng xu yu yan |x 程序设计
- 606 0_ |a 数据采集 |A shu ju cai ji
- 701 _1 |a 蒙策尔特 |A meng ce er te |g (Munzert, Simon) |4 著
- 701 _1 |a 鲁巴 |A lu ba |g (Rubba, Christian) |4 著
- 701 _1 |a 迈博纳 |A mai bo na |g (Mei?ner, Peter) |4 著
- 701 _1 |a 尼胡斯 |A ni hu si |g (Nyhuis, Dominic) |4 著
- 702 _0 |a 吴今朝 |A wu jin zhao |4 译
- 801 _0 |a CN |b NJU |c 20160420
- 905 __ |a XATU |d TP312R/13