软件下载站,为您提供安全的软件下载!

当前位置:首页 > 电脑专区 > 应用软件 > 电子阅读 > 写给程序员的数据挖掘实践指南pdf中文版

写给程序员的数据挖掘实践指南pdf中文版

分享到:
写给程序员的数据挖掘实践指南是介绍写给程序员的一本数据挖掘指南,可以帮助读者动手实践进行数据挖掘、集体智慧并构建推荐系统。全书共8章,介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容。全书采用做中学的方式,用生动的图示、大量的表格、简明的公式,实用的Python代码示例,阐释数据挖掘的知识和技能。每章还给出了习题和练习,帮助读者巩固所学的知识。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。大多数数据挖掘的教材都专注于介绍理论基础,因而往往难以理解和学习。
本书专注适合对数据挖掘、数据分析和推荐系统感兴趣的程序员及相关领域的从业者阅读参考;同时,本书也可以作为一本轻松有趣的数据挖掘课程教学参考书。
写给程序员的数据挖掘实践指南

写给程序员的数据挖掘实践指南编辑推荐:

大多数数据挖掘的教材都专注于介绍理论基础,因而往往难以理解和学习。
本书是介绍写给程序员的一本数据挖掘指南,可以帮助读者动手实践进行数据挖掘、集体智慧并构建推荐系统。
本书作者采用在实践中学的方式,提供了Python的代码和案例,详细介绍如何应用数据挖掘技术,开发出实用的推荐系统。
本书英文版在网络上放出样章,得到很多业内知名人士的推荐和好评。
知名技术译者王斌老师译作,翻译质量上乘
数据挖掘一般是指通过算法搜索隐藏于大量的数据之中的信息的过程。众多的数据挖掘教材都专注于介绍理论基础,因而往往难以理解和学习。
这本书是专门写给程序员的一本数据挖掘指南,可以帮助读者动手实践,进行数据挖掘、应用集体智慧并构建推荐系统。
全书共8章,介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容;用生动的图示、大量的表格、简明的公式以及实用的Python 代码示例,阐释数据挖掘的知识和技能。
每章还给出了习题和练习,帮助读者巩固所学的知识。
本书采用"在实践中学习"的思路来组织内容。建议读者不是被动地阅读本书,而是通过课后习题和本书提供的Python代码进行实践。此外,读者还应当积极参与到数据挖掘技术的编程实践中。
本书适合对数据挖掘、数据分析和推荐系统感兴趣的程序员及相关领域的从业者阅读参考;同时,本书也可以作为一本轻松有趣的数据挖掘课程教学参考书。本书由一系列互为基础的小的知识点累积而成,学完本书以后,能够为理解数据挖掘的各种技术打下坚实的基础。
读者可通过http://guidetodatamining.com/ 或http://www.epubit.com.cn 获取本书相关资源。

写给程序员的数据挖掘实践指南作者简介:

Ron.Zacharski是一名软件开发工程师,曾在威斯康辛大学获美术学士学位,之后还在明尼苏达大学获得了计算机科学博士学位。博士后期间,他在爱丁堡大学研究语言学。正是基于广博的学识,他不仅在新墨西哥州立大学的计算研究实验室工作,期间还接触过自然语言处理相关的项目,而该实验室曾被《连线》杂志评为机器翻译研究领域翘楚。除此之外,他还曾教授计算机科学、语言学、音乐等课程,是一名博学多才的科技达人。
王斌,博士,中国科学院信息工程研究所研究员,博士生导师,中国科学院大学兼职教授,研究方向为信息检索、自然语言处理与数据挖掘。主持国家973、863、国家自然科学基金、国际合作基金、部委及企业合作等课题近30项,发表学术论文130余篇,领导研制的多个系统上线使用,曾获国家科技进步二等奖和北京市科学技术二等奖各一项。现为中国中文信息学会理事、信息检索、社会媒体处理、语言与知识计算等多个专业委员会委员、《中文信息学报》编委、中国计算机学会高级会员及中文信息处理专业委员会委员。多次担任SIGIR、ACL、CIKM等会议的程序委员会委员。《信息检索导论》、《大数据:互联网大规模数据挖掘与分布式处理》、《机器学习实战》、《Mahout实战》译者。2006年起在中国科学院大学讲授《现代信息检索》研究生课程,累计选课人数已超过1500人。迄今培养博士、硕士研究生近40名。

写给程序员的数据挖掘实践指南简介:

出版社: 人民邮电出版社
ISBN:9787115336354
版次:01
商品编码:11801697
品牌:异步
图书包装:平装
开本:16开
出版时间:2015-11-01
页数:309
正文语种:中文

写给程序员的数据挖掘实践指南目录:

第1章 数据挖掘简介及本书使用方法 1
欢迎来到21世纪 2
并不只是对象 5
TB级挖掘是现实不是科幻 7
本书体例 9
第2章 协同过滤—爱你所爱 14
如何寻找相似用户 15
曼哈顿距离 16
欧氏距离 16
N维下的思考 18
一般化 22
Python中数据表示方法及代码 24
计算曼哈顿距离的代码 25
用户的评级差异 28
皮尔逊相关系数 30
在继续之前稍微休息一下 35
最后一个公式—余弦相似度 36
相似度的选择 40
一些怪异的事情 43
k近邻 44
Python的一个推荐类 47
一个新数据集 54
第3章 协同过滤—隐式评级及基于物品的过滤 56
隐式评级 57
调整后的余弦相似度 67
Slope One算法 76
Slope One算法的粗略描述图 77
基于Python的实现 83
加权Slope One:推荐模块 88
MovieLens数据集 90
第4章 内容过滤及分类—基于物品属性的过滤 93
一个简单的例子 98
用Python实现 101
给出推荐的原因 102
一个取值范围的问题 104
归一化 105
改进的标准分数 109
归一化 vs. 不归一化 111
回到Pandora 112
体育项目的识别 119
Python编程 123
就是它了 133
汽车MPG数据 135
杂谈 137
第5章 分类的进一步探讨—算法评估及kNN 139
训练集和测试集 140
10折交叉验证的例子 142
混淆矩阵 146
一个编程的例子 148
Kappa统计量 154
近邻算法的改进 159
一个新数据集及挑战 163
更多数据、更好的算法以及一辆破公共汽车 168
第6章 概率及朴素贝叶斯—朴素贝叶斯 170
微软购物车 174
贝叶斯定理 177
为什么需要贝叶斯定理 185
i100 i500 188
用Python编程实现 191
共和党 vs. 民主党 197
数字 205
Python实现 214
这种做法会比近邻算法好吗 221
第7章 朴素贝叶斯及文本—非结构化文本分类 226
一个文本正负倾向性的自动判定系统 228
训练阶段 232
第8章 聚类—群组发现 256
k-means聚类 281
SSE或散度 289
小结 303
安然公司 305

写给程序员的数据挖掘实践指南译者序:

译者序
这些年来,朋友见面老问我的一句话就是:王斌,你又翻译什么书了?确实,从2008年翻译第一本书《信息检索导论》开始,我就有点一发不可收拾,先后独自或合作翻译了《大数据:互联网大规模数据挖掘与分布式处理》(包括第一版和第二版)、《机器学习实战》、《Mahout实战》、《驯服文本》(待出版)5本书6个版本。“翻译”已经成为我的标签之一。应该说,翻译带来的最大乐趣来自和大家共享好书的喜悦,这种喜悦会传递到我的工作上、生活中,带来满满的正能量。我选择翻译的书的内容都不会超出信息检索、数据挖掘、机器学习、自然语言处理这些范围,这也是我相对比较了解的研究领域。在选择书籍时我并不限定到底是学术著作还是实用手册,只要能对很多读者有较大帮助就行。
本书的宗旨是为程序员提供快速的数据挖掘入门指南。整本书通过真实数据和实例来阐述数据挖掘中的基本技术。书中实例的Python代码和相应数据都可以从实例来阐述数据挖掘中的基本技术。书中实例的Python代码和相应数据都可以从网站免费下载获得,读者可以利用这些代码和数据进行实际操作,从而快速掌握数据挖掘的基本概念和技术。书中的实例都特别贴近读者的生活,包括音乐推荐、运动员分类、糖尿病判定等例子都和我们的生活息息相关。
值得一提的是,本书实例中用到的运动员都是真名实姓,好多运动员的大名都如雷贯耳,其中也不乏中国运动员。即使有些运动员我之前并不熟悉,但是网上搜索之后都可以看到一段段运动明星的介绍。对于特别喜欢体育运动的我来说,见到这些名字,看到这一段段介绍,都让我兴奋不已。与这些体育明星相关的实例是我最喜欢翻译的内容之一。和其他很多技术类书籍不同的是,本书引入了很多生动活泼的插图和文字。这些插图中的人物或欢喜、或悲伤、或激动、或愤怒、或思考、或俏皮、或悠闲、或忙碌,这些插图在体现人生百态的同时,也大大缩短了技术和读者之间的距离。本书的另一个特点是十分简洁,作为入门指南,简洁确实是生命线。
本书作者Ron.Zacharski的经历颇具传奇色彩:他初学音乐,做了十年的音乐理疗师。后获得计算机科学博士学位,专攻自然语言处理。现在是一名软件开发工程师,同时也是一名禅宗信奉者。这也是作者一开始就引入日本禅宗大师铃木俊隆(Shunryu.Suzuki)的名作《禅者的初心》的原因。对于禅宗我并不了解,查阅一番之后也是懵懵懂懂,只知道禅宗对大名鼎鼎的苹果公司CEO乔布斯产生过巨大的影响。或许禅宗的思想体现在整本书的写作当中,等待有心的读者去发现、去领略。
感谢出版社和编辑部的辛勤工作,感谢译者所在的中国科学院信息工程研究所第二研究室的领导、同事以及译者家人对翻译本书的大力支持。因本人各方面水平有限,现有译文中肯定存在许多不足。希望读者能够和我进行联系,以便能够不断改进。来信请联系wbxjj2008@gmail.com。
王 斌
2015年4月29日 于闵庄路

写给程序员的数据挖掘实践指南前言:

在你面前是一个学习基本的数据挖掘技术的工具。绝大多数数据挖掘教材关注数据挖掘的基础理论知识,因此众所周知给读者带来理解上的困难。当然,不要误解我的意思,那些书中的知识相当重要。但是,如果你是一名想学习一点数据挖掘知识的程序员,你可能会对入门者实用手册感兴趣。而这正是本书的宗旨所在。
本书内容采用“做中学”的思路来组织。我希望读者不是被动地阅读本书,而是通过课后习题和本书提供的Python代码进行实践。我也希望读者积极参与到数据挖掘技术的编程当中。本书由一系列互为基础的小的知识点堆积而成,学完本书以后,你就对理解数据挖掘的各种技术打下了基础。
本书各章内容简介
第1章 数据挖掘简介及本书使用方法
介绍数据挖掘的概念以及处理的问题,并给出本书学习结束后读者的预期收获。
第2章  协同过滤——爱你所爱
介绍社会过滤,给出了多个基本距离的定义,包括曼哈顿距离、欧氏距离以及明式距离等。介绍了皮尔逊相关系数的概念。给出了一个基本过滤算法的Python实现。
第3章  协同过滤——隐式评级及基于物品的过滤
讨论可用的用户评级类型。用户可以显式给出评级(点赞/点差、5星或者其他评级方式),也可以隐式给出评级,比如如果用户从亚马逊网站购买了一款MP3播放器,那么就可以认为这种购买行为代表了“喜欢”。
第4章  内容过滤及分类——基于物品属性的过滤
前面章节中使用了用户对商品的评级信息来进行推荐。本章利用商品本身的属性来进行推荐。包括Pandora在内的一些公司中采用了这种做法。第5章 分类的进一步探讨——算法评估及kNN
介绍分类器的评估方法,包括10折交叉测试、留一法和Kappa统计量,此外还介绍了kNN算法。
第6章  概率及朴素贝叶斯——朴素贝叶斯
探讨朴素贝叶斯分类方法,利用概率密度函数来处理数值型数据。
第7章  朴素贝叶斯及文本——非结构化文本分类
介绍如何利用朴素贝叶斯对非结构化文本分类。我们能否对谈论某个电影的推文进行分类,以确定它们的情感倾向性到底是正向还是反向的?
第8章  聚类——群组发现
聚类,包括层次聚类和k-means聚类。

免责声明:

写给程序员的数据挖掘实践指南来源于网络,仅用于分享知识,学习和交流!请下载完在24小时内删除。
写给程序员的数据挖掘实践指南禁用于商业用途!如果您喜欢《写给程序员的数据挖掘实践指南》,请购买正版,谢谢合作。
爱学习,请到3322软件站 / 查找资源自行下载!
展开更多

软件截图

下载提示

写给程序员的数据挖掘实践指南pdf中文版

正在下载...

扫描二维码,手机下载APP

软件下载站本地下载

相关文章