软件下载站,为您提供安全的软件下载!

当前位置:首页 > 电脑专区 > 应用软件 > 电子阅读 > mahout实战pdf高清中文免费版

mahout实战pdf高清中文免费版

分享到:
mahout实战2014年3月由人民邮电出版社出版发行,是一本Mahout领域的著作。封面上的图片取自克罗地亚19世纪中叶传统服饰影集的一个副本,图中是一位乐于助人的ethnographic博物馆还原,这个博物馆位于该城镇在中世纪罗马时的核心位置,是公元304年左右罗马皇帝戴克里先的宫殿遗址。小编分享的这本mahout实战出自Mahout项目核心成员之手,立足实践,全面介绍了基于Apache.Mahout的机器学习技术。Mahout实战开篇从Mahout的故事讲起,接着分三部分探讨了推荐系统、聚类和分类,附录涵盖JVM调优、Mahout 数学知识和相关资源。Mahout实战适合所有数据分析和数据挖掘人员阅读,需要有Java语言基础。
mahout实战

免责声明:

来源于网络,仅用于分享知识,学习和交流!请下载完在24小时内删除。
禁用于商业用途!如果您喜欢《mahout实战》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!

作者简介:

Sean.Owen,现为大数据公司Cloudera数据产品总监,Myrrix创始人,曾任Apache.Mahout项目管理委员会委员、谷歌高级软件工程师,是Mobile.Web和Taste框架(现属于Mahout项目)的主力开发者。Owen拥有哈佛大学计算机科学专业学士学位。
Robin Anil,谷歌公司负责地图与广告方向的软件工程师,Apache Mahout项目管理委员会委员,为Mahout开发了贝叶斯分类器和频繁模式挖掘实现,曾经在雅虎公司任高级软件工程师。
Ted Dunning,MapR Technologies公司首席应用架构师,Apache Mahout和Zookeeper项目管理委员会成员,为Mahout聚类、分类、矩阵分解算法做出了贡献,曾任DeepDyve公司CTO及多家公司首席科学家。
Ellen Friedman,Apache Mahout项目代码提交者,生物化学博士学位,经验丰富的科技作家,作品涵盖计算机、分子生物学、医学和地球科学。

mahout实战目录:

第1章 初识Mahout
1.1 Mahout的故事
1.2 Mahout的机器学习主题
1.2.1 推荐引擎
1.2.2 聚类
1.2.3 分类
1.3 利用Mahout和Hadoop处理大规模数据
1.4 安装Mahout
1.4.1 Java和IDE
1.4.2 安装Maven
1.4.3 安装Mahout
1.4.4 安装Hadoop
1.5 小结
第一部分 推荐
第2章 推荐系统
2.1 推荐的定义
2.2 运行第一个推荐引擎
2.2.1 创建输入
2.2.2 创建一个推荐程序
2.2.3 分析输出
2.3 评估一个推荐程序
2.3.1 训练数据与评分
2.3.2 运行RecommenderEvaluator
2.3.3 评估结果
2.4 评估查准率与查全率
2.4.1 运行RecommenderIRStats-Evaluator
2.4.2 查准率和查全率的问题
2.5 评估GroupLens数据集
2.5.1 提取推荐程序的输入
2.5.2 体验其他推荐程序
2.6 小结
第3章 推荐数据的表示
3.1 偏好数据的表示
3.1.1 Preference对象
3.1.2 PreferenceArray及其实现
3.1.3 改善聚合的性能
3.1.4 FastByIDMap和FastIDSet
3.2 内存级DataModel
3.2.1 GenericDataModel
3.2.2 基于文件的数据
3.2.3 可刷新组件
3.2.4 更新文件
3.2.5 基于数据库的数据
3.2.6 JDBC和MySQL
3.2.7 通过JNDI进行配置
3.2.8 利用程序进行配置
3.3 无偏好值的处理
3.3.1 何时忽略值
3.3.2 无偏好值时的内存级表示
3.3.3 选择兼容的实现
3.4 小结
第4章 进行推荐
4.1 理解基于用户的推荐
4.1.1 推荐何时会出错
4.1.2 推荐何时是正确的
4.2 探索基于用户的推荐程序
4.2.1 算法
4.2.2 基于GenericUserBased-Recommender实现算法
4.2.3 尝试GroupLens数据集
4.2.4 探究用户邻域
4.2.5 固定大小的邻域
4.2.6 基于阈值的邻域
4.3 探索相似性度量
4.3.1 基于皮尔逊相关系数的相似度
4.3.2 皮尔逊相关系数存在的问题
4.3.3 引入权重
4.3.4 基于欧氏距离定义相似度
4.3.5 采用余弦相似性度量
4.3.6 采用斯皮尔曼相关系数基于相对排名定义相似度
4.3.7 忽略偏好值基于谷本系数计算相似度
4.3.8 基于对数似然比更好地计算相似度
4.3.9 推测偏好值
4.4 基于物品的推荐
4.4.1 算法
4.4.2 探究基于物品的推荐程序
4.5 Slope-one推荐算法
4.5.1 算法
4.5.2 Slope-one实践
4.5.3 DiffStorage和内存考虑
4.5.4 离线计算量的分配
4.6 最新以及试验性质的推荐算法
4.6.1 基于奇异值分解的推荐算法
4.6.2 基于线性插值物品的推荐算法
4.6.3 基于聚类的推荐算法
4.7 对比其他推荐算法
4.7.1 为Mahout引入基于内容的技术
4.7.2 深入理解基于内容的推荐算法
4.8 对比基于模型的推荐算法
4.9 小结
第5章 让推荐程序实用化
5.1 分析来自约会网站的样本数据
5.2 找到一个有效的推荐程序
5.2.1 基于用户的推荐程序
5.2.2 基于物品的推荐程序
5.2.3 slope-one推荐程序
5.2.4 评估查准率和查全率
5.2.5 评估性能
5.3 引入特定域的信息
5.3.1 采用一个定制的物品相似性度量
5.3.2 基于内容进行推荐
5.3.3 利用IDRescorer修改推荐结果
5.3.4 在IDRescorer中引入性别
5.3.5 封装一个定制的推荐程序
5.4 为匿名用户做推荐
5.4.1 利用PlusAnonymousUser-DataModel处理临时用户
5.4.2 聚合匿名用户
5.5 创建一个支持Web访问的推荐程序
5.5.1 封装WAR文件
5.5.2 测试部署
5.6 更新和监控推荐程序
5.7 小结
第6章 分布式推荐
6.1 分析Wikipedia数据集
6.1.1 挑战规模
6.1.2 分布式计算的优缺点
6.2 设计一个基于物品的分布式推荐算法
6.2.1 构建共现矩阵
6.2.2 计算用户向量
6.2.3 生成推荐结果
6.2.4 解读结果
6.2.5 分布式实现
6.3 基于MapReduce实现分布式算法
6.3.1 MapReduce简介
6.3.2 向MapReduce转换:生成用户向量
6.3.3 向MapReduce转换:计算共现关系
6.3.4 向MapReduce转换:重新思考矩阵乘
6.3.5 向MapReduce转换:通过部分乘积计算矩阵乘
6.3.6 向MapReduce转换:形成推荐
6.4 在Hadoop上运行MapReduce
6.4.1 安装Hadoop
6.4.2 在Hadoop上执行推荐
6.4.3 配置mapper和reducer
6.5 伪分布式推荐程序
6.6 深入理解推荐
6.6.1 在云上运行程序
6.6.2 考虑推荐的非传统用法
6.7 小结
第二部分 聚类
第7章 聚类介绍
7.1 聚类的基本概念
7.2 项目相似性度量
7.3 Hello World:运行一个简单的聚类示例
7.3.1 生成输入数据
7.3.2 使用Mahout聚类
7.3.3 分析输出结果
7.4 探究距离测度
7.4.1 欧氏距离测度
7.4.2 平方欧氏距离测度
7.4.3 曼哈顿距离测度
7.4.4 余弦距离测度
7.4.5 谷本距离测度
7.4.6 加权距离测度
7.5 在简单示例上使用各种距离测度
7.6 小结
第8章 聚类数据的表示
......
第9章 Mahout中的聚类算法
......
第10章 评估并改善聚类质量
......
第11章 将聚类用于生产环境
......
第12章 聚类的实际应用
......
第三部分 分类
第13章 分类
......
第14章 训练分类器
......
第15章 分类器评估及调优
......
第16章 分类器部署
......
第17章 案例分析--Shop It To Me
......
附录A JVM调优
附录B Mahout数学基础
附录C 相关资源
索引

前言/序言:

......
在对上述数据进行向量化时面临的一个巨大挑战是缺乏一个Stack.Overflow问题的好的词条化工具。很多问题和答案都包含来自不同编程语言的代码片段,而默认的StandardAnalyzer并未被设计成可以处理这类数据。因此需要编写解析器来处理代码中的括号和数组以及不同编程语言的奇怪格式。  除了只使用问题之外,还可以将问题和它们的答案及评论打包在一起产生更大的文档来得到更多的问题聚类特征。与Twitter不同,由于内容较大,因此这里的拼写错误不会对聚类的质量造成太大的影响。但是增加—个DoubleMetaPh。ne过滤器还是可以稍微提高一点聚类质量的。由于数据很多,因此k—means和模糊k—means都会产生类似的结果。只有使用LDA主题作为特征才可以得到更高质量的结果,但是在该数据集上运行LDA时的CPU消耗可能会高的离谱。  2.对用户数据进行聚类以发现相似用户  假设你是一个长期使用JMS(Java.Messaging.Service,Java消息服务)API的开发人员,那么对你而言找到那些也使用jMS的用户十分有用。帮助用户形成这样的社区不仅可以提高网站的用户体验,还可以激发用户的参与度。与前面一样,这里可以通过聚类来计算出这种可能的社区。对用户聚类需要用户的特征向量。这些特征可以是用户发的帖子或解答的内容,或者是用户和其他用户的交互信息。下面给出了向量的一些特征:  用户创建的问题或解答的内容,包括来自文本和代码片段的n元组(n—gram);  对当前用户发的帖子进行回复或评论的其他用户。  可以只利用发帖的内容对用户聚类,也可以只利用共同的交互数目对用户聚类,或者两者同时使用。前面在对推文进行聚类时,只用到了内容信息。而利用交互特征来对用户聚类会是一个很好的实践体验。
……

下载说明:

方法一:
1、下载并解压,得出pdf文件
2、如果打不开本文件,别着急,这时候请务必在3322软件站选择一款阅读器下载哦
3、安装后,再打开解压得出的pdf文件
4、以上都完成后,接下来双击进行阅读就可以啦,朋友们开启你们的阅读之旅吧。
方法二:
1、可以在手机里下载3322软件站中的阅读器和百度网盘
2、接下来直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
展开更多

软件截图

扫描二维码,手机下载APP

软件下载站本地下载

相关文章