数据之魅:基于开源工具的数据分析pdf高清版
分享到:
数据之魅:基于开源工具的数据分析2012年7月由清华大学出版社出版发行,结合作者多年来从事数据分析工作的丰富经验,阐述了数据分析所涉及的概念和方法。全书总共四个部分,分为19章,主题包括如何通过图表来观察数据,如何通过各种建模方法来分析数据,然后着重阐述如何进行数据挖掘,最后强调数据分析在商业和金融等领域的实际应用。本书包含大量的模拟过程及结果展示,并通过实例来阐述如何使用开源工具来进行数据分析。通过本书的阅读,读者可以清楚地了解这些方法的实际用法及用途。数据之魅:基于开源工具的数据分析结构合理,通俗易懂,适合数据分析爱好者和从业者阅读,也适合以科学计算为工具的科研人员参考。同时,本书还适用于计算机科学、数学、工程技术和其他相关专业本科或研究生的数据分析课程,是一本不错的参考书。
小编温馨提醒:这本书的内容比较多,要注意劳逸结合哦
——Austin King,Mozolla资深Web开发人员
“造就数据科学家的必读工具书。”
——Michael E. Driscoll,Dataspora的CEO兼创始人
禁用于商业用途!如果您喜欢《数据之魅:基于开源工具的数据分析》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
数据分析
本书内容
关于讲习班
关于数学
需要具备的知识 本书不涉及的内容 第Ⅰ部分图表:观察数据
第 2 章单一变量:形状和分布
数据点和抖动图
直方图和核密度估计
直方图
核密度估计
(选学)如何选择最优带宽
累积分布函数
(选学)概率图分布和QQ 图
分布的对比
秩序图和上升图
仅用于适当时机:汇总统计量和箱形图
汇总统计量
Box-and-Whisker 图
(讲习班)NumPy
NumPy 实践
NumPy 详解
扩展阅读
第3 章两个变量:建立关系
散点图
克服噪声:平滑
样条
LOESS
示例
残差
其他观点及提醒
对数图
倾斜
线性回归以及诸如此类的方法
描述重要信息
图形分析与图形演示
(讲习班)matplotlib
交互式使用matplotlib
案例学习:matplotlib 与LOESS
控制属性
matplotlib 对象模型及结构
零碎知识
扩展阅读
第4 章以时间为变量:时序分析
示例
任务
需求和现实
平滑处理
移动平均法
指数平滑法
不要忽视显而易见的东西
相关函数
示例
实现上的问题
(选学)过滤器和卷积
(讲习班)scipysignal
扩展阅读
第5 章多变量:图形的多变量分析
假色图
概览:多值图
散点图矩阵
协作图
变种
组成问题
组成的改变
多维组成:树形图和马赛克图
新颖的曲线类型标识符
平行坐标图
交互式探索
查询和缩放
连接和涂层
大游览与投影寻踪工具
(讲习班)多变量图形工具R
实验工具Python 的Chaco 库
扩展阅读
第6 章插曲:数据分析会话
数据分析会话
(讲习班)gnuplot 软件
扩展阅读
第Ⅱ部分分析:数据建模
第 7 章推算和粗略计算
推算的原理
估计大小
建立关联
使用数字
10 的幂
小扰动
对数
更多示例
我所知道的一些常见事(物)
的相关数字
这些数字是否足够好?
准备工作:可行性和成本
完成之后:引用和
呈现数字
(选学)进一步探索摄动理论和误差传播
误差传播
(讲习班)Gnu 科
学库(GSL)
扩展阅读 第8 章缩放参数模型
模型
建模
模型的运用和误用
参数的缩放
缩放参数
示例:维度参数
示例:优化问题
示例:成本模型
(选学)缩放参数与
量纲分析
其他理论
平均场近似
背景知识和其他示例
常见的时间演变方案
无限增长和衰减现象
约束增长:逻辑斯谛方程
振荡
案例学习:多少台服务器才是
最好的?
为什么要建模?
(讲习班)Sage
扩展阅读
第9 章关于概率模型的讨论
91 二项分布和伯努利试验
精确的结果
利用伯努利试验建立平均场
模型
92 高斯分布和中心极限定理
中心极限定理
中心项与尾项
为什么高斯分布如此实用?
(选学)高斯积分
幂律分布和非常规统计学
幂律分布的用法
(选学)期望值为无限时的分布
接下来的研究
其他分布
几何分布
泊松分布
对数正态分布
特殊用途的分布
(选学)案例学习--随时间变化的单一访问者数量
(讲习班)幂律分布
扩展阅读
第10章你真正需要了解的经典统计学知识起源
......
第11 章插叙:数学大搜捕--大脚怪和最小二乘等
......
第Ⅲ部分计算:数据挖掘
第 12 章模拟热身问题
......
第13 章找出簇
......
第14 章一木见林:找出重要属性
......
第15 章插曲:当数据不成比例地增长时
......
第17 章金融计算与建模
......
第18 章预测分析
......
第19 章结语:事实并非
现实
附录A 科学计算与数据分析的
编程环境
附录B 应用:微积分
附录C 使用数据
索引
我所学的专业是物理,但我也从事了多年的软件工程师工作。本书将反映出我这种双重背景。一方面,本书是为程序员以及软件领域的其他人士而写:我假定你和我一样,有能力通过自己动手编程来轻松自如地操纵数据。另一方面,我思考数据的方式是由我的背景和教育决定的。作为一个物理学家,我不会只满足于描述数据或者做黑盒式的预测:分析的目的总是为了深入理解我们所观察的数据是怎样产生的。
传达这种理解的工具就是模型:对所研究的系统进行描述(换句话说,不只是对数据的描述!),必要时进行简化但要保留相关的信息。一个模型可能很粗糙(就像一头球形的牛),但如果它能够帮助我们更好地理解系统的工作原理,那么它就是一个成功的模型。(精确度可以在之后获得,如果确实需要的话。)
我对模型和简化描述的强调并不具有普遍性:其他作者和从业人员可能持有不同的看法。但是它们对于我的方法和观点来说是基本的。
这本书相当具有个人色彩。尽管我努力使之合理全面,但我所选择的主题都是我认为在实践中相关和有用的——不管它们是否是“经典”。本书还包含其他数据分析相关书中不涉及的主题。尽管它们既不新颖也非独创,但在数据分析这一特定背景下通常并不使用或讨论它们——但我发现它们不可或缺。
在整本书中,我提供了大量明确而具体的建议、意见和评估。这些评述反映了我的个人兴趣、经验和理解。我不敢说我的观点一定是正确的,请根据具体需要对我所说的进行评估和取舍。在我看来,一个充分论证的明确立场比列出所有待选的可能算法更有用——即使后来你决定不同意我的观点。价值并不存在于观点中,而是存在于支持它的论据中。如果你的论据比我的好,或者仅仅只是更适合你,那么我也认为自己已经达到了我的目的!
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必在3322软件站选择一款阅读器下载
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
方法二:
1、在手机里下载3322软件站中的阅读器和百度网盘
2、直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
小编温馨提醒:这本书的内容比较多,要注意劳逸结合哦
精彩书评:
“一本通俗易懂的参考书,有助于理解如何征服海量数据。”——Austin King,Mozolla资深Web开发人员
“造就数据科学家的必读工具书。”
——Michael E. Driscoll,Dataspora的CEO兼创始人
免责声明:
来源于网络,仅用于分享知识,学习和交流!请下载完在24小时内删除。禁用于商业用途!如果您喜欢《数据之魅:基于开源工具的数据分析》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
作者简介:
Philipp K. Janer,凭借着自己多年来担任物理学家和软件工程师的经验,为数据分析和数学建模提供咨询服务。他是Gnuplot in Action: Understanding Data with Graphs(Manning出版)的作者,也在O’Reilly Network、IBM developerWorks和IEEE Software发表过大量文章。他拥有华盛顿大学理论物理学博士学位。目录:
第1 章导论数据分析
本书内容
关于讲习班
关于数学
需要具备的知识 本书不涉及的内容 第Ⅰ部分图表:观察数据
第 2 章单一变量:形状和分布
数据点和抖动图
直方图和核密度估计
直方图
核密度估计
(选学)如何选择最优带宽
累积分布函数
(选学)概率图分布和QQ 图
分布的对比
秩序图和上升图
仅用于适当时机:汇总统计量和箱形图
汇总统计量
Box-and-Whisker 图
(讲习班)NumPy
NumPy 实践
NumPy 详解
扩展阅读
第3 章两个变量:建立关系
散点图
克服噪声:平滑
样条
LOESS
示例
残差
其他观点及提醒
对数图
倾斜
线性回归以及诸如此类的方法
描述重要信息
图形分析与图形演示
(讲习班)matplotlib
交互式使用matplotlib
案例学习:matplotlib 与LOESS
控制属性
matplotlib 对象模型及结构
零碎知识
扩展阅读
第4 章以时间为变量:时序分析
示例
任务
需求和现实
平滑处理
移动平均法
指数平滑法
不要忽视显而易见的东西
相关函数
示例
实现上的问题
(选学)过滤器和卷积
(讲习班)scipysignal
扩展阅读
第5 章多变量:图形的多变量分析
假色图
概览:多值图
散点图矩阵
协作图
变种
组成问题
组成的改变
多维组成:树形图和马赛克图
新颖的曲线类型标识符
平行坐标图
交互式探索
查询和缩放
连接和涂层
大游览与投影寻踪工具
(讲习班)多变量图形工具R
实验工具Python 的Chaco 库
扩展阅读
第6 章插曲:数据分析会话
数据分析会话
(讲习班)gnuplot 软件
扩展阅读
第Ⅱ部分分析:数据建模
第 7 章推算和粗略计算
推算的原理
估计大小
建立关联
使用数字
10 的幂
小扰动
对数
更多示例
我所知道的一些常见事(物)
的相关数字
这些数字是否足够好?
准备工作:可行性和成本
完成之后:引用和
呈现数字
(选学)进一步探索摄动理论和误差传播
误差传播
(讲习班)Gnu 科
学库(GSL)
扩展阅读 第8 章缩放参数模型
模型
建模
模型的运用和误用
参数的缩放
缩放参数
示例:维度参数
示例:优化问题
示例:成本模型
(选学)缩放参数与
量纲分析
其他理论
平均场近似
背景知识和其他示例
常见的时间演变方案
无限增长和衰减现象
约束增长:逻辑斯谛方程
振荡
案例学习:多少台服务器才是
最好的?
为什么要建模?
(讲习班)Sage
扩展阅读
第9 章关于概率模型的讨论
91 二项分布和伯努利试验
精确的结果
利用伯努利试验建立平均场
模型
92 高斯分布和中心极限定理
中心极限定理
中心项与尾项
为什么高斯分布如此实用?
(选学)高斯积分
幂律分布和非常规统计学
幂律分布的用法
(选学)期望值为无限时的分布
接下来的研究
其他分布
几何分布
泊松分布
对数正态分布
特殊用途的分布
(选学)案例学习--随时间变化的单一访问者数量
(讲习班)幂律分布
扩展阅读
第10章你真正需要了解的经典统计学知识起源
......
第11 章插叙:数学大搜捕--大脚怪和最小二乘等
......
第Ⅲ部分计算:数据挖掘
第 12 章模拟热身问题
......
第13 章找出簇
......
第14 章一木见林:找出重要属性
......
第15 章插曲:当数据不成比例地增长时
......
第17 章金融计算与建模
......
第18 章预测分析
......
第19 章结语:事实并非
现实
附录A 科学计算与数据分析的
编程环境
附录B 应用:微积分
附录C 使用数据
索引
前言/序言:
本书展现了我在高科技行业的各个公司中从事数据工作所获得的经验。它汇聚了我所发现的许多最有用的概念和技术,包括我希望自己能够早点知道的主题——然而我没有。我所学的专业是物理,但我也从事了多年的软件工程师工作。本书将反映出我这种双重背景。一方面,本书是为程序员以及软件领域的其他人士而写:我假定你和我一样,有能力通过自己动手编程来轻松自如地操纵数据。另一方面,我思考数据的方式是由我的背景和教育决定的。作为一个物理学家,我不会只满足于描述数据或者做黑盒式的预测:分析的目的总是为了深入理解我们所观察的数据是怎样产生的。
传达这种理解的工具就是模型:对所研究的系统进行描述(换句话说,不只是对数据的描述!),必要时进行简化但要保留相关的信息。一个模型可能很粗糙(就像一头球形的牛),但如果它能够帮助我们更好地理解系统的工作原理,那么它就是一个成功的模型。(精确度可以在之后获得,如果确实需要的话。)
我对模型和简化描述的强调并不具有普遍性:其他作者和从业人员可能持有不同的看法。但是它们对于我的方法和观点来说是基本的。
这本书相当具有个人色彩。尽管我努力使之合理全面,但我所选择的主题都是我认为在实践中相关和有用的——不管它们是否是“经典”。本书还包含其他数据分析相关书中不涉及的主题。尽管它们既不新颖也非独创,但在数据分析这一特定背景下通常并不使用或讨论它们——但我发现它们不可或缺。
在整本书中,我提供了大量明确而具体的建议、意见和评估。这些评述反映了我的个人兴趣、经验和理解。我不敢说我的观点一定是正确的,请根据具体需要对我所说的进行评估和取舍。在我看来,一个充分论证的明确立场比列出所有待选的可能算法更有用——即使后来你决定不同意我的观点。价值并不存在于观点中,而是存在于支持它的论据中。如果你的论据比我的好,或者仅仅只是更适合你,那么我也认为自己已经达到了我的目的!
使用说明:
方法一:1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必在3322软件站选择一款阅读器下载
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
方法二:
1、在手机里下载3322软件站中的阅读器和百度网盘
2、直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
展开更多
数据之魅:基于开源工具的数据分析pdf高清版下载地址
- 需先下载高速下载器:
- 专用下载:
- 其它下载: