ad

打开《Python 可视化数据分析》_学会挖掘大数据的价值_1.5.3 Python 科学计算库

网友投稿 100 2023-11-13

【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第1章,第5节,李迎著。

1.5.3 Python 科学计算库

Python 在数据科学行业扮演着越来越重要的角色, Python中的库是非常重要, 在科学计算方面Numpy 、SciPy、pandas 三者就可以创建一个非常牢固的用于数据挖 掘与分析的基础框架,再结合可视化的Matplotlib库,可以完全实现我们良好的学习

分析过程。

NumPy 库,是最基本的包,它代表“Numeric Python”。它为 Python中的 n 维 数组和矩阵的操作提供了大量有用的功能。该库提供了Numpy数组类型的数学运算 向量化,可以改善性能,从而加快执行速度。Numeric 是 Numpy的前身,它是由Jim Hugunin 开发的。Jim Hugunin还开发了另一个包 Numarray。2005年 ,Travis Oliphant 通过将 Numarray的功能集成到 Numeric 包中来创建 Numpy 包。读者可以从 Python 官网下载到 Numpy库,或者使用Python的 pip 辅助安装功能下载并升级最新版本。

打开《Python 可视化数据分析》_学会挖掘大数据的价值_1.5.3 Python 科学计算库

Numpy 库可以完成的工作大致有以下三种情况:①一个强大的 N 维数组对象 Array;② 比较成熟的(广播)函数库;③用于整合C/C++和 Fortran代码的工具包; ④实用的线性代数、傅里叶变换和随机数生成函数。在后面的章节中会讲解 Numpy

包的数据结构。

pandas 是一个提供快速、灵活和表达性数据结构的 Python库,在通过“标记” 和“关系”进行数据分析工作,简单直观。pandas 的数据整理真的很实用,是本书 的重点使用库。它可以快速简单地进行数据操作、聚合和可视化。pandas 是基于 Numpy 构建的,为时间序列分析提供了很好的支持。pandas 中有两个主要的数据结 构: 一个是Series, 另一个是 DataFrame。这个我们在第6章会详细介绍。pandas 适合许多不同类型的数据,分别是:

·具有非均匀类型列的表格数据,如在 SQL表或 Excel 电子表格中。

●有序和无序(不一定是固定频率)的时间序列数据。

●带有行和列标签的任意矩阵数据(均匀类型或异质)。

●任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到 pandas 的数据结构中。

Scipy 库含线性代数、优化、集成和统计的模块。Scipy 库的主要功能是建立在 Numpy上,从而它的数组大量的使用了Numpy 包。它通过其特定子模块提供有效的 数值例程,并作为数字积分、优化和其他例程, Scipy的所有子模块中的功能都有详 细的说明。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:打开《Python 编程与应用实践》_成为Python大佬_9.1 线性表
下一篇:打开《Python 可视化数据分析》_学会挖掘大数据的价值_5.2 绘制线形图
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×