ad

从《Python数据分析案例教程》中_领悟数据和Python的魅力_5.1 第5章 Pandas 数据读写

admin 140 2023-10-25

【摘要】 本书摘自《Python数据分析案例教程》一书中第5章,第1节,由万念斌、肖伟东、叶丰标编著。

第5章 Pandas 数据读写

Pandas 可以从多种存储介质(如文件和数据库)读取数据,也可以将不同的数据写入不 同格式的文件中。 Pandas 提供了多种I/OAPI 函数用于读写数据文件,这些函数把大多数 常用格式的数据作为 DataFrame 对象进行读写操作,高效且方便。

5.1 I/O API 函数

Pandas 是数据分析的专业库,主要实现数据计算和数据处理,在进行数据处理时往往 需要从外部文件读写数据。因此,Pandas 提供了多种I/O API 函数用于读写数据文件,这 些函数主要分为读取函数和写入函数两大类,读取函数的作用是从剪贴板、CSV 文件、

Excel 文件、JSON 格式文件、文本文件、数据库文件、HTML 文件中读取数据,转换成DataFrame 对象。写入函数正好相反,将 DataFrame 对象数据写入外部文件中。

从《Python数据分析案例教程》中_领悟数据和Python的魅力_5.1 第5章 Pandas 数据读写

5.2 Pandas 读写CSV 文件中的数据

CSV 是 Comma-Separated Values的首字母,即逗号分隔值(也称为字符分隔值),其文 件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含 必须像二进制数字那样被解读的数据。 CSV 文件由任意数目的记录组成,记录间以某种换 行符分隔,每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或 制表符。通常,所有记录都有完全相同的字段序列,通常都是纯文本文件。 Pandas 读写 CSV 文件中数据的函数有 read csv()和 to csv()。

Pandas 读取 CSV 文件函数 read csv()的原型为:

pandas.read csv(filepath or buffer,sep=',',header='infer',names=None,usecols= None,engine=None,skiprows=None,skipfooter=0, …)

函数参数的作用如下:

(1)filepath or buffer:可以是URL 或本地文件,可用URL 类型包括 http、ftp、s3 和文 件。

(2)sep:指定分隔符。如果不指定参数,则会尝试使用逗号分隔。分隔符长度超过1个 字符且不是\s+ 的分隔符将被解释为正则表达式,并且还将强制使用Python 解释器。

(3)header:指定行数用来作为列名,数据开始行数。如果文件中没有列名,则默认为0, 否则设置为 None。 如果明确设定 header=0 就会替换掉原来存在的列名。 header参数可 以是一个 list,如[0,1,3],这个 list表示将文件中的这些行作为列标题(意味着每一列有多 个标题),介于中间的行将被忽略掉。注意:如果 skip blank lines=True 那么 header 参数 忽略注释行和空行,所以header=0 表示第一行数据而不是文件的第一行。

(4)names: 用于结果的列名列表,如果数据文件中没有列标题行,就需要执行 header= None。 默认列表中不能出现重复,除非设定参数 mangle dupe cols=True。

(5)usecols:返回一个数据子集,该列表中的值必须可以对应到文件中的位置(数字可 以对应到指定的列)或者是字符串为文件中的列名,如:usecols=[1,2,3] 或者 usecols= ['one','two','three']。 使用这个参数可以加快加载速度并降低内存消耗。

(6)engine:使用的解释器。可以选择 C 或者是 Python。C 解释器快,但是 Python 解 释器功能更加完备。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《基于Kubernetes的容器云平台实战》_了解最新技术前沿_1.3 Docker 基本概念
下一篇:《零基础Linux 从入门到精通》_从零开始_轻松掌握Linux操作系统_21.3.2 基本命令参数
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×