从《Python数据分析案例教程》中_领悟数据和Python的魅力

从《Python数据分析案例教程》中_领悟数据和Python的魅力_5.1 第5章 Pandas 数据读写

admin 303 2023-10-25

【摘要】本书摘自《Python数据分析案例教程》一书中第5章，第1节，由万念斌、肖伟东、叶丰标编著。

第5章 Pandas 数据读写

Pandas 可以从多种存储介质(如文件和数据库)读取数据，也可以将不同的数据写入不同格式的文件中。 Pandas 提供了多种I/OAPI 函数用于读写数据文件，这些函数把大多数常用格式的数据作为 DataFrame 对象进行读写操作，高效且方便。

5.1 I/O API 函数

Pandas 是数据分析的专业库，主要实现数据计算和数据处理，在进行数据处理时往往需要从外部文件读写数据。因此，Pandas 提供了多种I/O API 函数用于读写数据文件，这些函数主要分为读取函数和写入函数两大类，读取函数的作用是从剪贴板、CSV 文件、

Excel 文件、JSON 格式文件、文本文件、数据库文件、HTML 文件中读取数据，转换成DataFrame 对象。写入函数正好相反，将 DataFrame 对象数据写入外部文件中。

从《Python数据分析案例教程》中_领悟数据和Python的魅力_5.1 第5章 Pandas 数据读写

5.2 Pandas 读写CSV 文件中的数据

CSV 是 Comma-Separated Values的首字母，即逗号分隔值(也称为字符分隔值),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。 CSV 文件由任意数目的记录组成，记录间以某种换行符分隔，每条记录由字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列，通常都是纯文本文件。 Pandas 读写 CSV 文件中数据的函数有 read csv()和 to csv()。

Pandas 读取 CSV 文件函数 read csv()的原型为：

pandas.read csv(filepath or buffer,sep=',',header='infer',names=None,usecols= None,engine=None,skiprows=None,skipfooter=0, …)

函数参数的作用如下：

(1)filepath or buffer:可以是URL 或本地文件，可用URL 类型包括 http、ftp、s3 和文件。

(2)sep:指定分隔符。如果不指定参数，则会尝试使用逗号分隔。分隔符长度超过1个字符且不是\s+ 的分隔符将被解释为正则表达式，并且还将强制使用Python 解释器。

(3)header:指定行数用来作为列名，数据开始行数。如果文件中没有列名，则默认为0, 否则设置为 None。如果明确设定 header=0 就会替换掉原来存在的列名。 header参数可以是一个 list,如[0,1,3],这个 list表示将文件中的这些行作为列标题(意味着每一列有多个标题),介于中间的行将被忽略掉。注意：如果 skip blank lines=True 那么 header 参数忽略注释行和空行，所以header=0 表示第一行数据而不是文件的第一行。

(4)names: 用于结果的列名列表，如果数据文件中没有列标题行，就需要执行 header= None。默认列表中不能出现重复，除非设定参数 mangle dupe cols=True。

(5)usecols:返回一个数据子集，该列表中的值必须可以对应到文件中的位置(数字可以对应到指定的列)或者是字符串为文件中的列名，如：usecols=[1,2,3] 或者 usecols= ['one','two','three']。使用这个参数可以加快加载速度并降低内存消耗。

(6)engine:使用的解释器。可以选择 C 或者是 Python。C 解释器快，但是 Python 解释器功能更加完备。