从《Python数据分析案例教程》中_领悟数据和Python的魅力_5.4 Pandas 读写HTML文件中的数据-英雄云

从《Python数据分析案例教程》中_领悟数据和Python的魅力_5.4 Pandas 读写HTML文件中的数据

admin 282 2023-10-25

【摘要】本书摘自《Python数据分析案例教程》一书中第5章，第4节，由万念斌、肖伟东、叶丰标编著。

5.4 Pandas 读写HTML文件中的数据

HTML 格式文件为网页文件，Pandas 提供 I/O API 函数 read html() 和 to html()用于读写 HTML 格式的文件。这两个函数能较简单地将 DataFrame 数据转换为 HTML 表格，不需要编写 HTML 代码，而会将 DataFrame 的内部结构自动转换为嵌入在表格中的

、、标签。例如，下列案例自动将DataFrame 数据转换为 HTML 表格。

从《Python数据分析案例教程》中_领悟数据和Python的魅力_5.4 Pandas 读写HTML文件中的数据

【案例5-3】读取案例5-2中的 python0.xlsx 文件 sheet1 工作表中的数据(忽略前5行和后12行，只需要第2、3、5、6列数据),然后写入网页文件newHtml.html。代码如下：

#encoding:utf-8

import pandas as pd

import os

def main():

os.getcwd()# 获取当前工作路径

#读取 python0.xlsx 文件工作表 sheet1的数据

table0=pd.read excel("python0. xlsx",

"sheet1",skiprows=4,

usecols=(1,2,4,5),

skipfooter=32)

table0.columns= [姓名',学号’,'平时',期末]

,table=table0.fillna(0) # 缺失值处理，将 NaN 改为0

#数据写入 newHtml.html 网页文件中

table.to html('newHtml.html')

if name ==" main ":

main()

程序运行后，得到 newHtml.html 文件，代码为：

/thead>

	姓名	学号	平时	期末
0	林洋刚	1521192219	68	62.0
27	刘杰 < /td>	1712123127	70	76.0

如果要使 newHtml.html 文件具有完整的网页文件框架，程序代码修改为：

#encoding:utf-8

import pandas as pd

import os

def main():

os.getcwd()# 获取当前工作路径

#读取 python0.xlsx文件工作表 sheet1的数据

table0=pd.read excel("python0.xlsx",

"sheet1",skiprows=4,

usecols=(1,2,4,5),

skipfooter=32)

table0.columns=[姓名',学号','平时',期末]

table=table0.fillna(0) # 缺失值处理，将 NaN 改为0

#数据写入 newHtml,html 网页文件中

s=[']s.append(' 由 DataFrame 数据生成的网页') s.append('')

s.append(table.to html())

s.append('')

html="join(s)

html file=open('newHtml.html','w')

html file.write(html)

html file.close()

if name ==" main ":

__ __ __ __

main()

newHtml.html 文件具有完整的框架，如：

由 DataFrame 数据生成的网页

/tr>

	姓名 < /th>	学号	平时	期末
0	林洋刚	1521192219	68	62.0
27	刘杰	1712123127	70	76.0

Pandas 可使用 read html()方法爬取网页表格数据，read html()函数原型为： pandas.read html(io,header=None,index col=None,skiprows=None,attrs=None,

parse dates=False,encoding=None, …)

常用的参数作用如下：

(1)io:可以是URL、HTML 文本、本地文件等。

(2)header:标题行。

(3)skiprows:跳过的行。

(4)attrs:属性，比如 attrs={'id':'table}。

(5)parse dates:解析日期。

此函数返回的结果是 DataFrame组成的 list。

【案例5-4】读取网页文件 newHtml2.html 中的数据到DataFrame 并输出。代码如下： #encoding:utf-8

import pandas as pd

import os

def main():

os.getcwd()# 获取当前工作路径

#读取 newHtml2.html 文件

df=pd.read html('newHtml2.html',encoding='gbk')

print(df)

if name ==" main ":

main()

excel 如何创建数据透视表-英雄云拓展知识分享

282 2023-10-25

从《Python数据分析案例教程》中_领悟数据和Python的魅力_5.4 Pandas 读写HTML文件中的数据

Excel中把表格数据一列分为多行多列的操作方法-英雄云拓展知识分享

excel 如何创建数据透视表-英雄云拓展知识分享

Excel表格中数据透视功能处理重复数据的方法-英雄云拓展知识分享

最近发表

热评文章

CRM系统很重要吗？-企业客户关系管理中的重要性及其

WPS2012版本中为何看不到之前用的插件-英雄云拓

客户关系管理的核心是什么？-以客户为中心，提升企业竞

excel剪切、复制和粘贴操作，使它们不会破坏已设置

ChM格式文档处理利器：5款免费软件-英雄云拓展知识

WPS怎样制作文字打字机效果的动画?-英雄云拓展知识

热门标签