ad

打开《Python 可视化数据分析》_学会挖掘大数据的价值_6.5.4 移除重复数据

网友投稿 112 2023-11-13

【摘要】 本书摘自《Python网络爬虫 从入门到精通》一书中第6章,第5节,李迎著。

6.5.4 移除重复数据

打开《Python 可视化数据分析》_学会挖掘大数据的价值_6.5.4 移除重复数据

重复的数据指的是重复的行,其实在爬取数据的时候经常遇到这种情况,这样获得的数据就会很冗长,去除重复数据是数据预处理中必不可少的内容。

在 pandas 中,可以利用的第一个函数是 duplicated) 函数,来查找并显示数据表 中的重复值。此函数可以通过设置参数对数据中的内容进行查找,当两条信息所属 所有列的内容都相等时,可以将其判断为重复值,也可以单独对某一列进行判断重复值。同时,它还支持从前向后(first)和从后向前(last) 两种重复值查找模式。

参数默认设置是从前向后进行重复值的查找和判断。重复值判断中显示为 True 表明 是重复行。在下面的示例中第4行代码就是这个函数的应用,采用的是默认值,从 上往下进行查找,输出结果中第7个数据输出是 True 表明是重复行,即第9行数据和前面的数据重复。

第2个函数是 drop_duplicates(), 它是用来查找并删除数据表中的重复值,判断 标准和逻辑与 duplicated) 函数一样。使用drop_duplicates()函 数 后 ,Python 将返回一 个只包含唯一数据值的数据。在下面示例中第5行代码就是使用 drop_duplicates()函

数。与原始数据相,新输出的数据比老数据减少1行,drop_duplicates()默认是从上往下查找并删除索引为7的这条数据,并且判断全部列重复才叫重复,如果想对特 定的列进行重复项判断。可以在括号中设置参数“身份证号”这一列,就只会对此 列进行过滤重复项。在第6~7行代码就是这个效果。输出结果就会把这列中其余重 复的删掉,这里删了两行数据,drop_duplicates()的详细格式为: DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)。

6.6 pandas 绘图

通过分析数据创建适合的表和可视化的图是非常重要的环节,在分析表达中,能用图就不用表,能用表就不用语言。把数据分析的语言画成图表是在完成分析项 目中的关键一个步骤,是完成数据分析的排头兵。我们可以在绘图中看到或预测到 很多想象不到的东西。最终在撰写我们的分析观点时,通过可视图表可以很清晰地展示变量关系,看到函数走向,可以给大家提示数据中含有的未知模型构建趋势。

在 Python 中提供了很多个扩展库用于绘图功能,有 Matplotlib、pandas 、ggplot 和 seaborn。其中, Matplotlib是基础库, pandas 和 seaborn 是在其绘画基础语法上进 行的,所以要想了解学习 python可视化,应先了解 Matplotlib 基础语法,前面的章 节我们已经较深入地学习了Matplotlib 语法和各种常用图形构建的模式,我们可以在学习过程中创造自己所需要的形式,进一步学习。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 18664393530@aliyun.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:打开《Python 可视化数据分析》_学会挖掘大数据的价值_Python 中重复利用的函数与模块
下一篇:打开《Python 编程与应用实践》_成为Python大佬_4.2 循环语句
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×