pandas中有提供哪些方法可以删除重复数据
Admin 2022-07-27 群英技术资讯 655 次浏览
duplicated()可以被用在DataFrame的三种情况下,分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似,前两个会返回一个布尔值的Series,最后一个会返回一个布尔值的numpy.ndarray。
DataFrame.duplicated(subset=None, keep=‘first’)
subset:默认为None,需要标记重复的标签或标签序列
keep:默认为‘first’,如何标记重复标签
Series.duplicated(keep=‘first’)
keep:与DataFrame.duplicated的keep相同
Index.duplicated(keep=‘first’)
keep:与DataFrame.duplicated的keep相同
例子:
import pandas as pd df = pd.DataFrame({ 'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] }) df
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
df.duplicated()
0 False
1 True
2 False
3 False
4 False
dtype: bool
df.duplicated(keep='last')
0 True
1 False
2 False
3 False
4 False
dtype: bool
df.duplicated(keep=False)
0 True
1 True
2 False
3 False
4 False
dtype: bool
df.duplicated(subset=['brand'])
0 False
1 True
2 False
3 True
4 True
dtype: bool
关于Index的重复标记:
df = df.set_index('brand') df
style rating
brand
Yum Yum cup 4.0
Yum Yum cup 4.0
Indomie cup 3.5
Indomie pack 15.0
Indomie pack 5.0
df.index.duplicated()
array([False, True, False, True, True])
与duplicated()类似,drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)
Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数,和上诉介绍一样,Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子:
df = pd.DataFrame({ 'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] }) df
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
df.drop_duplicates()
brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
df.drop_duplicates(inplace = True) df
brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
有剩余无,pandas有很多好用的库,但是系统学下来很不现实,都是在实际项目中不断的发现、积累、记录下来。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
这篇文章主要介绍了pytorch部署到jupyter中,在这里需要注意我再输入的时候出现了一些无法定位的提示,但是我的电脑没有影响使用jupyter,还是可以使用jupyter并且可以import torch,本文给大家讲解的非常详细,需要的朋友参考下吧
这篇文章主要介绍了pandas实现一行拆分成多行方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
python中in是什么意思?in在python中是成员运算符,如果在指定的序列中找到值返回 True,否则返回 False。
python元类是什么意思?新手可能对python元类比较陌生,这篇文章主要介绍的就是Python元类,Python元类工作和创建Python元类等等,对新手学习和理解有一定的帮助,有这方面的学习需要的朋友可以参考看看。
这篇文章主要介绍了是如何进行机器学习的模型的训练,全文逻辑清晰,简单易懂,如果您正在学习机器学习那么可以参考下,说不定会有不一样的收货
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008