pandas中有提供哪些方法可以删除重复数据-群英

上一篇：Python中如何进行绘制对称图形，方法有哪些下一篇：Python重试机制的概念是什么，哪些场景应用

今天这篇我们来学习和了解“pandas中有提供哪些方法可以删除重复数据”，下文的讲解详细，步骤过程清晰，对大家进一步学习和理解“pandas中有提供哪些方法可以删除重复数据”有一定的帮助。有这方面学习需要的朋友就继续往下看吧！

当我们使用pandas处理数据的时候，经常会遇到数据重复的问题，如何找出重复数据进而分析重复原因，或者如何直接删除重复的数据是一个关键的步骤，pandas提供了很方便的方法：duplicated()和drop_duplicates()。

一、duplicated()

duplicated()可以被用在DataFrame的三种情况下，分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似，前两个会返回一个布尔值的Series，最后一个会返回一个布尔值的numpy.ndarray。

DataFrame.duplicated(subset=None, keep=‘first’)

subset：默认为None，需要标记重复的标签或标签序列

keep：默认为‘first’，如何标记重复标签

first：将除第一次出现以外的重复数据标记为True
last：将除最后一次出现以外的重复数据标记为True
False：将所有重复的项都标记为True（不管是不是第一次出现）

Series.duplicated(keep=‘first’)

keep：与DataFrame.duplicated的keep相同

Index.duplicated(keep=‘first’)

keep：与DataFrame.duplicated的keep相同

例子：

import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

df.duplicated()

0 False
1 True
2 False
3 False
4 False
dtype: bool

df.duplicated(keep='last')

0 True
1 False
2 False
3 False
4 False
dtype: bool

df.duplicated(keep=False)

0 True
1 True
2 False
3 False
4 False
dtype: bool

df.duplicated(subset=['brand'])

0 False
1 True
2 False
3 True
4 True
dtype: bool

关于Index的重复标记：

df = df.set_index('brand')
df

style rating
brand
Yum Yum cup 4.0
Yum Yum cup 4.0
Indomie cup 3.5
Indomie pack 15.0
Indomie pack 5.0

df.index.duplicated()

array([False,  True, False,  True,  True])

二、drop_duplicates()

与duplicated()类似，drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

subset：与duplicated()中相同
keep：与duplicated()中相同
inplace：与pandas其他函数的inplace相同，选择是修改现有数据还是返回新的数据

Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数，和上诉介绍一样，Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子：

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

df.drop_duplicates()

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

df.drop_duplicates(inplace = True)

df

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

总结

有剩余无，pandas有很多好用的库，但是系统学下来很不现实，都是在实际项目中不断的发现、积累、记录下来。

上述内容具有一定的借鉴价值，感兴趣的朋友可以参考，希望能对大家有帮助，想要了解更多"pandas中有提供哪些方法可以删除重复数据"的内容，大家可以关注群英网络的其它相关文章。

标签： pandas 删除重复数据

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：mmqy2019@163.com进行举报，并提供相关证据，查实之后，将立刻删除涉嫌侵权内容。

上一篇：Python中如何进行绘制对称图形，方法有哪些下一篇：Python重试机制的概念是什么，哪些场景应用