+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

2019-08(62)

2019-09(116)

2019-10(11)

2019-11(5)

2019-12(10)

pandas去除重复数据

发布于2020-03-19 18:01     阅读(1079)     评论(0)     点赞(12)     收藏(0)


# -*- coding: utf-8 -*-
#1. 概念:把数据结构中,行相同的数据只保留一行。
# 语法: drop_duplicates  该方法返回一个去重后的数据框对象

from pandas import read_csv

df = read_csv("D:/python/workspace/pythonStudy/8.csv")

#找出行重复的位置(索引值)
dIndex = df.duplicated() #返回一列布尔值。如果某行数据没有出现过,则返回False,否则返回True

#找出列重复位置
dIndex = df.duplicated('id') #返回id这一列重复的位置

dIndex = df.duplicated(['id','key']) #这两列同时重复的位置

#根据上面的返回值,把重复数据提取出来                     
df[dIndex]


#删除重复值
#默认根据所有的列,进行删除(当某两行所有列的数据都重复时,会删除其中一行)
newDf = df.drop_duplicates()

#当然也可以指定某一列或多列,进行重复值删除
newDf = df.drop_duplicates("id")
newDf = df.drop_duplicates(["id","key"])

原文链接:https://blog.csdn.net/qq_41551450/article/details/104947450



所属网站分类: 技术文章 > 博客

作者:滴水

链接: https://www.pythonheidong.com/blog/article/268610/

来源: python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

12 0
收藏该文
已收藏

评论内容:(最多支持255个字符)