pandas数据处理——取出重复数据

张开发
2026/4/15 12:11:52 15 分钟阅读

分享文章

pandas数据处理——取出重复数据
pandas数据处理——取出重复数据平常我们用pandas做重复数据处理时常常调用到drop_duplicates方法来去除重。现在我不想完全去除重复而是把重复数据输出现有数据如下所示dic {序号:[2,3,4,5,6,7,8,9,10,11,12,13,14,15],地市缩写: [LF,CZ,HS,ZJ,TS,HD,广阳,CD,QH,XT,XA,BD,SJ,栾城],地市: [廊坊,沧州,衡水,张家口,唐山,邯郸,廊坊,承德,秦皇岛,邢台,雄安,保定,石家庄,石家庄]}p_city pd.DataFrame(dic)print(p_city )输出方法一重复数据保留一个duplicate_bool输出的是bool类型值通过判断boolTrue取出重复行。duplicate_bool p_city.duplicated(subset[地市],keepfirst)print(duplicate_bool )repeat p_city.loc[duplicate_bool True]print(repeat)输出方法二采用drop_duplicates对数据去两次重一次将重复数据全部去除(keepFalse)一次将重复数据保留一个(keeplast/first)将两个去重后的数据做差集取出重复行。#重复数据全部去除data1 p_city.drop_duplicates(subset[地市],keepFalse)print(data1)输出#重复数据保留一个data2 p_city.drop_duplicates(subset[地市],keeplast)print(data2)输出#做差集取出重复行data1 p_city.drop_duplicates(subset[地市],keepFalse)data2 p_city.drop_duplicates(subset[地市],keeplast)repeat pd.concat([data2,data1]).drop_duplicates(keepFalse)print(repeat)输出

更多文章