pandas数据处理——取出重复数据

张开发

• 2026/7/1 1:48:19 • 15 分钟阅读

分享文章

pandas数据处理——取出重复数据平常我们用pandas做重复数据处理时常常调用到drop_duplicates方法来去除重。现在我不想完全去除重复而是把重复数据输出现有数据如下所示dic {序号:[2,3,4,5,6,7,8,9,10,11,12,13,14,15],地市缩写: [LF,CZ,HS,ZJ,TS,HD,广阳,CD,QH,XT,XA,BD,SJ,栾城],地市: [廊坊,沧州,衡水,张家口,唐山,邯郸,廊坊,承德,秦皇岛,邢台,雄安,保定,石家庄,石家庄]}p_city pd.DataFrame(dic)print(p_city )输出方法一重复数据保留一个duplicate_bool输出的是bool类型值通过判断boolTrue取出重复行。duplicate_bool p_city.duplicated(subset[地市],keepfirst)print(duplicate_bool )repeat p_city.loc[duplicate_bool True]print(repeat)输出方法二采用drop_duplicates对数据去两次重一次将重复数据全部去除(keepFalse)一次将重复数据保留一个(keeplast/first)将两个去重后的数据做差集取出重复行。#重复数据全部去除data1 p_city.drop_duplicates(subset[地市],keepFalse)print(data1)输出#重复数据保留一个data2 p_city.drop_duplicates(subset[地市],keeplast)print(data2)输出#做差集取出重复行data1 p_city.drop_duplicates(subset[地市],keepFalse)data2 p_city.drop_duplicates(subset[地市],keeplast)repeat pd.concat([data2,data1]).drop_duplicates(keepFalse)print(repeat)输出

pandas数据处理——取出重复数据

最新文章

拆解RoF-X-X系列：手把手教你配置热插拔与链路冗余，打造高可靠卫星地面站

避坑指南：Mac+VS Code+Anaconda配置PyQt6/PySide6时，Designer和rcc路径到底怎么找？

IoT-MCP框架：大语言模型与物联网的智能交互方案

抖音批量下载助手终极指南：三步自动化采集海量视频素材

AI Agent 时代：如何让AI帮你编写高质量Java接口

实战指南：如何在CIFAR-100-LT上使用LDAM Loss提升长尾分类效果（附代码）

推荐文章

相关文章

分享文章

更多文章

【LE Audio】ASCS精讲[4]: 服务特征与ASE端点，从数据结构到交互逻辑

AI灵魂测试：SBTI揭秘真实人格

d3dx11_43.dll 丢失官方安全解决办法：让全境封锁2顺利运行

Vue 3 虚拟DOM 全面解析：从 createVNode 到 patch 的完整流程

开源无人机RemoteID终极指南：如何快速实现FAA合规身份识别

PS 怎么删除图片中不想要的部分？2026 最新无痕删除教程

隧道灯防眩光设计要求（工程必看版）

AI算力缺电难题待解：燃气轮机产能受限，航改机、内燃机、SOFC等技术路线迎新机

Redis 如何统计独立用户访问量？

告别过曝与欠曝：用NestFuse无监督深度学习搞定极端曝光图像融合（附PyTorch代码）

DataGrip 2026.1 正式版安装教程：告别繁琐，教你一招搞定极致环境配置（附 2026 最新避坑指南）

OpenGL渲染与几何内核那点事-项目实践理论补充(二-1-(4)-当你的CAD学会“听话”：从“按钮点击”到“自然语言诊断”的演进之路