Python对Excel进行整行去重、多列去重,保留最后出现值

作者:菠萝爱吃肉2024.01.17 21:08浏览量:32

简介:在Python中,我们可以使用pandas库来处理Excel文件。本篇文章将介绍如何使用pandas对Excel文件进行整行去重和多列去重,并保留最后出现的值。

首先,确保已经安装了pandasopenpyxl这两个Python库。如果尚未安装,可以使用以下命令进行安装:

  1. !pip install pandas openpyxl

接下来,创建一个新的Python脚本(例如命名为excel_deduplication.py),并在其中编写以下代码:

  1. import pandas as pd
  2. # 读取Excel文件
  3. file_path = 'your_excel_file.xlsx' # 请替换为你的Excel文件路径
  4. df = pd.read_excel(file_path)
  5. # 整行去重并保留最后出现的值
  6. df_row_unique = df.drop_duplicates(keep='last')
  7. # 多列去重并保留最后出现的值(例如针对'A', 'B', 'C'这三列)
  8. columns_to_check = ['A', 'B', 'C'] # 请替换为你想要去重的列名
  9. df_col_unique = df.drop_duplicates(subset=columns_to_check, keep='last')
  10. # 将处理后的数据保存到新的Excel文件中
  11. df_row_unique.to_excel('output_row_unique.xlsx', index=False)
  12. df_col_unique.to_excel('output_col_unique.xlsx', index=False)

在上述代码中,首先读取了Excel文件并将其存储在名为df的DataFrame对象中。然后,使用drop_duplicates方法进行了整行和多列的去重操作,并通过设置keep='last'参数保留了最后出现的值。
接下来,代码将处理后的数据保存到新的Excel文件中。你可以根据需要修改输出文件的名称和路径。请确保替换file_path变量的值为你的实际Excel文件路径,以及columns_to_check变量的值为你要进行多列去重的列名。
请注意,