Python对Excel进行整行去重、多列去重，保留最后出现值

简介：在Python中，我们可以使用pandas库来处理Excel文件。本篇文章将介绍如何使用pandas对Excel文件进行整行去重和多列去重，并保留最后出现的值。

首先，确保已经安装了pandas和openpyxl这两个Python库。如果尚未安装，可以使用以下命令进行安装：

!pip install pandas openpyxl

接下来，创建一个新的Python脚本（例如命名为excel_deduplication.py），并在其中编写以下代码：

import pandas as pd
# 读取Excel文件
file_path = 'your_excel_file.xlsx' # 请替换为你的Excel文件路径
df = pd.read_excel(file_path)
# 整行去重并保留最后出现的值
df_row_unique = df.drop_duplicates(keep='last')
# 多列去重并保留最后出现的值（例如针对'A', 'B', 'C'这三列）
columns_to_check = ['A', 'B', 'C'] # 请替换为你想要去重的列名
df_col_unique = df.drop_duplicates(subset=columns_to_check, keep='last')
# 将处理后的数据保存到新的Excel文件中
df_row_unique.to_excel('output_row_unique.xlsx', index=False)
df_col_unique.to_excel('output_col_unique.xlsx', index=False)

在上述代码中，首先读取了Excel文件并将其存储在名为df的DataFrame对象中。然后，使用drop_duplicates方法进行了整行和多列的去重操作，并通过设置keep='last'参数保留了最后出现的值。
接下来，代码将处理后的数据保存到新的Excel文件中。你可以根据需要修改输出文件的名称和路径。请确保替换file_path变量的值为你的实际Excel文件路径，以及columns_to_check变量的值为你要进行多列去重的列名。
请注意，

Python对Excel进行整行去重、多列去重，保留最后出现值

最热文章