Python中使用Pandas GroupBy去重并计数

简介：本文介绍了如何在Python的Pandas库中利用GroupBy功能对DataFrame进行去重处理，并统计每个组的数量。通过实例演示，即使是非专业读者也能轻松理解并掌握这一实用技巧。

Python中使用Pandas GroupBy去重并计数

在数据处理和分析中，去重（去除重复项）和计数是常见的任务。Python的Pandas库因其强大的数据处理能力而受到广泛欢迎，特别是其GroupBy功能，可以让我们在数据分组的基础上进行各种操作，包括去重和计数。

准备数据

首先，我们需要一个示例DataFrame来展示如何使用GroupBy去重并计数。假设我们有一个包含员工信息的DataFrame，其中包含员工的部门（Department）和姓名（Name）。

import pandas as pd
# 创建示例DataFrame
data = {
    'Department': ['HR', 'IT', 'IT', 'HR', 'Finance', 'Finance', 'HR'],
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David', 'Eve', 'Alice']
}
df = pd.DataFrame(data)
print(df)

输出如下：

  Department    Name
0         HR   Alice
1         IT     Bob
2         IT  Charlie
3         HR   Alice
4     Finance   David
5     Finance     Eve
6         HR   Alice

使用GroupBy去重

然而，GroupBy本身并不直接提供去重功能。但我们可以结合nunique()方法来统计每个分组中不同元素的数量，这在某种程度上可以视为去重后的计数。

如果我们想要知道每个部门有多少个不同的员工，可以这样做：

unique_counts = df.groupby('Department')['Name'].nunique()
print(unique_counts)

输出：

Department
Finance      2
HR           1
IT           2
Name: Name, dtype: int64

注意，这里的输出显示HR部门只有一个不同的员工，但实际上这是因为Alice被重复了，而我们统计的是不同员工的数量。

如果你想查看去重后的数据

如果你想要直接查看去重后的数据（即每个部门每个员工只出现一次），你可以使用drop_duplicates()方法，但这通常不与GroupBy直接结合使用，而是单独操作DataFrame。

df_unique = df.drop_duplicates(subset=['Department', 'Name'])
print(df_unique)

输出将只包含不重复的行：

  Department    Name
0         HR   Alice
1         IT     Bob
2         IT  Charlie
4     Finance   David
5     Finance     Eve

使用GroupBy和计数

如果你想要在每个分组内计算总数（不考虑去重），你可以使用size()方法或count()方法（注意count()会排除NA值）。

total_counts = df.groupby('Department').size()
print(total_counts)

输出：

Department
Finance      2
HR           3
IT           2
dtype: int64

结论

虽然GroupBy本身不直接提供去重功能，但结合nunique()方法，我们可以轻松地统计每个分组中不同元素的数量，这可以被视为一种去重后的计数方式。对于直接查看去重后的数据，我们可以使用drop_duplicates()方法。希望这篇文章能帮助你更好地理解和使用Pandas的GroupBy功能进行数据处理和分析。

Python中使用Pandas GroupBy去重并计数