Pandas模块：读取Excel/CSV文件，过滤重复值和缺失值处理

作者：蛮不讲李2024.01.17 13:07浏览量：32

简介：本文将介绍如何使用Pandas模块读取Excel和CSV文件，过滤重复值和缺失值处理。通过实例和图表，我们将深入了解这些操作的具体实现方法和应用场景。

文心大模型4.5及X1 正式发布

百度智能云千帆全面支持文心大模型4.5/X1 API调用

在Python编程中，Pandas是一个强大的数据处理库，可以方便地读取各种数据格式，包括Excel和CSV文件。同时，Pandas也提供了过滤重复值和缺失值处理的强大功能，可以帮助我们快速清洗和整理数据。以下我们将分步介绍这些操作的具体实现过程。

读取Excel/CSV文件
首先，我们需要使用Pandas的read_excel()或read_csv()函数来读取Excel或CSV文件。下面是一个简单的示例代码，演示如何读取一个名为example.xlsx的Excel文件：
```
import pandas as pd
# 读取Excel文件
data = pd.read_excel('example.xlsx')
# 显示数据前5行
print(data.head())
```
同样地，我们可以使用read_csv()函数来读取CSV文件。下面是一个示例代码，演示如何读取一个名为example.csv的CSV文件：
```
import pandas as pd
# 读取CSV文件
data = pd.read_csv('example.csv')
# 显示数据前5行
print(data.head())
```
过滤重复值
Pandas提供了drop_duplicates()函数来过滤重复值。以下是一个示例代码，演示如何过滤名为example.xlsx的Excel文件中的重复行：
```
import pandas as pd
# 读取Excel文件
data = pd.read_excel('example.xlsx')
# 过滤重复行
duplicates_removed = data.drop_duplicates()
# 显示去重后的数据前5行
print(duplicates_removed.head())
```
drop_duplicates()函数默认会根据所有列的值来识别重复行。如果你只想根据某些特定列来识别重复行，可以将subset参数指定为这些列的列名。例如，假设我们只想根据’姓名’和’年龄’列来识别重复行，可以使用以下代码：
```
duplicates_removed = data.drop_duplicates(subset=['姓名', '年龄'])
```

article bottom image

最热文章