简介:本文将介绍如何使用Pandas模块读取Excel和CSV文件,过滤重复值和缺失值处理。通过实例和图表,我们将深入了解这些操作的具体实现方法和应用场景。
百度智能云千帆全面支持文心大模型4.5/X1 API调用
在Python编程中,Pandas是一个强大的数据处理库,可以方便地读取各种数据格式,包括Excel和CSV文件。同时,Pandas也提供了过滤重复值和缺失值处理的强大功能,可以帮助我们快速清洗和整理数据。以下我们将分步介绍这些操作的具体实现过程。
同样地,我们可以使用read_csv()函数来读取CSV文件。下面是一个示例代码,演示如何读取一个名为example.csv的CSV文件:
import pandas as pd
# 读取Excel文件
data = pd.read_excel('example.xlsx')
# 显示数据前5行
print(data.head())
import pandas as pd
# 读取CSV文件
data = pd.read_csv('example.csv')
# 显示数据前5行
print(data.head())
drop_duplicates()函数默认会根据所有列的值来识别重复行。如果你只想根据某些特定列来识别重复行,可以将subset参数指定为这些列的列名。例如,假设我们只想根据’姓名’和’年龄’列来识别重复行,可以使用以下代码:
import pandas as pd
# 读取Excel文件
data = pd.read_excel('example.xlsx')
# 过滤重复行
duplicates_removed = data.drop_duplicates()
# 显示去重后的数据前5行
print(duplicates_removed.head())
duplicates_removed = data.drop_duplicates(subset=['姓名', '年龄'])