Pandas模块:读取Excel/CSV文件,过滤重复值和缺失值处理

作者:蛮不讲李2024.01.17 13:07浏览量:32

简介:本文将介绍如何使用Pandas模块读取Excel和CSV文件,过滤重复值和缺失值处理。通过实例和图表,我们将深入了解这些操作的具体实现方法和应用场景。

文心大模型4.5及X1 正式发布

百度智能云千帆全面支持文心大模型4.5/X1 API调用

立即体验

在Python编程中,Pandas是一个强大的数据处理库,可以方便地读取各种数据格式,包括Excel和CSV文件。同时,Pandas也提供了过滤重复值和缺失值处理的强大功能,可以帮助我们快速清洗和整理数据。以下我们将分步介绍这些操作的具体实现过程。

  1. 读取Excel/CSV文件
    首先,我们需要使用Pandas的read_excel()或read_csv()函数来读取Excel或CSV文件。下面是一个简单的示例代码,演示如何读取一个名为example.xlsx的Excel文件:
    1. import pandas as pd
    2. # 读取Excel文件
    3. data = pd.read_excel('example.xlsx')
    4. # 显示数据前5行
    5. print(data.head())
    同样地,我们可以使用read_csv()函数来读取CSV文件。下面是一个示例代码,演示如何读取一个名为example.csv的CSV文件:
    1. import pandas as pd
    2. # 读取CSV文件
    3. data = pd.read_csv('example.csv')
    4. # 显示数据前5行
    5. print(data.head())
  2. 过滤重复值
    Pandas提供了drop_duplicates()函数来过滤重复值。以下是一个示例代码,演示如何过滤名为example.xlsx的Excel文件中的重复行:
    1. import pandas as pd
    2. # 读取Excel文件
    3. data = pd.read_excel('example.xlsx')
    4. # 过滤重复行
    5. duplicates_removed = data.drop_duplicates()
    6. # 显示去重后的数据前5行
    7. print(duplicates_removed.head())
    drop_duplicates()函数默认会根据所有列的值来识别重复行。如果你只想根据某些特定列来识别重复行,可以将subset参数指定为这些列的列名。例如,假设我们只想根据’姓名’和’年龄’列来识别重复行,可以使用以下代码:
    1. duplicates_removed = data.drop_duplicates(subset=['姓名', '年龄'])
article bottom image
图片