简介:本文将介绍如何使用 Pandas 库处理结构不佳的 Excel 文件,包括数据清洗、缺失值处理和数据重塑等方面的技巧。
在数据处理过程中,我们经常会遇到结构不佳的 Excel 文件,这些文件可能存在缺失值、格式不统一等问题。使用 Pandas 库可以方便地处理这些问题,以下是一些常见的处理技巧:
drop_duplicates() 方法可以快速删除重复行。例如:处理缺失值:使用 Pandas 的
import pandas as pd# 读取 Excel 文件df = pd.read_excel('file.xlsx')# 删除重复行df = df.drop_duplicates()
fillna() 方法可以填充缺失值,如使用平均值、中位数或固定值填充。例如:异常值处理:使用 Pandas 的
import pandas as pd# 读取 Excel 文件df = pd.read_excel('file.xlsx')# 使用平均值填充缺失值df['column_name'].fillna(df['column_name'].mean(), inplace=True)
zscore() 或 iqr() 方法可以检测异常值,并选择性地删除或填充。例如:
import pandas as pdimport numpy as np# 读取 Excel 文件df = pd.read_excel('file.xlsx')# 使用 z-score 方法检测异常值,并填充为平均值df['column_name'] = df['column_name'].replace([np.inf, -np.inf], np.nan) # 删除无穷大值df['column_name'].fillna(df['column_name'].mean(), inplace=True) # 填充为平均值
pivot(), melt(), stack() 等。例如:pivot() 方法进行数据重塑:使用
import pandas as pd# 读取 Excel 文件df = pd.read_excel('file.xlsx')# 使用 pivot() 方法重塑数据pivot_df = df.pivot(index='index_column', columns='column_column', values='value_column')
melt() 方法进行数据重塑:
import pandas as pd# 读取 Excel 文件df = pd.read_excel('file.xlsx')# 使用 melt() 方法重塑数据,并选择要保留的列melted_df = df.melt(id_vars=['id_column'], var_name='variable_column', value_name='value_column')