简介:本篇文章将详细介绍如何使用Pandas库中的DataFrame对象,包括其创建方法以及常用的属性与方法。通过本文,读者将能更深入地理解DataFrame的使用和操作,提升数据处理和分析的效率。
在Pandas中,DataFrame是一个二维标签化的数据结构,可以存储不同类型的数据,并具有行和列的标签。创建DataFrame的方法有多种,下面将介绍几种常用的方法。
1. 创建DataFrame
import pandas as pddata = {'列1': [1, 2, 3], '列2': [4, 5, 6] }df = pd.DataFrame(data)print(df)
import numpy as npp.random.seed(0)data = np.random.randint(0, 10, size=(3, 3))df = pd.DataFrame(data)print(df)
在上述示例中,我们展示了如何使用不同的方式创建DataFrame。其中,字典和NumPy数组是最常用的数据源。你可以根据实际需要选择合适的方式。
df = pd.DataFrame(index=['A', 'B', 'C'], columns=['列1', '列2'])print(df)
.loc[]基于行标签和列标签选择数据,而.iloc[]基于行号和列号选择数据。df = df.assign(新列1=新列1的计算方式, 新列2=新列2的计算方式)。df = df.drop('列名') 或 df = df.drop(index=行索引)。.ffill()(前向填充)或.bfill()(后向填充)。例如:df = df.fillna(0) 或 df = df.ffill()。df = df.sort_values(by='列名') 或 df = df.sort_index()。grouped_df = df.groupby('列名')。