Pandas中DataFrame对象的创建与常用属性方法(Pandas篇-02)

作者:问答酱2024.01.17 20:45浏览量:29

简介:本篇文章将详细介绍如何使用Pandas库中的DataFrame对象,包括其创建方法以及常用的属性与方法。通过本文,读者将能更深入地理解DataFrame的使用和操作,提升数据处理和分析的效率。

在Pandas中,DataFrame是一个二维标签化的数据结构,可以存储不同类型的数据,并具有行和列的标签。创建DataFrame的方法有多种,下面将介绍几种常用的方法。
1. 创建DataFrame

  • 方法一:使用字典创建
    1. import pandas as pd
    2. data = {'列1': [1, 2, 3], '列2': [4, 5, 6] }
    3. df = pd.DataFrame(data)
    4. print(df)
  • 方法二:使用NumPy数组创建
    1. import numpy as np
    2. p.random.seed(0)
    3. data = np.random.randint(0, 10, size=(3, 3))
    4. df = pd.DataFrame(data)
    5. print(df)
  • 方法三:使用Pandas函数直接创建
    1. df = pd.DataFrame(index=['A', 'B', 'C'], columns=['列1', '列2'])
    2. print(df)
    在上述示例中,我们展示了如何使用不同的方式创建DataFrame。其中,字典和NumPy数组是最常用的数据源。你可以根据实际需要选择合适的方式。
    2. 常用属性
  • .index:返回DataFrame的索引对象。
  • .columns:返回DataFrame的列标签。
  • .shape:返回DataFrame的形状,即行数和列数。
  • .dtypes:返回DataFrame中每列的数据类型。
  • .values:返回DataFrame的NumPy数组表示形式。
  • .T:返回DataFrame的转置。
  • .head() 和 .tail():分别返回DataFrame的前五行和最后五行。可以通过参数指定行数。
  • .describe():返回DataFrame的描述性统计信息,如计数、平均值、标准差等。
  • .loc[] 和 .iloc[]:用于基于标签选择数据。.loc[]基于行标签和列标签选择数据,而.iloc[]基于行号和列号选择数据。
  • .assign():用于给DataFrame添加新列或修改现有列。可以同时为多个列赋值,无需逐一处理。例如:df = df.assign(新列1=新列1的计算方式, 新列2=新列2的计算方式)
  • .drop():用于删除DataFrame中的行或列。可以通过参数指定要删除的行或列的标签或索引。例如:df = df.drop('列名')df = df.drop(index=行索引)
  • .fillna():用于填充DataFrame中的缺失值(NaN)。可以通过参数指定填充值或使用方法如.ffill()(前向填充)或.bfill()(后向填充)。例如:df = df.fillna(0)df = df.ffill()
  • .sort_values() 和 .sort_index():分别用于对DataFrame的行或列进行排序。可以通过参数指定排序的列或行索引,并选择升序或降序排列。例如:df = df.sort_values(by='列名')df = df.sort_index()
  • .groupby():用于对DataFrame进行分组操作,常用于数据聚合和整理。可以通过参数指定分组的列或表达式,然后对分组后的数据进行进一步处理,如求和、平均值等。例如:grouped_df = df.groupby('列名')
    通过了解这些常用的属性和方法,你将能够更好地使用Pandas进行数据处理和分析工作,提高工作效率和质量。