Python DataFrame新增一列的几种方法

简介：本文将介绍在Python的pandas库中，如何为DataFrame新增一列。我们将通过示例代码展示几种常见的方法，包括直接赋值、使用apply函数、以及通过其他列的计算生成新列。

在Python的pandas库中，DataFrame是一个非常重要的数据结构，它允许我们方便地处理和分析表格型数据。在数据处理过程中，经常需要为DataFrame新增一列。本文将介绍几种常见的新增列的方法。

最简单的方法是直接给DataFrame赋一个新的列。假设我们有一个DataFrame df，我们想要新增一个名为new_column的列，并且给所有的行赋相同的值，例如0。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
# 直接赋值新增一列
df['new_column'] = 0
print(df)

输出：

A  B  new_column
0  1  4           0
1  2  5           0
2  3  6           0

如果新列的值需要根据其他列的值进行计算，我们可以使用apply函数。例如，我们想要新增一个列C，它的值是列A和列B的和。

# 使用apply函数新增一列
df['C'] = df.apply(lambda row: row['A'] + row['B'], axis=1)
print(df)

输出：

A  B  new_column  C
0  1  4           0  5
1  2  5           0  7
2  3  6           0  9

除了使用apply函数，我们还可以直接通过其他列的计算来生成新列。这通常更加高效，因为它避免了逐行计算。

# 通过其他列的计算生成新列
df['D'] = df['A'] * df['B']
print(df)

输出：

A  B  new_column  C   D
0  1  4           0  5   4
1  2  5           0  7  10
2  3  6           0  9  18

新增列是pandas DataFrame中常见的操作，我们可以通过直接赋值、使用apply函数或者通过其他列的计算来生成新列。在选择方法时，应该考虑数据的规模和计算的复杂性，以选择最高效的方法。