简介:本文将详细介绍 Pandas 库中的 `pd.read_csv()` 函数的使用方法,包括参数解析、注意事项以及示例代码。通过本文,您将全面了解如何使用 `pd.read_csv()` 函数高效地读取 CSV 格式的数据,并进行数据清洗和处理。
Pandas 是 Python 中用于数据处理和分析的强大库,而 pd.read_csv() 是 Pandas 中用于读取 CSV 文件的函数。CSV(逗号分隔值)是一种常见的文件格式,用于存储表格数据。通过 pd.read_csv(),我们可以轻松地将 CSV 文件导入到 Pandas DataFrame 中,并对其进行进一步的处理和分析。
一、基本用法
import pandas as pddata = pd.read_csv('filename.csv')
这里,’filename.csv’ 是要读取的 CSV 文件的路径。
二、参数解析
sep=' '。usecols=['A', 'B'] 只加载 ‘A’ 和 ‘B’ 两列。skiprows=[0, 1] 将跳过前两行。dtype={'name': str, 'age': int} 将 ‘name’ 列转换为字符串类型,’age’ 列转换为整数类型。在这个例子中,我们使用了多个参数来读取 CSV 文件:使用制表符作为分隔符、不使用标题行、只加载 ‘A’ 和 ‘B’ 两列、跳过前两行、将 ‘N/A’ 视为缺失值、并将 ‘A’ 列转换为字符串类型,’B’ 列转换为整数类型。
# 示例代码:使用多个参数读取 CSV 文件import pandas as pddata = pd.read_csv('filename.csv', sep=' ', header=None, usecols=['A', 'B'], skiprows=[0, 1], na_values=['N/A'], dtype={'A': str, 'B': int})
nrows 参数可以更高效地读取所需行数,减少内存占用。