第二节 Pandas 的数据读取_pd.read_csv()的使用详解

作者:十万个为什么2024.01.17 20:44浏览量:42

简介:本文将详细介绍 Pandas 库中的 `pd.read_csv()` 函数的使用方法,包括参数解析、注意事项以及示例代码。通过本文,您将全面了解如何使用 `pd.read_csv()` 函数高效地读取 CSV 格式的数据,并进行数据清洗和处理。

Pandas 是 Python 中用于数据处理和分析的强大库,而 pd.read_csv() 是 Pandas 中用于读取 CSV 文件的函数。CSV(逗号分隔值)是一种常见的文件格式,用于存储表格数据。通过 pd.read_csv(),我们可以轻松地将 CSV 文件导入到 Pandas DataFrame 中,并对其进行进一步的处理和分析。
一、基本用法

  1. import pandas as pd
  2. data = pd.read_csv('filename.csv')

这里,’filename.csv’ 是要读取的 CSV 文件的路径。
二、参数解析

  1. filepath_or_buffer: 这是必需的参数,用于指定要读取的 CSV 文件的路径或文件对象。
  2. sep/delimiter: 用于指定字段的分隔符。默认为 ‘,’。例如,如果您的 CSV 文件使用制表符作为分隔符,可以设置 sep=' '
  3. header: 用于指定 CSV 文件中的标题行。默认为 ‘infer’,即自动检测标题行。如果您的 CSV 文件没有标题行,可以设置为 None。
  4. index_col: 用于指定用作行索引的列。默认为 None。
  5. usecols: 一个标签列表,指定要加载的列。例如,usecols=['A', 'B'] 只加载 ‘A’ 和 ‘B’ 两列。
  6. skiprows: 一个整数列表,指定要跳过的行数。例如,skiprows=[0, 1] 将跳过前两行。
  7. na_values: 一个或多个标记字符串,这些字符串将被视为缺失值(NaN)。默认为 None。
  8. dtype: 用于指定数据类型。例如,dtype={'name': str, 'age': int} 将 ‘name’ 列转换为字符串类型,’age’ 列转换为整数类型。
  9. parse_dates: 一个布尔值或列表,指示是否将日期列解析为日期类型。默认为 False。
  10. skipfooter: 跳过 CSV 文件末尾的行数。默认为 0。
  11. encoding: 用于指定文件的字符编码。默认为 ‘utf-8’。
  12. squeeze: 如果数据只包含一列,则返回 Series。默认为 False。
  13. nrows: 要读取的行数。如果提供此参数,则返回一个 DataFrame,其中包含指定的行数。
    1. # 示例代码:使用多个参数读取 CSV 文件
    2. import pandas as pd
    3. data = pd.read_csv('filename.csv', sep=' ', header=None, usecols=['A', 'B'], skiprows=[0, 1], na_values=['N/A'], dtype={'A': str, 'B': int})
    在这个例子中,我们使用了多个参数来读取 CSV 文件:使用制表符作为分隔符、不使用标题行、只加载 ‘A’ 和 ‘B’ 两列、跳过前两行、将 ‘N/A’ 视为缺失值、并将 ‘A’ 列转换为字符串类型,’B’ 列转换为整数类型。
    三、注意事项
  • 在读取 CSV 文件时,请确保文件路径和编码方式正确。
  • 根据 CSV 文件的实际情况,可能需要调整分隔符、跳过行数、处理缺失值等参数。
  • 如果 CSV 文件中包含大量数据,使用 nrows 参数可以更高效地读取所需行数,减少内存占用。