Python-鸢尾花数据集Iris 数据可视化

作者:热心市民鹿先生2024.01.22 12:04浏览量:21

简介:本文将介绍如何使用Python读取鸢尾花数据集Iris,并进行数据可视化,包括显示数据、描述性统计、散点图、直方图、KDE图和箱线图。我们将使用pandas、matplotlib和seaborn等库来完成这些任务。

首先,我们需要导入所需的库。这里我们将使用pandas来处理数据,matplotlib和seaborn来进行可视化。

  1. import pandas as pd
  2. import matplotlib.pyplot as plt
  3. import seaborn as sns

接下来,我们将使用pandas的read_csv函数来读取鸢尾花数据集。该数据集包含150个样本,每个样本有四个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。目标变量是鸢尾花的种类,有三个类别:setosa、versicolor和virginica。

  1. iris = pd.read_csv('iris.csv')

现在,我们可以查看数据的前几行来了解数据的结构。

  1. print(iris.head())

接下来,我们将进行描述性统计分析,包括计算每个特征的均值、中位数、标准差等。

  1. print(iris.describe())

现在,我们将使用matplotlib和seaborn来绘制散点图和直方图。首先,我们将绘制一个散点图,其中x轴为花萼长度,y轴为花萼宽度。我们可以使用seaborn的scatterplot函数来绘制这个图。

  1. sns.scatterplot(x='萼片长度', y='萼片宽度', data=iris)
  2. plt.show()

接下来,我们将绘制一个直方图,其中x轴为花瓣长度。我们可以使用matplotlib的hist函数来绘制这个图。

  1. pdf = pd.DataFrame(iris['花瓣长度'])
  2. plt.hist(pdf, bins=10, edgecolor='black')
  3. plt.show()

接下来,我们将绘制一个核密度估计图(KDE)。我们可以使用seaborn的kdeplot函数来绘制这个图。这里我们将绘制一个二维图,其中x轴为花萼长度和花萼宽度的核密度估计。

  1. sns.kdeplot(iris[['萼片长度', '萼片宽度']], fill=True)
  2. plt.show()

最后,我们将绘制一个箱线图。箱线图是一种展示一组数据分散情况资料的统计图,包括一组数据的最大值、最小值、中位数和上下四分位数。我们可以使用matplotlib的boxplot函数来绘制这个图。这里我们将绘制一个二维箱线图,其中x轴为鸢尾花的种类,y轴为花瓣长度和花瓣宽度的中位数。

  1. pdf = pd.DataFrame(iris[['花瓣长度', '花瓣宽度']])
  2. plt.boxplot(x=pdf, vert=False)
  3. plt.xticks([1, 2], ['花瓣长度', '花瓣宽度'])
  4. plt.show()