豆瓣图书统计可视化分析

作者:搬砖的石头2024.01.17 20:44浏览量:28

简介:本文通过数据清洗、可视化分析等手段,对豆瓣图书的数据进行深入挖掘,帮助读者了解现代人阅读偏好和书籍市场趋势。

在当今数字化时代,越来越多的人选择通过电子书或网络平台阅读书籍。作为国内知名的读书社区,豆瓣拥有大量关于图书的数据。本文将通过数据清洗、可视化分析等手段,对豆瓣图书的数据进行深入挖掘,帮助读者了解现代人阅读偏好和书籍市场趋势。
一、数据准备
首先,我们需要从豆瓣网站上获取相关的图书数据。这些数据通常以CSV格式存储,包含书籍的标题、作者、出版社、出版时间、评分等信息。由于数据来源可能存在差异,数据格式可能不尽相同。在获取数据后,我们需要进行数据清洗,以消除异常值和缺失值。
二、数据预处理
在数据预处理阶段,我们需要对数据进行缺失值和空值的处理。例如,我们可以使用以下代码将’None’转换为NaN值:

  1. df = df.replace('None', np.nan)

此外,我们还可以使用以下代码查看缺失值情况:

  1. print(df.isnull().sum())

对于含有空值的列,我们可以选择将其删除或填充缺失值。例如,我们可以删除’ISBM’列:

  1. df = df.drop('ISBM', axis=1)

此外,我们还可以使用以下代码删除指定列含有空值的行:
df = df.dropna(subset=[‘作者’,’出版社’,’出版时间’,’页数’,’价格’,’评分’,’评论数量’], how=’any’)df = df.reset_index(drop=True)

  1. df = df.reset_index(drop=True)

三、出版时间清洗
在出版时间清洗阶段,我们需要将不同的时间表达方式统一为标准格式。为了方便可视化分析,我们可以将时间戳转换为特定日期格式。例如,我们可以使用以下代码将时间戳转换为YYYY-MM-DD格式:

  1. date_format = '%Y-%m-%d'
  2. date_series = pd.to_datetime(df['出版时间'], format=date_format)
  3. df['出版时间'] = date_series

四、可视化分析
在可视化分析阶段,我们可以使用各种图表来展示数据。例如,我们可以使用饼图来展示不同类别的书籍所占比例:

  1. df.groupby('类别')['评分'].count().unstack().plot(kind='pie', autopct='%1.1f%%')

通过观察饼图,我们可以发现小说类书籍所占比例最高,其次是经典类和社会类书籍。这表明现代人更喜欢阅读小说类书籍。此外,我们还可以使用柱状图来展示不同出版社的出版书籍数量:

  1. df.groupby('出版社')['书名'].count().plot(kind='bar')

通过观察柱状图,我们可以发现不同出版社的出版书籍数量存在差异。例如,中信出版社和机械工业出版社更喜欢出版实用类书籍,而上海译文出版社更喜欢出版小说类书籍。读者可以根据自己的阅读偏好选择合适的出版社。最后,我们还可以使用热力图来展示不同书籍之间的关联关系:
```python