简介：本文详细介绍了如何使用Python爬取淘宝商品信息（名称、店铺、销量、地址等），并通过自动化脚本将数据存储为CSV文件，帮助开发者高效获取电商数据。

Python爬取淘宝商品信息：自动化存储为CSV文件指南

引言

在电商数据分析场景中，商品信息的快速获取与结构化存储是核心需求。淘宝作为国内最大的电商平台，其商品数据（名称、店铺、销量、地址等）对市场调研、竞品分析具有重要价值。本文将详细介绍如何通过Python实现自动化爬取淘宝商品信息，并将数据存储为CSV文件，覆盖从环境配置到数据清洗的全流程。

一、技术选型与工具准备

1.1 核心工具选择

Requests库：处理HTTP请求，模拟浏览器访问淘宝页面。
BeautifulSoup：解析HTML结构，提取商品信息。
Pandas：将数据转换为DataFrame并导出为CSV文件。
Selenium（可选）：应对动态加载内容（如Ajax请求）。

1.2 环境配置

pip install requests beautifulsoup4 pandas selenium

浏览器驱动：若使用Selenium，需下载与浏览器版本匹配的驱动（如ChromeDriver）。

1.3 法律与伦理规范

遵守robots.txt：检查淘宝的robots.txt文件，避免爬取禁止访问的页面。
频率控制：通过time.sleep()设置请求间隔（建议2-5秒），防止被封IP。
数据用途声明：明确爬取数据仅用于个人学习或合法商业分析，不得用于非法用途。

二、淘宝商品信息爬取实现

2.1 页面分析与定位

淘宝商品列表页通常包含以下结构：

商品名称：<div class="title">或<a class="J_ClickStat">。
店铺名称：<div class="shop">或<a class="shop-name">。
销量数据：<div class="sale-num">或<span class="sold">。
价格与地址：<div class="price">和<div class="location">。

示例代码（静态页面解析）：

import requests
from bs4 import BeautifulSoup
def fetch_taobao_page(keyword):
    url = f"https://s.taobao.com/search?q={keyword}"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("请求失败")
        return None
def parse_commodity_info(html):
    soup = BeautifulSoup(html, "html.parser")
    items = soup.find_all("div", class_="item J_MouserOnverReq")
    data = []
    for item in items:
        name = item.find("div", class_="title").get_text(strip=True)
        shop = item.find("div", class_="shop").get_text(strip=True)
        sales = item.find("div", class_="sale-num").get_text(strip=True)
        location = item.find("div", class_="location").get_text(strip=True)
        data.append([name, shop, sales, location])
    return data

2.2 动态内容处理（Selenium方案）

若页面通过JavaScript动态加载数据，需使用Selenium模拟浏览器行为：

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
def fetch_with_selenium(keyword):
    driver = webdriver.Chrome()
    url = f"https://s.taobao.com/search?q={keyword}"
    driver.get(url)
    time.sleep(3)  # 等待页面加载
    items = driver.find_elements(By.CSS_SELECTOR, ".item.J_MouserOnverReq")
    data = []
    for item in items:
        name = item.find_element(By.CSS_SELECTOR, ".title").text
        shop = item.find_element(By.CSS_SELECTOR, ".shop").text
        sales = item.find_element(By.CSS_SELECTOR, ".sale-num").text
        location = item.find_element(By.CSS_SELECTOR, ".location").text
        data.append([name, shop, sales, location])
    driver.quit()
    return data

三、数据存储与CSV文件生成

3.1 使用Pandas导出CSV

import pandas as pd
def save_to_csv(data, filename="taobao_commodities.csv"):
    df = pd.DataFrame(data, columns=["商品名称", "店铺名称", "销量", "地址"])
    df.to_csv(filename, index=False, encoding="utf_8_sig")  # 避免中文乱码
    print(f"数据已保存至{filename}")
# 调用示例
html = fetch_taobao_page("手机")
if html:
    data = parse_commodity_info(html)
    save_to_csv(data)

3.2 数据清洗与优化

去重：通过df.drop_duplicates()删除重复商品。
缺失值处理：使用df.fillna("未知")填充缺失字段。
格式统一：将销量转换为数值类型（如int(sales.replace("万", "0000"))）。

四、进阶优化与注意事项

4.1 反爬策略应对

IP代理池：使用requests.Session()结合代理IP（如proxies={"http": "ip:port"}）。
Cookie管理：登录后获取Cookie，模拟已登录用户访问。
User-Agent轮换：随机切换浏览器标识，降低被封风险。

4.2 性能优化

多线程/异步请求：通过concurrent.futures或aiohttp加速爬取。
增量爬取：记录已爬取商品的ID，避免重复获取。

4.3 法律合规建议

数据脱敏：对敏感信息（如价格）进行加密或聚合处理。
遵守服务条款：确保爬取行为符合淘宝的用户协议。

五、完整代码示例

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
def fetch_taobao_data(keyword, max_pages=3):
    all_data = []
    for page in range(1, max_pages + 1):
        url = f"https://s.taobao.com/search?q={keyword}&s={(page-1)*44}"
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, "html.parser")
            items = soup.find_all("div", class_="item J_MouserOnverReq")
            for item in items:
                try:
                    name = item.find("div", class_="title").get_text(strip=True)
                    shop = item.find("div", class_="shop").get_text(strip=True)
                    sales = item.find("div", class_="sale-num").get_text(strip=True)
                    location = item.find("div", class_="location").get_text(strip=True)
                    all_data.append([name, shop, sales, location])
                except Exception as e:
                    print(f"解析错误: {e}")
            time.sleep(2)  # 礼貌性延迟
        else:
            print(f"第{page}页请求失败")
    return all_data
def main():
    keyword = input("请输入搜索关键词（如手机）: ")
    data = fetch_taobao_data(keyword)
    if data:
        save_to_csv(data, f"{keyword}_commodities.csv")
    else:
        print("未获取到数据")
if __name__ == "__main__":
    main()

六、总结与展望

通过Python爬取淘宝商品信息并存储为CSV文件，可实现电商数据的自动化采集与分析。开发者需注意技术实现的合法性与稳定性，结合反爬策略与数据清洗技术，构建高效、可靠的数据管道。未来可进一步探索结合API接口（如淘宝开放平台）或分布式爬虫框架（如Scrapy）提升数据获取效率。

Python爬取淘宝商品信息：自动化存储为CSV文件指南

Python爬取淘宝商品信息：自动化存储为CSV文件指南

引言

一、技术选型与工具准备

1.1 核心工具选择

1.2 环境配置

1.3 法律与伦理规范

二、淘宝商品信息爬取实现

2.1 页面分析与定位

2.2 动态内容处理（Selenium方案）

三、数据存储与CSV文件生成

3.1 使用Pandas导出CSV

3.2 数据清洗与优化

四、进阶优化与注意事项

4.1 反爬策略应对

4.2 性能优化

4.3 法律合规建议

五、完整代码示例

六、总结与展望

最热文章