简介：本文详细介绍如何通过浏览器生成HAR文件以及利用Fiddler软件手工抓取静态网页资源，提供从基础操作到高级技巧的全流程指导，帮助开发者高效获取网页数据。

手工抓取静态网页资源全攻略：HAR与Fiddler的深度实践

在Web开发与测试领域，手工抓取静态网页资源是分析页面结构、调试性能问题或提取特定数据的基础技能。无论是前端开发者优化页面加载速度，还是测试工程师验证接口响应，掌握资源抓取方法都能显著提升工作效率。本文将系统介绍两种核心方法：通过浏览器开发者工具生成HAR（HTTP Archive）文件，以及借助Fiddler软件拦截网络请求，帮助读者从入门到精通静态网页资源的抓取。

一、HAR文件：静态网页资源的“数字快照”

1.1 HAR文件的核心价值

HAR文件是一种JSON格式的存档，记录了浏览器与服务器交互过程中的所有网络请求与响应信息，包括：

请求URL：完整路径及查询参数
请求头/响应头：Cookie、User-Agent等关键信息
响应体：HTML、CSS、JS等静态资源内容
时间戳：请求发起与完成的时间节点
状态码：HTTP响应状态（如200、404）

其优势在于无侵入性（无需安装额外软件）和数据完整性（覆盖整个页面加载过程），适合快速分析页面资源依赖关系。

1.2 生成HAR文件的操作流程

以Chrome浏览器为例，生成HAR文件的步骤如下：

打开开发者工具：按F12或右键页面选择“检查”，切换至Network标签。
清除现有记录：点击顶部圆形“清除”按钮，避免干扰数据。
开始录制：勾选Preserve log（防止页面跳转后日志丢失）。
触发页面加载：在地址栏输入目标URL并回车，或点击页面内的链接/按钮。
导出HAR文件：
- 右键任意请求 → 选择“Save all as HAR with content”。
- 或点击顶部菜单... → More tools → Export HAR。

注意事项：

若需抓取动态加载的资源（如AJAX请求），需在页面完全加载后等待2-3秒再导出。
对于HTTPS网站，需确保浏览器未启用“禁用HTTP缓存”选项，否则可能丢失部分响应头。

1.3 HAR文件的解析与应用

生成的HAR文件可通过以下方式分析：

浏览器内置查看器：在Network标签中直接拖入HAR文件，可按域名、类型、时间等维度筛选请求。
第三方工具：如HAR Analyzer（在线解析）、Wireshark（导入HAR分析网络包）。

代码解析：使用Python的haralyzer库提取关键数据：

from haralyzer import HarParser
with open('example.har', 'r') as f:
    har_parser = HarParser(f.read())
# 获取所有CSS请求的URL
css_requests = [entry['request']['url'] for entry in har_parser.har_data['log']['entries'] 
                if entry['request']['url'].endswith('.css')]

二、Fiddler软件：网络请求的“精密过滤器”

2.1 Fiddler的核心功能

Fiddler是一款免费的HTTP调试代理工具，其优势在于：

实时拦截：可修改请求/响应数据（如修改Cookie、重定向URL）。
协议支持：覆盖HTTP/HTTPS/WebSocket等主流协议。
自动化脚本：通过FiddlerScript（JScript.NET）实现自定义过滤规则。

2.2 Fiddler的配置与抓包步骤

安装与启动：
- 下载Fiddler Classic（官网免费版），安装后自动启动。
- 首次运行需配置HTTPS解密（Tools → Options → HTTPS → 勾选Decrypt HTTPS traffic）。
设置浏览器代理：
- Chrome/Firefox：进入设置 → 系统 → 打开计算机代理设置，启用“使用代理服务器”，地址填127.0.0.1，端口8888（Fiddler默认端口）。
- 或通过Fiddler自动配置：Tools → Options → Connections → 勾选Allow remote computers to connect（需重启Fiddler）。
开始抓包：
- 在Fiddler界面点击File → Capture Traffic（或按F12切换抓包状态）。
- 在浏览器中访问目标网页，Fiddler左侧会话列表将实时显示所有请求。
过滤与保存：
- 按域名过滤：在Filters标签中输入目标域名（如example.com）。
- 按类型过滤：勾选Show only the following Hosts并指定资源类型（如.css、.js）。
- 保存会话：右键会话列表 → Save → All Sessions，可选择.saz格式（Fiddler专用）或导出为HAR。

2.3 Fiddler的高级技巧

修改请求数据：
1. 在会话列表中双击目标请求，切换至Inspectors标签。
2. 在WebView或TextView中编辑请求体，点击Run to Completion发送修改后的请求。
自动重放请求：
1. 选中多个会话，右键选择Replay → Reissue Requests。
2. 在弹出窗口中设置重放次数、延迟间隔等参数。
模拟弱网环境：
1. 进入Rules → Customize Rules（或按Ctrl+R）。
2. 在脚本中找到OnBeforeRequest方法，添加延迟代码：
```
if (oSession.uriContains("example.com")) {
    oSession["request-trickle-delay"] = "3000"; // 延迟3秒
}
```

三、HAR与Fiddler的协同应用

3.1 场景对比与选择建议

场景	HAR文件	Fiddler
快速分析页面资源	✅ 导出即用，无需额外配置	❌ 需配置代理
修改请求/响应数据	❌ 仅记录，不可修改	✅ 支持实时编辑
长期监控网络请求	❌ 一次性抓取	✅ 可持续记录
跨设备调试	❌ 依赖浏览器环境	✅ 支持手机代理（需配置WiFi）

推荐策略：

首次分析页面资源时，优先使用HAR文件快速获取全局视图。
需要调试特定请求或模拟网络环境时，切换至Fiddler进行深度操作。

3.2 实战案例：抓取电商网站商品数据

假设需抓取某电商网站的商品列表页（含价格、库存等信息），步骤如下：

使用HAR文件定位关键请求：
- 在Chrome中加载页面，导出HAR文件。
- 解析HAR文件，找到返回商品数据的API接口（如/api/products?page=1）。
通过Fiddler验证接口：
- 配置Fiddler过滤该API请求，观察响应体是否包含完整商品数据。
- 修改请求参数（如page=2），验证分页逻辑是否正确。

自动化脚本提取数据：

import requests
# 模拟Fiddler中抓取到的请求头
headers = {
    'User-Agent': 'Mozilla/5.0',
    'Referer': 'https://example.com/products'
}
response = requests.get('https://example.com/api/products?page=1', headers=headers)
products = response.json()['data']  # 假设响应为JSON格式

四、常见问题与解决方案

4.1 HAR文件缺失响应体

原因：浏览器设置中启用了“禁用缓存”或“清除页面数据”。
解决：在Network标签中取消勾选Disable cache，并确保Preserve log已启用。

4.2 Fiddler无法抓取HTTPS请求

原因：未安装Fiddler的根证书或证书信任设置错误。
解决：

进入Tools → Options → HTTPS，点击Actions → Trust Root Certificate。
在系统证书管理中（certmgr.msc），将Fiddler的证书移至“受信任的根证书颁发机构”。

4.3 移动端抓包失败

原因：手机未正确配置代理或Fiddler未启用远程连接。
解决：

在手机WiFi设置中手动配置代理（IP为电脑局域网IP，端口8888）。
在Fiddler中勾选Allow remote computers to connect并重启软件。

五、总结与延伸学习

手工抓取静态网页资源是Web开发与测试的基础技能，HAR文件与Fiddler软件分别提供了“快速记录”与“深度调试”的双重能力。通过本文的指导，读者可掌握：

生成与分析HAR文件的核心方法；
Fiddler的配置、抓包与高级过滤技巧；
两种工具的协同应用场景。

延伸学习建议：

深入学习FiddlerScript，实现自动化抓包与数据提取；
结合Python的requests库，构建定制化的网页资源抓取工具；
探索Wireshark等底层网络分析工具，应对更复杂的网络调试需求。

掌握这些技能后，开发者将能更高效地分析页面性能、调试接口问题，甚至构建小型的数据采集系统，为项目开发提供有力支持。

手工抓取静态网页资源全攻略：HAR与Fiddler的深度实践

手工抓取静态网页资源全攻略：HAR与Fiddler的深度实践

一、HAR文件：静态网页资源的“数字快照”

1.1 HAR文件的核心价值

1.2 生成HAR文件的操作流程

1.3 HAR文件的解析与应用

二、Fiddler软件：网络请求的“精密过滤器”

2.1 Fiddler的核心功能

2.2 Fiddler的配置与抓包步骤

2.3 Fiddler的高级技巧

三、HAR与Fiddler的协同应用

3.1 场景对比与选择建议

3.2 实战案例：抓取电商网站商品数据

四、常见问题与解决方案

4.1 HAR文件缺失响应体

4.2 Fiddler无法抓取HTTPS请求

4.3 移动端抓包失败

五、总结与延伸学习

最热文章