如何自动抓取网页文档
更新时间:2024-09-13
操作流程介绍
配置接入任务
获取对应知识库信息
参见《通用说明》
详细任务定义
字段名 | 说明 | 取值 |
---|---|---|
name | 任务名 | 人工指定 |
schedule_start | 开始时间戳 | 人工指定 |
schedule_end | 结束时间戳 | 人工指定 |
task_id | 唯一的任务id | 系统生成 |
connector_type | 连接器类型 | webcrawler |
source_detail_json | 任务详细规则 | ![]() |
status | 任务状态 | 初始为0,自动维护 |
space_guid | 对应知识库 | 系统参数 |
user_id | 甄知平台用户id | 系统参数 |
user_name | 甄知平台用户名 | 系统参数 |
account_id | 租户id | 系统参数 |
token | 访问token | 系统参数 |
注:上面的任务信息当前需要由甄知管理员干预设置。后续版本将提供产品功能页面
注:当前网页抓取仅限html文档内容,文件附件、图片等内容暂时不支持。
配置示例
Plain Text
1{
2 "rootUrls":[
3 {
4 "url": "https://baike.baidu.com/item/%E5%8F%B6%E5%85%89%E5%AF%8C/45649",
5 "crawlDepth": 10,
6 "crawlInterval": 10,
7 "includeUrlsRegPatterns": ["https://baike\\.baidu\\.com/.*"],
8 "excludeUrlRegPatterns": ["http://www\\.baidu\\.com"],
9 "excludeUnknownHost": true
10 }
11 ]
12}