如何自动抓取网页文档

更新时间：2024-09-13

操作流程介绍

配置接入任务

获取对应知识库信息

参见《通用说明》

详细任务定义

字段名	说明	取值
name	任务名	人工指定
schedule_start	开始时间戳	人工指定
schedule_end	结束时间戳	人工指定
task_id	唯一的任务id	系统生成
connector_type	连接器类型	webcrawler
source_detail_json	任务详细规则
status	任务状态	初始为0，自动维护
space_guid	对应知识库	系统参数
user_id	甄知平台用户id	系统参数
user_name	甄知平台用户名	系统参数
account_id	租户id	系统参数
token	访问token	系统参数

注：上面的任务信息当前需要由甄知管理员干预设置。后续版本将提供产品功能页面

注：当前网页抓取仅限html文档内容，文件附件、图片等内容暂时不支持。

配置示例

Plain Text

1{
2    "rootUrls":[
3        {
4            "url": "https://baike.baidu.com/item/%E5%8F%B6%E5%85%89%E5%AF%8C/45649",
5            "crawlDepth": 10,
6            "crawlInterval": 10,
7            "includeUrlsRegPatterns": ["https://baike\\.baidu\\.com/.*"],
8            "excludeUrlRegPatterns": ["http://www\\.baidu\\.com"],
9            "excludeUnknownHost": true
10        }
11    ]
12}

如何接入数据库

数据接入SDK使用手册

百度智能云

甄知企业知识管理平台

甄知企业知识管理平台

如何自动抓取网页文档

操作流程介绍

配置接入任务

获取对应知识库信息

详细任务定义

配置示例

甄知 企业知识管理平台

如何自动抓取网页文档

操作流程介绍

配置接入任务

获取对应知识库信息

详细任务定义

配置示例

甄知企业知识管理平台