知识库节点
更新时间:2025-03-13
整体概述
知识库节点支持根据输入的query,在选定的知识库中检索相关片段并召回,返回切片列表。你可以上传文件并建立知识库,在知识库节点中勾选想要使用的知识库进行检索。
参数配置
输入参数:参数名不可修改,参数类型为string,上级节点的输出参数会强制转换为string类型作为知识库节点的输入,输入参数有两种类型:1)引用类型为引用上一个节点的输出变量,2)常量类型,可以输入一个string类型的入参。
选择知识库:选择需要检索的知识库,支持选择多个知识库。
检索策略:按照指定的检索策略从知识库中寻找匹配的片段,不同的检索策略可以更有效地找到正确的信息,提高最终生成的答案的准确性和可用性。
检索策略 | 定义 |
---|---|
混合检索 | 使用倒排索引和语义检索两种策略进行召回,推荐在需要对句子理解和语义关联性的场景下使用,综合效果更优。 |
语义检索 | 语义检索将返回与查询Query含义相匹配的内容,而不是与查询字面意思相匹配的内容。推荐在需要对上下文相关性和意图相关性的场景下使用。 |
全文检索 | 使用倒排索引策略进行检索召回,推荐在需要对关键词精准匹配的场景下使用。 |
重排序配置:支持配置召回数量和匹配分,控制rerank模型重排序效果:开启rerank对召回切片重排序后,会按匹配分排序。关闭rerank会按检索策略默认排序。
- 重排序模型:当前默认为bce-reranker-base_v1,限时免费。
- 召回数量:设置从知识库中召回与输入Query匹配的知识片段的个数,设定的数量越大,召回的片段越多。
- 匹配分:在检索过程中,用来计算输入Query和知识库片段的相似度,高于匹配分数的片段将会被检索召回。
输出参数:在知识库中检索输出的变量信息及变量类型。
字段名 | 含义 |
---|---|
segment_id | 获取切片的标识符 |
document_id | 切片所在文档的标识符 |
dataset_id | 数据集的标识符 |
content | 实际抓取的内容 |
document_name | 该文档的标题 |
dataset_name | 该数据集的标题 |
word_count | 抓取内容的字数统计 |