前期数据准备
数据模型的准备
设置中文别名
数据库中存放的字段可能是英文的,在数据模型的编辑页面,直接使用原始数据表即直接使用英文字段,若不对其进行处理,在使用智能问数功能时,大模型无法将您的中文自然语言与英文字段进行对应,也就无法给出令人满意的答案。所以我们需要在数据模型的编辑页面将字段名称设置为可读性较高的中文别名。
设置准确的日期时间、地理信息字段类
智能问数需要根据您设置的字段类型,进行关键词识别、匹配和处理,因此对于日期、时间、地理纬度相关字段,您需要在数据模型页面进行数据类型转换。
例如,如果日期字段本来以字符串形式存储,选中对应的字段名称,在「数据类型转换」将其转成日期类型。设置完成后,您即可在智能问数页面中直接针对日期范围的筛选进行相关提问。
类似的,如果字段包含地理经纬度、地名/区域等信息,选中字段后「标记为地理信息」,即可在智能问数中直接针对地理筛选类问题进行提问,并获得地图类图表的分析展示。
添加计算字段
若需要在提问中对已有维度和度量之外的字段进行提问,则需要在数据模型中根据新字段的计算逻辑点击「新增计算维度」或者「新增计算度量」添加相应计算字段,否则可能会导致智能问数因无法直接识别和分析未知的维度或度量,而返回不够准确的结果。
如下图中示例,表中已存在度量字段“成本”和“销售额”,若我们想针对表中未明确定义的“利润”进行提问和分析,则需在数据模型中点击「新增度量字段」,进一步对新增字段的「表达式」或「表计算」进行定义,计算字段添加完成后,即可在智能问数页面对“利润”相关的数据信息进行直接提问,更多关于计算字段的内容可参考该章节:计算字段概述
如果您需要新增和定义的是日期、时间类字段,为了便于智能问数识别,请将直接将计算字段设置为对应的字段类型。类似的,如上文所述,如新增的字段包含地理信息,需要在将地理类字段「标记为地理信息」。
隐藏不需要被提问的字段
数据模型中有些字段可能并不需要在智能问数中使用(如:id),此时可以将字段设置「在分析中隐藏」。
保证各个字段名称唯一
数据模型中的字段使用中文别名时需要唯一,否则在使用时智能问数功能时,文心可能会使用相似字段名称进行理解和答复,导致结果不精准。 数据模型准备完毕后,您可以在「新建智能问数页面」表单中勾选处理好的数据模型,然后进行后续的操作。
私域知识录入
如果您的数据源中有多个类似或相同类别的字段,如有多个日期或地理字段,那么当进行日期筛选的提问时,大模型可能会因无法区分相似的维度或度量而无法提供准确的分析。这种情况下,需要您单独设置重点关注的字段,引导智能问数在重点字段中进行筛选。在数据模型页面,找到相应的数据模型选择「更多」中的「智能问数高级配置」,配置「重点筛选字段」。
您的数据源中可能涉及一些特定的知识或一些不常见的字段匹配,直接提问可能无法让大模型理解相应的意思,需要您在提问前告诉大模型需要注意或学习的特定内容,在「注意事项」中进行配置,提升智能问数的准确性。 如下图中举例的,涉及到特定行业的私域名词时,可以配置 “当出现晨光、波司登、惠普等品牌限制时,请对[产品名称]字段进行筛选”,以及“无需线下配货是对[邮寄方式]字段进行筛选”等注意事项。