短文本相似度
更新时间:2022-11-15
短文本相似度接口
接口描述
本接口已于2021年10月1日升级,基于百度自研的ERNIE预训练语言模型,该算子具备更强语义理解能力,能够深层理解文本间的语义关系。
短文本相似度接口用来判断两个文本的相似度得分。
在线调试
您可以在示例代码中心中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
请求说明
请求示例
HTTP方法:POST
请求URL:https://aip.baidubce.com/rpc/2.0/nlp/v2/simnet
URL参数:
参数 | 值 |
---|---|
access_token | 通过API Key和Secret Key获取的access_token,参考“Access Token获取” |
Header如下:
参数 | 值 |
---|---|
Content-Type | application/json |
请求格式
POST方式调用
注意:要求使用JSON格式的结构体来描述一个请求的具体内容。
body整体文本内容可以支持GBK和UTF-8两种格式的编码。
1、GBK支持:默认按GBK进行编码,输入内容为GBK编码,输出内容为GBK编码,否则会接口报错编码错误
2、UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感)
请求参数
参数 | 类型 | 是否必须 | 描述 |
---|---|---|---|
text_1 | string | 是 | 待比较文本1,最大512字节 |
text_2 | string | 是 | 待比较文本2,最大512字节 |
model | string | 否 | 默认为"ERNIE" |
关于模型
ERNIE模型:基于百度自研的ERNIE预训练语言模型,具备更强语义理解能力,能够深层理解文本间的语义关系,且语义匹配效果更好。
Body请求示例:
{
"text_1": "浙富股份",
"text_2": "万事通自考网"
}
返回格式
JSON格式
默认返回内容为GBK编码
若用户指定输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码
返回参数
参数 | 描述 | 取值 |
---|---|---|
log_id | uint64 | 随机数,请求唯一标识码 |
score | float | 相似度结果取值(0,1],分数越高说明相似度越高 |
返回示例
{
"log_id": 12345,
"texts":{
"text_1":"浙富股份",
"text_2":"万事通自考网"
},
"score":0.3300237655639648 //相似度结果
},