短文本相似度

更新时间：2025-11-17

短文本相似度接口

接口描述

本接口已于2021年10月1日升级，基于百度自研的ERNIE预训练语言模型，该算子具备更强语义理解能力，能够深层理解文本间的语义关系。

短文本相似度接口用来判断两个文本的相似度得分。

在线调试

您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求说明

请求示例

HTTP方法：POST

请求URL：https://aip.baidubce.com/rpc/2.0/nlp/v2/simnet

URL参数：

参数	值
access_token	通过API Key和Secret Key获取的access_token,参考“Access Token获取”

Header如下：

参数	值
Content-Type	application/json

请求格式

POST方式调用

注意：要求使用JSON格式的结构体来描述一个请求的具体内容。

body整体文本内容可以支持GBK和UTF-8两种格式的编码。

1、GBK支持：默认按GBK进行编码，输入内容为GBK编码，输出内容为GBK编码，否则会接口报错编码错误

2、UTF-8支持：若文本需要使用UTF-8编码，请在url参数中添加charset=UTF-8 （大小写敏感）

请求参数

参数	类型	是否必须	描述
text_1	string	是	待比较文本1，最大512字节
text_2	string	是	待比较文本2，最大512字节
model	string	否	默认为"ERNIE"

关于模型

ERNIE模型：基于百度自研的ERNIE预训练语言模型，具备更强语义理解能力，能够深层理解文本间的语义关系，且语义匹配效果更好。

Body请求示例:

                JSON
                
                {
	"text_1": "浙富股份", 
	"text_2": "万事通自考网" 
}

返回格式

JSON格式

默认返回内容为GBK编码

若用户指定输入为UTF-8编码（通过指定charset参数），则返回内容为UTF-8编码

返回参数

参数	描述	取值
log_id	uint64	随机数，请求唯一标识码
score	float	相似度结果取值(0,1]，分数越高说明相似度越高

返回示例

Plain Text

1{
2	"log_id": 12345,
3    "texts":{
4        "text_1":"浙富股份",
5        "text_2":"万事通自考网"
6    },
7    "score":0.3300237655639648 //相似度结果
8},

评价此篇文章

有帮助没帮助

实体分析

文本纠错

百度智能云

语言与知识