中文词向量表示
更新时间:2024-03-01
该接口已停止更新且即将下线,为避免影响您目前的业务使用,请您及时进行相关迁移工作
接口描述
本接口已于2017年5月25日升级,仅支持中文词向量查询。如果希望查询两个词的相似度,可使用词义相似度。
中文词向量表示接口提供中文词汇的词向量查询功能,实现文本的可计算。
请求说明
请求示例
HTTP方法: POST
请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v2/word_emb_vec
URL参数:
参数 | 值 |
---|---|
access_token | 通过API Key和Secret Key获取的access_token,参考“Access Token获取” |
Header如下:
参数 | 值 |
---|---|
Content-Type | application/json |
Body请求示例:
{
"word":"张飞"
}
请求格式
POST方式调用
注意:要求使用JSON格式的结构体来描述一个请求的具体内容。
body整体文本内容可以支持GBK和UTF-8两种格式的编码。
1、GBK支持:默认按GBK进行编码,输入内容为GBK编码,输出内容为GBK编码,否则会接口报错编码错误
2、UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感) 例如 https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074
请求参数
参数 | 是否必选 | 类型 | 描述 |
---|---|---|---|
word | 是 | string | 文本内容,最大64字节 |
dem | 否 | int | 词向量维度。默认值为0(对应1024维),目前仅支持dem=0 |
返回格式
JSON格式
默认返回内容为GBK编码
若用户指定输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码
返回参数
参数 | 类型 | 描述 |
---|---|---|
log_id | uint64 | 请求唯一标识码 |
word | string | 查询词 |
vec | float | 词向量结果表示 |
返回示例
{
"word": "张飞",
"vec": [
0.233962,
0.336867,
0.187044,
0.565261,
0.191568,
0.450725,
...
0.43869,
-0.448038,
0.283711,
-0.233656,
0.555556
]
}