接口说明

词法分析

词法分析接口向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。

text = "百度是一家高科技公司"

""" 调用词法分析 """
client.lexer(text);

词法分析 请求参数详情

参数名称 是否必选 类型 说明
text string 待分析文本(目前仅支持GBK编码),长度不超过65536字节

词法分析 返回数据参数详情

参数名称 类型 必需 详细说明
text string 原始单条请求文本
items array(object) 词汇数组,每个元素对应结果中的一个词
+item string 词汇的字符串
+ne string 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
+pos string 词性,词性标注算法使用。命名实体识别算法中,此项为空串
+byte_offset int 在text中的字节级offset(使用GBK编码)
+byte_length int 字节级length(使用GBK编码)
+uri string 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
+formal string 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
+basic_words array(string) 基本词成分
+loc_details array(object) 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
++type string 成分类型,如省、市、区、县
++byte_offset int 在item中的字节级offset(使用GBK编码)
++byte_length int 字节级length(使用GBK编码)

词法分析 返回示例

{
  "status":0,
  "version":"ver_1_0_1",
  "results":[
    {
      "retcode":0,
      "text":"百度是一家高科技公司",
      "items":[
         {
           "byte_length":4,
           "byte_offset":0,
           "formal":"",
           "item":"百度",
           "ne":"ORG",
           "pos":"",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["百度"]
         },
         {
           "byte_length":2,
           "byte_offset":4,
           "formal":"",
           "item":"是",
           "ne":"",
           "pos":"v",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["是"]
         },
         {
           "byte_length":4,
           "byte_offset":6,
           "formal":"",
           "item":"一家",
           "ne":"",
           "pos":"m",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["一","家"]
         },
         {
           "byte_length":6,
           "byte_offset":10,
           "formal":"",
           "item":"高科技",
           "ne":"",
           "pos":"n",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["高","科技"]
         },
         {
           "byte_length":4,
           "byte_offset":16,
           "formal":"",
           "item":"公司",
           "ne":"",
           "pos":"n",
           "uri":"",
           "loc_details":[ ],
           "basic_words":["公司"]
         }
      ]
    }
  ]
}

词性缩略说明

词性 含义 词性 含义 词性 含义 词性 含义
n 普通名词 f 方位名词 s 处所名词 t 时间名词
nr 人名 ns 地名 nt 机构团体名 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副形词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号

专名识别缩略词含义

缩略词 含义 缩略词 含义 缩略词 含义 缩略词 含义
PER 人名 LOC 地名 ORG 机构名 TIME 时间

词法分析(定制版)

词法分析接口向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。

text = "百度是一家高科技公司"

""" 调用词法分析(定制版) """
client.lexerCustom(text);

词法分析(定制版) 请求参数详情

参数名称 是否必选 类型 说明
text string 待分析文本(目前仅支持GBK编码),长度不超过65536字节

词法分析(定制版) 返回数据参数详情

参数名称 类型 必需 详细说明
text string 原始单条请求文本
items array(object) 词汇数组,每个元素对应结果中的一个词
+item string 词汇的字符串
+ne string 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
+pos string 词性,词性标注算法使用。命名实体识别算法中,此项为空串
+byte_offset int 在text中的字节级offset(使用GBK编码)
+byte_length int 字节级length(使用GBK编码)
+uri string 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
+formal string 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
+basic_words array(string) 基本词成分
+loc_details array(object) 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
++type string 成分类型,如省、市、区、县
++byte_offset int 在item中的字节级offset(使用GBK编码)
++byte_length int 字节级length(使用GBK编码)

词法分析(定制版) 返回示例

参考词法分析接口

依存句法分析

依存句法分析接口可自动分析文本中的依存句法结构信息,利用句子中词与词之间的依存关系来表示词语的句法结构信息(如“主谓”、“动宾”、“定中”等结构关系),并用树状结构来表示整句的结构(如“主谓宾”、“定状补”等)。

text = "张飞"

""" 调用依存句法分析 """
client.depParser(text);

""" 如果有可选参数 """
options = {}
options["mode"] = 1

""" 带参数调用依存句法分析 """
client.depParser(text, options)

依存句法分析 请求参数详情

参数名称 是否必选 类型 说明
text string 待分析文本(目前仅支持GBK编码),长度不超过256字节
mode string 模型选择。默认值为0,可选值mode=0(对应web模型);mode=1(对应query模型)

依存句法分析 返回数据参数详情

参数名称 +类型 详细说明
log_id uint64 随机数,本次请求的唯一标识码
id number 词的ID
word string
postag string 词性,请参照API文档中的词性(postag)取值范围
head int 词的父节点ID
+deprel string 词与父节点的依存关系,请参照API文档的依存关系标识

依存句法分析 返回示例

{
    "log_id": 12345,
    "text":"今天天气怎么样",
    "items":[
        {
            "id":"1", //id
            "word":"今天", //word
            "postag":"t", //POS tag
            "head":"2", //id of current word's parent
            "deprel":"ATT"  //depend relations between current word and parent
        },
        {
            "id":"2",
            "word":"天气",
            "postag":"n",
            "head":"3",
            "deprel":"SBV",
        },
        {
            "id":"3",
            "word":"怎么样",
            "postag":"r",
            "head":"0",
            "deprel":"HED",
        }
    ]
}

词向量表示

词向量表示接口提供中文词向量的查询功能。

word = "张飞"

""" 调用词向量表示 """
client.wordEmbedding(word);

词向量表示 请求参数详情

参数名称 是否必选 类型 说明
word string 文本内容(GBK编码),最大64字节

词向量表示 返回数据参数详情

参数 类型 描述
log_id uint64 请求唯一标识码
word string 查询词
vec float 词向量结果表示

词向量表示 返回示例

{
  "word": "张飞",
  "vec": [
    0.233962,
    0.336867,
    0.187044,
    0.565261,
    0.191568,
    0.450725,
    ...
    0.43869,
    -0.448038,
    0.283711,
    -0.233656,
    0.555556
  ]
}

DNN语言模型

中文DNN语言模型接口用于输出切词结果并给出每个词在句子中的概率值,判断一句话是否符合语言表达习惯。

text = "床前明月光"

""" 调用DNN语言模型 """
client.dnnlm(text);

DNN语言模型 请求参数详情

参数名称 是否必选 类型 说明
text string 文本内容(GBK编码),最大512字节,不需要切词

DNN语言模型 返回数据参数详情

参数 类型 说明
log_id uint64 请求唯一标识码
word string 句子的切词结果
prob float 该词在句子中的概率值,取值范围[0,1]
ppl float 描述句子通顺的值:数值越低,句子越通顺
{
  "text": "床前明月光",
  "items": [
    {
      "word": "床",
      "prob": 0.0000385273
    },
    {
      "word": "前",
      "prob": 0.0289018
    },
    {
      "word": "明月",
      "prob": 0.0284406
    },
    {
      "word": "光",
      "prob": 0.808029
    }
  ],
  "ppl": 79.0651
}

DNN语言模型 返回示例

词义相似度

输入两个词,得到两个词的相似度结果。

word1 = "北京"

word2 = "上海"

""" 调用词义相似度 """
client.wordSimEmbedding(word1, word2);

""" 如果有可选参数 """
options = {}
options["mode"] = 0

""" 带参数调用词义相似度 """
client.wordSimEmbedding(word1, word2, options)

词义相似度 请求参数详情

参数名称 是否必选 类型 说明
word_1 string 词1(GBK编码),最大64字节
word_2 string 词1(GBK编码),最大64字节
mode string 预留字段,可选择不同的词义相似度模型。默认值为0,目前仅支持mode=0

词义相似度 返回数据参数详情

参数 类型 描述
log_id number 请求唯一标识码,随机数
score number 相似度分数
words array 输入的词列表
+word_1 string 输入的word1参数
+word_2 string 输入的word2参数

词义相似度 返回示例

{
    "score": 0.456862,
    "words": {
      "word_1": "北京",
      "word_2": "上海"
    }
}

短文本相似度

短文本相似度接口用来判断两个文本的相似度得分。

text1 = "浙富股份"

text2 = "万事通自考网"

""" 调用短文本相似度 """
client.simnet(text1, text2);

""" 如果有可选参数 """
options = {}
options["model"] = "CNN"

""" 带参数调用短文本相似度 """
client.simnet(text1, text2, options)

短文本相似度 请求参数详情

参数名称 是否必选 类型 可选值范围 说明
text_1 string 待比较文本1(GBK编码),最大512字节
text_2 string 待比较文本2(GBK编码),最大512字节
model string BOW
CNN
GRNN
默认为"BOW",可选"BOW"、"CNN"与"GRNN"

短文本相似度 返回数据参数详情

参数 类型 描述
log_id number 请求唯一标识
score number 两个文本相似度得分
texts array 输入文本
+text_1 string 第一个短文本
+text_2 string 第二个短文本

短文本相似度 返回示例

{
    "log_id": 12345,
    "texts":{
        "text_1":"浙富股份&q