所有文档

          语言处理技术

          词法分析

          词法分析接口

          接口描述

          词法分析(通用版):向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。

          词法分析(定制版):向用户提供分词、词性标注、专名识别三大功能;用户在控制台中进行个性化配置,支持自定义专有名词词表与规则,通过定制版可有效识别应用场景中的小众词汇与类别。

          定制版接口的使用教程请看链接定制版配置使用说明帖

          请求说明

          请求示例一

          • HTTP方法: POST
          • (通用版)请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer
          • (定制版)请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer_custom
          • URL参数:
          参数
          access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取
          • Header如下:
          参数
          Content-Type application/json
          • body请求示例:

            {
              "text": "百度是一家高科技公司"
            }

          请求格式

          POST方式调用

          注意:要求使用JSON格式的结构体来描述一个请求的具体内容。

          body整体文本内容可以支持GBK和UTF-8两种格式的编码。

          1、GBK支持:默认按GBK进行编码,输入内容为GBK编码,输出内容为GBK编码,否则会接口报错编码错误

          2、UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感) 例如 https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

          请求参数

          参数名称 类型 详细说明
          text string 待分析文本,长度不超过20000字节

          返回格式

          JSON格式

          默认返回内容为GBK编码

          若用户指定输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码

          返回参数

          参数名称 类型 必需 详细说明
          text string 原始单条请求文本
          items array of objects 词汇数组,每个元素对应结果中的一个词
          +item string 词汇的字符串
          +ne string 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
          +pos string 词性,词性标注算法使用。命名实体识别算法中,此项为空串
          +byte_offset int 在text中的字节级offset
          +byte_length int 字节级length
          +uri string 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
          +formal string 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
          +basic_words array of strings 基本词成分
          +loc_details array of objects 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
          ++type string 成分类型,如省、市、区、县
          ++byte_offset int 在item中的字节级offset
          ++byte_length int 字节级length

          返回示例

          {
                "text":"百度是一家高科技公司",
                "items":[
                   {
                     "byte_length":4,
                     "byte_offset":0,
                     "formal":"",
                     "item":"百度",
                     "ne":"ORG",
                     "pos":"",
                     "uri":"",
                     "loc_details":[ ],
                     "basic_words":["百度"]
                   },
                   {
                     "byte_length":2,
                     "byte_offset":4,
                     "formal":"",
                     "item":"是",
                     "ne":"",
                     "pos":"v",
                     "uri":"",
                     "loc_details":[ ],
                     "basic_words":["是"]
                   },
                   {
                     "byte_length":4,
                     "byte_offset":6,
                     "formal":"",
                     "item":"一家",
                     "ne":"",
                     "pos":"m",
                     "uri":"",
                     "loc_details":[ ],
                     "basic_words":["一","家"]
                   },
                   {
                     "byte_length":6,
                     "byte_offset":10,
                     "formal":"",
                     "item":"高科技",
                     "ne":"",
                     "pos":"n",
                     "uri":"",
                     "loc_details":[ ],
                     "basic_words":["高","科技"]
                   },
                   {
                     "byte_length":4,
                     "byte_offset":16,
                     "formal":"",
                     "item":"公司",
                     "ne":"",
                     "pos":"n",
                     "uri":"",
                     "loc_details":[ ],
                     "basic_words":["公司"]
                   }
                ]
          }

          词性缩略说明

          词性 含义 词性 含义 词性 含义 词性 含义
          n 普通名词 f 方位名词 s 处所名词 t 时间名词
          nr 人名 ns 地名 nt 机构团体名 nw 作品名
          nz 其他专名 v 普通动词 vd 动副词 vn 名动词
          a 形容词 ad 副形词 an 名形词 d 副词
          m 数量词 q 量词 r 代词 p 介词
          c 连词 u 助词 xc 其他虚词 w 标点符号

          专名识别缩略词含义

          缩略词 含义 缩略词 含义 缩略词 含义 缩略词 含义
          PER 人名 LOC 地名 ORG 机构名 TIME 时间
          上一篇
          注意事项
          下一篇
          词向量表示