语言处理技术

    词法分析

    词法分析接口

    接口描述

    词法分析(通用版):向用户提供分词、词性标注、专名识别三大功能;能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。

    词法分析(定制版):向用户提供分词、词性标注、专名识别三大功能;用户在控制台中进行个性化配置,支持自定义专有名词词表与规则,通过定制版可有效识别应用场景中的小众词汇与类别。

    定制版接口的使用教程请看链接定制版配置使用说明帖

    请求说明

    请求示例一

    • HTTP方法: POST
    • (通用版)请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer
    • (定制版)请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer_custom
    • URL参数:
    参数
    access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取
    • Header如下:
    参数
    Content-Type application/json
    • body请求示例:

      {
        "text": "百度是一家高科技公司"
      }

    请求格式

    POST方式调用

    注意:要求使用JSON格式的结构体来描述一个请求的具体内容。

    body整体文本内容可以支持GBK和UTF-8两种格式的编码。

    1、GBK支持:默认按GBK进行编码,输入内容为GBK编码,输出内容为GBK编码,否则会接口报错编码错误

    2、UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感) 例如 https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

    请求参数

    参数名称 类型 详细说明
    text string 待分析文本,长度不超过20000字节

    返回格式

    JSON格式

    默认返回内容为GBK编码

    若用户指定输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码

    返回参数

    参数名称 类型 必需 详细说明
    text string 原始单条请求文本
    items array of objects 词汇数组,每个元素对应结果中的一个词
    +item string 词汇的字符串
    +ne string 命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串
    +pos string 词性,词性标注算法使用。命名实体识别算法中,此项为空串
    +byte_offset int 在text中的字节级offset
    +byte_length int 字节级length
    +uri string 链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串
    +formal string 词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串
    +basic_words array of strings 基本词成分
    +loc_details array of objects 地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。
    ++type string 成分类型,如省、市、区、县
    ++byte_offset int 在item中的字节级offset
    ++byte_length int 字节级length

    返回示例

    {
          "text":"百度是一家高科技公司",
          "items":[
             {
               "byte_length":4,
               "byte_offset":0,
               "formal":"",
               "item":"百度",
               "ne":"ORG",
               "pos":"",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["百度"]
             },
             {
               "byte_length":2,
               "byte_offset":4,
               "formal":"",
               "item":"是",
               "ne":"",
               "pos":"v",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["是"]
             },
             {
               "byte_length":4,
               "byte_offset":6,
               "formal":"",
               "item":"一家",
               "ne":"",
               "pos":"m",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["一","家"]
             },
             {
               "byte_length":6,
               "byte_offset":10,
               "formal":"",
               "item":"高科技",
               "ne":"",
               "pos":"n",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["高","科技"]
             },
             {
               "byte_length":4,
               "byte_offset":16,
               "formal":"",
               "item":"公司",
               "ne":"",
               "pos":"n",
               "uri":"",
               "loc_details":[ ],
               "basic_words":["公司"]
             }
          ]
    }

    词性缩略说明

    词性 含义 词性 含义 词性 含义 词性 含义
    n 普通名词 f 方位名词 s 处所名词 t 时间名词
    nr 人名 ns 地名 nt 机构团体名 nw 作品名
    nz 其他专名 v 普通动词 vd 动副词 vn 名动词
    a 形容词 ad 副形词 an 名形词 d 副词
    m 数量词 q 量词 r 代词 p 介词
    c 连词 u 助词 xc 其他虚词 w 标点符号

    专名识别缩略词含义

    缩略词 含义 缩略词 含义 缩略词 含义 缩略词 含义
    PER 人名 LOC 地名 ORG 机构名 TIME 时间
    上一篇
    注意事项
    下一篇
    词向量表示