分词接口(旧版)

接口描述

本接口已合并到词法分析接口,即将逐步下线,建议直接使用词法分析接口

分词接口提供基本词和混排两种粒度的分词结果,基本词粒度较小,适用于搜索引擎等需要更多召回的任务,而混排粒度倾向于保留更多的短语。

请求说明

请求示例

HTTP方法: POST

请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/wordseg

URL参数:

参数
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

Header如下:

参数
Content-Type application/json

Body请求示例:

{
    "query":"百度是一家高科技公司",
    "lang_id":1
  }

请求参数

参数名称 类型 是否必选 详细说明
query String 待分词的文本(GBK编码的URL编码形式)
lang_id Int 默认为1,输入字符串的语言对应的id,简体中文设置为1(目前不支持其他语言)

请求示例代码

提示一:使用示例代码前,请记得替换其中的示例Token、图片地址或Base64信息。

提示二:部分语言依赖的类或库,请在代码注释中查看下载地址。

返回说明

返回参数

参数名称 类型 详细说明
wordsepbuf String 基本词粒度结果,以\t分割
wsbtermcount int 基本词粒度输出的词个数
wsbtermoffsets List 该参数为列表,元素个数为切分出来的词个数,每个元素值表示对应的基本词在被切分文本的起始位置(字节偏移)
wsbtermpos List 参数值为列表,元素值为对应切分出来的基本词在 wordsepbuf的字节偏移以及长度,整数的低24bit为偏移,高8bit为长度
wpcompbuf String 混排粒度结果,以\t分割
wpbtermcount Int 混排粒度输出的词个数
wpbtermoffsets List 该参数为列表,元素个数为切分出来的词个数,每个元素值表示对应的词是从第几个基本词开始的(基本词偏移)
wpbtermpos List 参数值为列表,元素值为对应切分出来的词在 wpcompbuf的字节偏移以及长度,整数的低24bit为偏移,高8bit为长度
subphrbuf String 所有识别出来的短语,以\t分割
spbtermcount Int 识别出来的短语个数
spbtermoffsets List 该参数为列表,元素个数为识别出来的短语个数,每个元素值表示对应短语是从第几个基本词开始的(基本词偏移)
spbtermpos List 参数值为列表,元素值为对应切分出来的短语在 subphrbuf的字节偏移以及长度,整数的低24bit为偏移,高8bit为长度

返回示例

{
    "scw_out": {
        "phrase_merged": 0,
        "pdisambword": {
            "newwordbuf": "",
            "newwordb_curpos": 0,
            "newwordbmaxcount": 0,
            "newwordbsize": 0,
            "newwordbtermcount": 0,
            "newwordneprop": [],
            "newwordbtermoffsets": [],
            "newwordbtermpos": []
        },
        "pnewword": {
            "newwordbuf": "",
            "newwordb_curpos": 0,
            "newwordbmaxcount": 0,
            "newwordbsize": 0,
            "newwordbtermcount": 0,
            "newwordneprop": [],
            "newwordbtermoffsets": [],
            "newwordbtermpos": []
        },
        "booknamebuf": "",
        "mergebuf": "",
        "namebuf": "",
        "subphrbuf": "\t\u4f60\u597d\t",
        "wordsepbuf": "\t\u4f60\t\u597d\t\u767e\u5ea6\t",
        "wpcompbuf": "\t\u4f60\u597d\t\u767e\u5ea6\t",
        "bnb_curpos": 0,
        "bnbsize": 0,
        "bnbtermcount": 0,
        "mb_curpos": 0,
        "mbsize": 0,
        "mbtermcount": 0,
        "nameb_curpos": 0,
        "namebsize": 0,
        "namebtermcount": 0,
        "spb_curpos": 6,
        "spbsize": 1024000,
        "spbtermcount": 1,
        "wordtotallen": 8,
        "wpb_curpos": 11,
        "wpbsize": 1024000,
        "wpbtermcount": 2,
        "wsb_curpos": 12,
        "wsbsize": 1024000,
        "wsbtermcount": 3,
        "bnbtermprop": [],
        "namebtermprop": [],
        "spbtermprop": [
            {
                "m_hprop": 1,
                "m_lprop": 32
            }
        ],
        "wpbtermprop": [
            {
                "m_hprop": 1,
                "m_lprop": 32
            },
            {
                "m_hprop": 0,
                "m_lprop": 32
            }
        ],
        "wsbtermprop": [
            {
                "m_hprop": 0,
                "m_lprop": 32
            },
            {
                "m_hprop": 0,
                "m_lprop": 32
            },
            {
                "m_hprop": 0,
                "m_lprop": 32
            }
        ],
        "bnbtermoffsets": [],
        "bnbtermpos": [],
        "mbtermoffsets": [],
        "mbtermpos": [],
        "namebtermoffsets": [],
        "namebtermpos": [],
        "spbtermoffsets": [
            0
        ],
        "spbtermpos": [
            67108865
        ],
        "wpbtermoffsets": [
            0,
            2
        ],
        "wpbtermpos": [
            67108865,
            67108870
        ],
        "wsbtermoffsets": [
            0,
            2,
            4
        ],
        "wsbtermpos": [
            33554433,
            33554436,
            67108871
        ]
    }
}