语言处理技术

    文本纠错

    文本纠错接口

    接口描述

    识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持短文本、长文本、语音等内容的错误识别,纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。

    请求说明

    请求示例

    HTTP方法: POST

    请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/ecnet

    URL参数:

    参数
    access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取

    Header如下:

    参数
    Content-Type application/json

    Body请求示例:

    {
        "text": "百度是一家人工只能公司"
    }

    请求格式

    POST方式调用

    注意:要求使用JSON格式的结构体来描述一个请求的具体内容。

    body整体文本内容可以支持GBK和UTF-8两种格式的编码。

    1、GBK支持:默认按GBK进行编码,输入内容为GBK编码,输出内容为GBK编码,否则会接口报错编码错误

    2、UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感) 例如 https://aip.baidubce.com/rpc/2.0/nlp/v1/lexer?charset=UTF-8&access_token=24.f9ba9c5241b67688bb4adbed8bc91dec.2592000.1485570332.282335-8574074

    请求参数

    参数 类型 描述 是否必填
    text string 待纠错文本,输入限制511字节 必填

    返回格式

    JSON格式

    默认返回内容为GBK编码

    若用户指定输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码

    返回参数

    参数 说明 描述
    log_id uint64 请求唯一标识码
    +correct_query string 纠错后的文本
    +score double 模型置信度打分
    item object 分析结果
    +vec_fragment list 替换候选片段信息
    ++ori_frag string 原片段
    ++correct_frag double 替换片段
    ++begin_pos int 起始(长度单位)
    ++end_pos list 结尾(长度单位)

    返回示例

    {
        "log_id": 6770395607901559829,
        "item": {
            "vec_fragment": [
                {
                    "ori_frag": "只能",
                    "begin_pos": 21,
                    "correct_frag": "智能",
                    "end_pos": 27
                }
            ],
            "score": 0.875169,
            "correct_query": "百度是一家人工智能公司"
        },
        "text": "百度是一家人工只能公司"
    }
    上一篇
    文章分类
    下一篇
    新闻摘要