文本纠错-高级版
更新时间:2024-03-26
接口描述
纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。文本纠错-高级版,能够识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持字词、标点、语法、专名、地址纠错。
- 字词纠错包含音近字、形近字、成语、古诗等内容的纠错;
- 标点纠错包含中英文标点混用、成对标点符号缺失、标点冗余等内容的纠错;
- 语法纠错包含常见的语法冗余和缺失内容的纠错;
- 专名纠错包含专有名词、固定短语等内容的纠错;
- 地址纠错包含地址别字、地址搭配、地址缺失纠错;
在线调试
您可以在示例代码中心中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
请求说明
请求示例
HTTP方法: POST
请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v2/text_correction
URL参数:
参数 | 值 |
---|---|
access_token | 通过API Key和Secret Key获取的access_token,参考“Access Token获取” |
charset | UTF-8 |
Header如下:
参数 | 值 |
---|---|
Content-Type | application/json |
Body请求示例:
{
"text": "实现祖国完全统一,是全体中华儿女共同愿望,解决台湾问题,是中华民族根本利益所在。推动两岸关系和平发展,必须继续坚持“和平统一、一郭两制”方针,退进祖国和平统一。"
}
请求格式
POST方式调用
注意:要求使用JSON格式的结构体来描述一个请求的具体内容。
body整体文本内容支持UTF-8格式的编码。
UTF-8支持:若文本需要使用UTF-8编码,请在url参数中添加charset=UTF-8 (大小写敏感)
请求参数
参数 | 类型 | 描述 | 是否必填 |
---|---|---|---|
text | string | 待纠错文本,字数上限为3000字节(汉字=3字节) | 必填 |
返回格式
JSON格式
若输入为UTF-8编码(通过指定charset参数),则返回内容为UTF-8编码
返回参数
参数 | 说明 | 描述 |
---|---|---|
log_id | uint64 | 请求唯一标识码 |
text | string | 纠错前的文本 |
+correct_query | string | 纠错后的文本 |
content_len | int | content的长度 |
details | list | 纠错信息列表 |
sentence_id | int | 子句id(子句为最细标点符号切割粒度) |
sentence | string | 原始子句文本 |
sentence_fixed | string | 纠正后的子句文本 |
+score | double | 模型置信度打分。备注:若score返回为数字7,表示输入不合法,比如输入过长或过短。该情况没有纠错结果。 |
item | object | 分析结果 |
+vec_fragment | list | 替换候选片段信息 |
++ori_frag | string | 原片段 |
++correct_frag | string | 替换片段 |
++begin_pos | int | 片段起始 |
++end_pos | int | 片段结尾 |
++explain | string | 纠错释义 |
explain_long | string | 详细的释义信息,说明常用字/词纠错的具体原因 |
explain_structure | string | 涉政相关的结构化释义信息 |
++operation | int | 建议操作类型,0:检查,1:交换,2:替换,3:插入,4:删除 |
++label | string | 错误类型。010100:别字,010200:别词, 010600:诗词错误, 020100:标点误用,020200:标点缺失,020300:标点冗余,030100:语法错误-冗余,030200:语法错误-缺失,030300:语法错误-乱序, 030400:语法错误-语句不通, 040101:人名专名错误,040102:职务专名错误,040200:专名搭配错误,040300:专名排序错误,040400:术语错误,060100:地址别字,060200:地址搭配错误,060300:地址缺失错误 |
error_num | int | 纠错片段数量 |
begin_sentence_offset | int | 子句在content中的起始位置(长度单位) |
end_sentence_offset | int | 子句在content中的结尾位置(长度单位) |
begin_psent_cont_offset | int | 子句所属句子在content中的起始位置(长度单位) |
end_psent_cont_offset | int | 子句所属句子在content中的结尾位置(长度单位) |
返回示例
{
"item": {
"text": "实现祖国完全统一,是全体中华儿女共同愿望,解决台湾问题,是中华民族根本利益所在。推动两岸关系和平发展,必须继续坚持“和平统一、一郭两制”方针,退进祖国和平统一。",
"error_num": 2,
"correct_query": "实现祖国完全统一,是全体中华儿女共同愿望,解决台湾问题,是中华民族根本利益所在。推动两岸关系和平发展,必须继续坚持“和平统一、一国两制”方针,推进祖国和平统一。",
"content_len": 80,
"details": [
{
"sentence_fixed": "必须继续坚持“和平统一、一国两制”方针,",
"begin_sentence_offset": 51,
"vec_fragment": [
{
"explain_long": "",
"operation": 2,
"explain": "建议用“一国两制”替换“一郭两制”",
"label": "040400",
"score": 1.0,
"begin_pos": 63,
"end_pos": 67,
"ori_frag": "一郭两制",
"correct_frag": "一国两制",
"explain_structure": "{\"时间\":\"\",\"事件\":\"\",\"含义\":\"\",\"详细内容\":\"“一国两制”的基本内容是:在一个中国的前提下,国家的主体坚持社会主义制度;香港、澳门、台湾是中华人民共和国不可分离的部分,它们作为特别行政区保持原有的资本主义制度长期不变。在国际上代表中国的,只能是中华人民共和国。“一国两制”是中国的一个伟大创举,是中华民族为世界和平与发展作出的新贡献。习近平在庆祝澳门回归祖国15周年大会暨澳门特别行政区第四届政府就职典礼、庆祝香港回归祖国20周年大会暨香港特别行政区第五届政府就职典礼等重要场合,对深入推进“一国两制”实践作出了重要综述。继续推进“一国两制”事业,是中央政府、特别行政区政府和包括港澳同胞在内的全国各族人民的共同使命。中央贯彻“一国两制”方针坚持两点,一是坚定不移,不会变、不动摇;二是全面准确,确保“一国两制”在港澳的实践不走样、不变形,始终沿着正确方向前进。事实证明,“一国两制”在港澳的实践已经取得了举世公认的成功。当然,作为一项前无古人的开创性事业,“一国两制”的实践不会一帆风顺,需要在实践中不断探索。\",\"类别\":\"政治\"}"
}
],
"sentence": "必须继续坚持“和平统一、一郭两制”方针,",
"sentence_id": 5,
"end_psent_cont_offset": 80,
"end_sentence_offset": 71,
"begin_psent_cont_offset": 40
},
{
"sentence_fixed": "推进祖国和平统一。",
"begin_sentence_offset": 71,
"vec_fragment": [
{
"explain_long": "",
"operation": 2,
"explain": "建议用“推进”替换“退进”",
"label": "010200",
"score": 0.7009568214416504,
"begin_pos": 71,
"end_pos": 73,
"ori_frag": "退进",
"correct_frag": "推进",
"explain_structure": ""
}
],
"sentence": "退进祖国和平统一。",
"sentence_id": 6,
"end_psent_cont_offset": 80,
"end_sentence_offset": 80,
"begin_psent_cont_offset": 40
}
]
},
"log_id": 1607933485727930154
}