词法分析
基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素,消除歧义,支撑自然语言的准确理解
通用版
定制版
功能介绍
百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型
中文分词
中文分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程
词性标注
词性标注(Part-of-Speech tagging 或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程
专有名词
命名实体识别(Named Entity Recognition 简称NER),即"专名识别",是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等
应用场景
语音指令解析
以分词和词性标注为基础,分析语音命令中的关键名词、动词、数量、时间等,准确理解命令的含义,提高用户体验

合作案例: 度秘
多轮交互式搜索
通过专名识别定位多轮对话中的核心实体,自动判断后续对话中对该实体的进一步信息需求


合作案例: 百度语音搜索
实体数据库构建
通过挖掘实体之间、实体与关键词之间的关联,构建实体信息(如人物、机构)数据库


合作案例: 百度搜索
技术特色
粒度更灵活
模型既保证了基本词汇的原子性,又保证了大粒度词汇,对领域新词、专有名词的识别尤其有效
海量数据建模
海量训练样本,百亿级的点击反馈,提高了算法在复杂多变的应用场景下的效果稳定性和适配性
自由定制
可根据需求自主干预和定制分词效果,自由定制专名实体类目,打造个性化的分词和专名识别系统
功能介绍
通过自定义词表与规则,有效识别应用场景中的词汇与类别
个性化词表
支持用户上传自定义专有名词词表,适用于法律及金融、影视剧作品等领域内大量行业术语和专有名词以及互联网新兴词汇的识别。
自定义规则
支持用户编写自定义识别规则,通过正则表达式的方式匹配具有一定特征的字符串,适用于身份证号码、手机号码、航班号、快递号等识别。
通用版词法分析
分析文本:
钢铁是怎样炼成的
分析结果:
钢铁
n

v
怎样
r
炼成
v

u
定制版词法分析
钢铁是怎样炼成的
钢铁是怎样炼成的
ARTWORK
使用流程
应用场景
法律术语识别
分析处理法律案由与案例信息,提取法律行业专业术语做信息结构化


合作案例: 聚法科技
新闻人物信息提取
以定制词表为基础,提取新闻源中涉及到的参会代表的人名和机构名、职务等,进行精准匹配,为所有参会代表提供专属的新闻档案

合作案例: 川报观察
品牌舆情信息提取
通过定制化词法分析,准确定位网络文章中的品牌舆情关键词,并通过词性判断提炼出与品牌词强关联的话题,助力品牌舆情监测及社交推广参考

合作案例: DigtalX
技术特色
粒度更灵活
模型既保证了基本词汇的原子性,又保证了大粒度词汇,对领域新词、专有名词的识别尤其有效
海量数据建模
海量训练样本,百亿级的点击反馈,提高了算法在复杂多变的应用场景下的效果稳定性和适配性
自由定制
可根据需求自主干预和定制分词效果,自由定制专名实体类目,打造个性化的分词和专名识别系统