词法分析
基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素,消除歧义,支撑自然语言的准确理解
功能介绍
百度词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,百度词法分析的算法效果大幅领先已公开的主流中文词法分析模型
中文分词
中文分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程
词性标注
词性标注(Part-of-Speech tagging 或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程
专有名词
命名实体识别(Named Entity Recognition 简称NER),又称“专名识别”,是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等
功能演示
换一个实例
词性识别
专有名词

应用场景
语音指令解析
以分词和词性标注为基础,分析语音命令中的关键名词、动词、数量、时间等,准确理解命令的含义,提高用户体验

合作案例: 度秘
多轮交互式搜索
通过专名识别定位多轮对话中的核心实体,自动判断后续对话中对该实体的进一步信息需求


合作案例: 百度语音搜索
实体数据库构建
通过挖掘实体之间、实体与关键词之间的关联,构建实体信息(如人物、机构)数据库


合作案例: 百度搜索
技术特色
粒度更灵活
模型既保证了基本词汇的原子性,又保证了大粒度词汇,对领域新词、专有名词的识别尤其有效
海量数据建模
海量训练样本,百亿级的点击反馈,提高了算法在复杂多变的应用场景下的效果稳定性和适配性
自由定制
可根据需求自主干预和定制分词效果,自由定制专名实体类目,打造个性化的分词和专名识别系统
免费试用