项目简介
“手把手带你学NLP”是基于飞桨PaddleNLP的系列实战项目。本系列由百度多位资深工程师精心打造,提供了从词向量、预训练语言模型,到信息抽取、情感分析、文本问答、结构化数据问答、文本翻译、机器同传、对话系统等实践项目的全流程讲解,旨在帮助开发者更全面清晰地掌握百度飞桨框架在NLP领域的用法,并能够举一反三、灵活使用飞桨框架和PaddleNLP进行NLP深度学习实践。
6月,百度飞桨 & 自然语言处理部携手推出了12节NLP视频课,课程中详细讲解了本实践项目。
观看课程回放请戳:https://aistudio.baidu.com/aistudio/course/introduce/24177
欢迎来课程QQ群(群号:758287592)交流吧~~
意图识别原来如此
意图识别是指分析用户的核心需求,输出与查询输入最相关的信息,例如在搜索中要找电影、查快递、市政办公等需求,这些需求在底层的检索策略会有很大的不同,错误的识别几乎可以确定找不到能满足用户需求的内容,导致产生非常差的用户体验;在对话过程中要准确理解对方所想表达的意思,这是具有很大挑战性的任务。
例如用户输入查询“仙剑奇侠传”时,我们知道“仙剑奇侠传”既有游戏又有电视剧还有新闻、图片等等,如果我们通过用户意图识别发现该用户是想看“仙剑奇侠传”电视剧的,那我们直接把电视剧作为结果返回给用户,就会节省用户的搜索点击次数,缩短搜索时间,大大提升使用体验。而在对话中如果对方说“我的苹果从不出现卡顿”,那么我们就能通过意图识别判断出此刻的苹果是一个电子设备,而非水果,这样对话就能顺利进行下去。
总之,意图识别的准确性能在很大程度上影响着搜索的准确性和对话系统的智能性。
本示例将展示如何使用ERNIE预训练模型完成任务型对话中的槽位填充和意图识别任务,这两个任务是一个pipeline型任务对话系统的基石。
本示例使用的数据集为CrossWOC中文对话数据集。该数据集包含多个领域,包括景点,餐馆,酒店,交通等。
快速实践
本项目基于飞桨PaddleNLP完成,记得给PaddleNLP点个小小的Star⭐
开源不易,希望大家多多支持~
GitHub地址:
PaddleNLP文档:
https://paddlenlp.readthedocs.io
与大多数NLP任务相同,本次示例的展示流程分为以下四步:
2.1 数据准备
数据准备流程如下:
1.使用load_dataset()自定义数据集
使用官方脚本预处理过的数据集已经上传至AI Studio中此项目中(项目链接在文末),通过观察数据集格式,我们可以写出数据文件读取函数,传入load_dataset()。即可创建数据集。
文本数据在输入ERNIE预训练模型之前,需要经过数据处理转化为Feature。这一过程通常包括分词,token to id,add special token等步骤。
PaddleNLP对于各种预训练模型已经内置了相应的tokenizer,指定想要使用的模型名字即可加载对应的tokenizer。
可以通过调用tokenizer中的方法简单的完成上述数据处理。
3.调用map()方法批量处理数据
由于我们传入了lazy=False,所以我们使用load_dataset()自定义的数据集是MapDataset对象。
MapDataset是paddle.io.Dataset的功能增强版本。其内置的map()方法适合用来进行批量数据集处理。
map()方法传入的是一个用于数据处理的function。正好可以与tokenizer相配合。
4.Batchify和数据读入
使用paddle.io.BatchSampler和paddlenlp.data中提供的方法把数据组成batch。
然后使用paddle.io.DataLoader接口多线程异步加载数据。
Batchify功能详解:
到这里数据集准备就全部完成了,下一步我们需要组网并设计loss function。
2.2 模型结构
以下项目以ERNIE为例,介绍如何将预训练模型多任务学习同时完成意图识别和槽位填充任务。
本例中的意图识别和槽位填充本质上是一个句子分类任务和一个序列标注任务。将两者的loss结合即可实现多任务学习。
from src.models import JointErnie
model = JointErnie.from_pretrained( 'ernie-1.0' ,
intent_dim=len(intent2id),
slot_dim=len(slot2id),
dropout=0.1,
use_history=use_history)
JointErnie模型会取出ErnieModel的sequence_output接入一个输出维度为槽位类别数的线性层得到slot_logits,并将pooled_output接入一个输出维度为意图类别数的线性层得到intent_logit。
所以本示例中的loss由slot_loss和intent_loss两部分组成,我们需要自己定义loss function。
槽位填充相当于在每个token的位置进行一次多分类任务,意图识别相当于对整句话做一个多标签分类任务。所以设计的loss function如下:
#构造损失函数
class NLULoss(paddle.nn.Layer):
def __init__(self, pos_weight):
super(NLULoss, self).__init__()
self.intent_loss_fn = paddle.nn.BCEWithLogitsLoss(pos_weight=paddle.to_tensor(pos_weight))
self.slot_loss_fct = paddle.nn.CrossEntropyLoss()
def forward(self, logits, slot_labels, intent_labels):
slot_logits, intent_logits = logits
slot_loss = self.slot_loss_fct(slot_logits, slot_labels)
intent_loss = self.intent_loss_fn(intent_logits, intent_labels)
return slot_loss + intent_loss
选择网络结构后,我们需要设置Fine-Tune优化策略。
2.3 设置Fine-Tune优化策略
适用于ERNIE/BERT这类Transformer模型的学习率为warmup的动态学习率。
# 训练过程中的最大学习率
learning_rate = 3e-5
# 训练轮次
epochs = 10
# 学习率预热比例
warmup_proportion = 0.0
# 权重衰减系数,类似模型正则项策略,避免模型过拟合
weight_decay = 0.0
max_grad_norm = 1.0
num_training_steps = len(train_data_loader) * epochs
# 学习率衰减策略
lr_scheduler = paddlenlp.transformers.LinearDecayWithWarmup(learning_rate, num_training_steps,warmup_proportion)
decay_params = [
p.name for n, p in model.named_parameters()
if not any(nd in n for nd in ["bias", "norm"])
]
# 定义优化器
optimizer = paddle.optimizer.AdamW(
learning_rate=lr_scheduler,
parameters=model.parameters(),
weight_decay=weight_decay,
apply_decay_param_fun=lambda x: x in decay_params,
grad_clip=paddle.nn.ClipGradByGlobalNorm(max_grad_norm))
现在万事俱备,我们可以开始训练模型。
2.4 模型训练与评估
模型训练的过程通常有以下步骤:
-
从dataloader中取出一个batch data; -
将batch data喂给model,做前向计算; -
将前向计算结果传给损失函数,计算loss; -
loss反向回传,更新梯度。重复以上步骤。
动手试一试
是不是觉得很有趣呀。小编强烈建议初学者参考上面的代码亲手敲一遍,因为只有这样,才能加深你对代码的理解呦。
本次项目对应的代码:
https://aistudio.baidu.com/aistudio/projectdetail/2017202
更多PaddleNLP信息,欢迎访问GitHub点star收藏后体验:
https://github.com/PaddlePaddle/PaddleNLP