logo
1

花费38.17基于课程示例数据集复现SQLCoder 调优过程

  1. 现在数据集管理界面,创建数据集,选择文本对话类型标注的数据集,非排序。然后向数据集里面导入课程示例数据即可。
  1. 接着在模型精调板块选择SFT创建训练任务,基础模型选择SQLCoder-7B,训练方法选择全量更新,迭代轮次选择2个epoch,其余为默认,费用是10.17
  1. 针对已创建好经过SFT精调过后的模型进行发布,评估报告如下:
与课程展示不同,几个指标表现效果一般,未达到课程示例的80-90的RECALL,可能是数据比例拆分与课程示例不同。我选择的是默认的20,课程展示中使用的是0。
选择我的模型界面,掏28块钱,部署精调后的模型一小时。
使用测试集数据验证
本题目的实际回答是:
  
  
  
  
  
  
SELECT 本周均成交面积 , 上周均成交面积 WHERE 同比 < "10"
可以发现未精调过的SQLCoder7B对于中文prompt的上下文理解不佳,同时精调过后的SFT虽然有一定的中文理解,但回答仍相距甚远。
不知道这个样本是不是进入到训练集里,实际回答与数据集给到的回答一致。
虽然说能够理解中文并且使用内置的列和表,但输出的query仍然不符合要求。
按照课程示例数据复现调优过程后,实际的反馈结果还是非常的一般,甚至自定义的prompt的表现还不如未SFT过后的sqlcoder7B
评论
用户头像