7.电商网站UGC图片自动分类 项目说明 业务背景 运动潮牌鞋类越来越受年轻人欢迎,近几年运动鞋类销量也持续增高,也出现不少用户自主交易的电商平台。用户每天上传几万张鞋子照片,包括:鞋子外观、外盒或者鞋标,后台需要将鞋类照片进行分类处理,以便用户进行图像搜索时实现精准搜索。现阶段主要依赖人工进行分类后建立数据底库的形式来建设功能应用,其中耗费的人力成本过高,且识别效果不理想。某电商企业希望通过建立
用BML实现开源大模型的预训练(Post-pretrain) 目录 1. 准备工作(通过notebook或者本地IDE实现) 1.1. 环境创建 1.2. 代码下载 1.3. 目录创建 1.4. 准备预训练模型权重 1.5. 准备训练数据 2. 训练Pipeline说明 2.1. Step1:数据预处理 2.2. Step2:模型格式转换(HF->Megatron) 2.3. Step3:预训练(
物体检测服务器端SDK集成文档-Windows 简介 本文档介绍物体检测服务器端Windows SDK的使用方法。 硬件支持: NVIDIA GPU (普通版,加速版) 操作系统支持 64位 Windows 7 及以上 64位 Windows Server 2012及以上 环境依赖(必须安装以下版本) .NET Framework 4.5 Visual C++ Redistributable Pa
图像分割服务器端SDK集成文档-Windows 简介 本文档介绍图像分割服务器端Windows SDK的使用方法。 硬件支持: NVIDIA GPU (普通版,加速版) 操作系统支持 64位 Windows 7 及以上 64位 Windows Server 2012及以上 环境依赖(必须安装以下版本) .NET Framework 4.5 Visual C++ Redistributable Pa
图像分类服务器端SDK集成文档-Windows 简介 本文档介绍图像分类服务器端Windows SDK的使用方法。 硬件支持: NVIDIA GPU (普通版,加速版) 操作系统支持 64位 Windows 7 及以上 64位Windows Server 2012及以上 环境依赖(必须安装以下版本) .NET Framework 4.5 Visual C++ Redistributable Pac
文本创作数据集去重策略说明 重复样本的定义 一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如: 模型输入内容 模型输出内容 歌名:晴天;歌词: 故事的小黄花 从出生那年就飘着 童年的荡秋千 歌名:晴天;歌词: 故事的小黄花 歌名:晴;歌词: 故事的小黄花 从出生那年就飘着 童年的荡秋千 上表三个样本均为重复样本,前两
测试前的准备 EdgeBoard(FZ)硬件及开发环境 详情参考下方文档 EasyDL平台的EdgeBoard(FZ)专用SDK 以图像分类为例,前往 操作台 训练「专项硬件适配SDK-EdgeBoard(FZ)」下的模型并发布SDK后,即可从平台下载 用于激活专用SDK的序列号 前往 控制台 申请用于激活EdgeBoard(FZ)专用SDK的序列号 首次使用SDK或者更换序列号、更换设备时,需要联网激活
测试前的准备 Windows x86的硬件及开发环境 详情参考下方文档 EasyDL平台的Windows x86 加速版SDK 以图像分类为例,前往 操作台 训练模型后,选择发布为Windows x86的通用设备端SDK并勾选加速版,发布成功后即可从平台下载 用于激活通用设备端加速版SDK的序列号 前往 控制台 申请用于激活通用设备端SDK的序列号,注意选择加速版序列号 首次使用SDK或者更换序列号
在BML平台使用并行文件系统PFS和对象存储BOS 在BML平台使用并行文件系统PFS 平台支持用户在用户资源池上关联 并行文件存储PFS 作为建模任务时的数据存储,当前支持使用并行文件系统PFS提交的任务: 自定义作业-训练作业任务、自动搜索作业任务 前提条件 用户在平台上已经挂载了容器引擎CCE资源作为用户资源池,点击了解 容器引擎CCE ; 用户已经创建了并行文件系统PFS,点击了解 并行文
使用WebIDE开发代码 WebIDE 是开发机提供的在线集成开发环境。百舸开发机基于开源的JupyterLab实现,用户可以直接在浏览器打开WebIDE获得更好的在线开发体验。