上传文件到开发机
更新时间:2024-11-20
开发机当前支持PFS作为存储,PFS存储为资源池共享,因此开发过程中需要使用的权重、数据集、代码等文件只需要上传到PFS中即可在开发机中操作使用。
百度云PFS产品提供从百度云对象存储BOS中转存文件,大型文件、数据集建议将需要使用的文件先上传到对象存储再转存储到PFS
以下介绍如何在开发机中下载对象存储BOS的数据到开发机存储中
特别注意:开发机从非当前账号下的对象存储中下载文件须具备访问外网的权限
安装BOS命令行工具
# 下载bcecmd程序
wget https://doc.bce.baidu.com/bce-documentation/BOS/linux-bcecmd-0.3.8.zip
# 解压
unzip linux-bcecmd-0.3.8.zip
cd linux-bcecmd-0.3.8
下载数据到开发机
在命令行执行bcecmd命令完成将百度云对象存储BOS下载到PFS
以下示例为下载llama_7b的模型数据存放在开发机的/mnt/cluster目录下:
# 数据及模型下载用以下命令# 下载测试数据集
./bcecmd --conf-path conf bos sync bos://cce-ai-datasets/cce-ai-datasets.bj.bcebos.com/megatron_llama/pile_llama_test/ /mnt/cluster/llama/pile_llama_test/
# 下载模型参数权重
./bcecmd --conf-path conf bos sync bos://cce-ai-datasets/cce-ai-datasets.bj.bcebos.com/megatron_llama/megatron_llama_7b_checkpoint_tp1_pp1_dp8_zero1/ /mnt/cluster/llama/megatron_llama_7b_checkpoint_tp1_pp1_dp8_zero1/
# 下载tokenizer
./bcecmd --conf-path conf bos sync bos://cce-ai-datasets/cce-ai-datasets.bj.bcebos.com/megatron_llama/llama_tokenizer/ /mnt/cluster/llama/tokenizer/
更多操作方法参考BOS、PFS产品操作手册