简介:CHPC
在当今科技迅速发展的时代,基因行业正面临前所未有的数据挑战和机遇。随着基因测序技术的不断进步和普及,生成的数据量急剧增加,传统的数据处理方法已难以满足现代基因学的需求。高性能计算(HPC)在此背景下显得尤为重要,它不仅能加速基因数据的处理速度,还能提高数据分析的准确性和效率。
百度智能云云高性能计算平台 CHPC 的基因分析平台广泛用于基因数据从样本到报告的分析过程。典型应用场景包括基因数据分析、测序生产自动化和基因云平台开发等。
在基因数据分析、测序生产自动化等工作中,客户面临的主要痛点包括:
云高性能计算平台(CHPC)计算速度和大规模数据处理能力,能够有效解决这些问题。它不仅减少了基因数据分析所需的时间,降低了运营成本,还提高了分析结果的准确性,从而加速科研成果的产出和临床应用的实施。
百度智能云 CHPC 的基因分析平台是用户友好的基因分析一站式平台,端到端地提供数据传输、存储管理、生物信息分析等核心能力。平台支持 Cromwell 工作流引擎,帮助用户安全高效、敏捷弹性地处理任意规模基因数据。基因分析平台提供完整的基因计算服务,简单易用、经济高效、灵活可靠、且超大规模。
结合百度智能云海量的存储计算资源、百度网盘、连通测序上下游的用户网络、以及数据和应用的生态合作伙伴,广泛用于基因组学数据从样本到报告的分析全过程,可以作为不同应用系统计算底座,全方位满足基因组学科学研究和临床应用的需要。
下文介绍基因分析平台中工作空间的使用方法。 基因分析平台中的所有操作,都必须在工作空间内进行。用户可以通过工作空间进行工作流创建和运行任务的管理,满足数据隔离、权限控制、费用统计等业务需求。
1、请先提前创建集群,工作空间需要和已有集群关联。集群镜像请选择含cromwell部署镜像。请参考创建集群。
2、为保证集群能正常安装cromwell工作流,集群管理节点内存需为16G及以上。
点击基因分析平台,创建空间。如果您未开通,请先开通基因分析平台服务。
—
点击集群卡片右上角,出现“删除”按钮,即可进行删除。
下文介绍如何在工作空间中从头创建和编辑工作流。您可以从头创建WDL工作流,将本地或社区中的WDL工作流迁移到基因分析平台中,并且为工作流配置常用的分析运行参数。
1、进入工作空间后,默认展示工作流列表,点击“创建工作流”。
2、输入工作流名称和描述
3、填写WDL工作流文件
支持上传本地文件,或在文本框内编辑文件
如果测试可点击“加载范例”,使用测试WDL文件
4、提交工作流,完成创建后,自动跳转到工作流列表。
基因分析平台支持和网盘打通数据流。
网盘使用支持 外网 和 百度内网 两种使用方式。
1、外网方式:
请确保节点能正常访问外网,推荐配置NAT网关访问外网,请参考NAT网关
视频教程:https://cloud.baidu.com/video-center/video/726。
2、百度内网方式:
需要在VPC控制台购买两张服务网卡,分别用于访问网盘控制流及数据流服务。请参考:服务网卡 - 私有网络VPC | 百度智能云文档
服务网卡参数填写说明:
1、控制流服务网卡:
字段说明:
网卡名称:自定义名称,建议关键字带有网盘控制流服务,以方便区分
2、数据流服务网卡:
购买入口:百度智能云
字段说明:
网卡名称:自定义名称,建议关键字带有网盘数据流服务,以方便区分
所在网络:和您新建的 hpc 集群,vpc & 子网保持一致
IP 地址:自动分配
安全组:普通安全组
挂载服务:选择公共服务,百度网盘,域名不带有 control 关键字(yq.baidupan.com)
关联添加解析:关闭
内网带宽:默认 1000 Mbps
公网IP:暂不需要
3、服务网卡管理页:
入口:百度智能云
获取内网IP
1、外网方式:
WDL支持网盘相关参数,如下表:
注意事项:
示例WDL文件如下:
version 1.0
workflow myWorkflow {
input {
String guest = "input"
}
call myTask {
input:
who = guest
}
}
task myTask {
input {
String who
# Int i = 0
# Float f = 27.3
# Boolean b = true
}
command {
echo "hello world"
}
runtime {
memory: "100 MB"
cpu: "1"
queue: "default_queue"
# 网盘的appId
netdisk_appId: "1111111"
# 网盘的Spacetoken
netdisk_spaceToken: "xxxx"
# 网盘地址,在执行工作流前,将该文件下载到本地
remote_address: "netdisk://test/test.json"
# 共享存储地址,在执行工作流前,下载到本地的路径
local_address: "/chpcdata/"
# 共享存储地址,在执行工作流后,将该路径下文件都上传到网盘
local_upload_address: "/chpcdata/output"
# 网盘地址,在执行工作流后,文件上传的地址
upload_address: "netdisk://test/output"
}
output {
String out = "${who}"
}
}