百度数据工厂Pingo

    文件管理

    文件管理是Pingo的统一文件元数据管理模块,Pingo的文件系统可接入HDFS、S3、BOS等外部文件存储系统,并抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。相当于计算机中的资源管理器,是Pingo中其他模块访问文件的唯一入口。为其他模块访问不同的文件存储系统提供了极大的便利。

    数据资源目录

    文件管理为用户提供所有文件的资源管理目录,在Pingo的表管理中创建的数据库、表数据全部都在文件系统中进行存储路径管理,当在表管理中创建一个物理表,默认路径在文件系统中的user/pingo/warehouse/目录下,可看到系统创建的路径以及存储的数据库及表的信息。

    file.png

    在全部文件列表,下图框内均为系统的文件夹,可以不必关心。用户需要挂载或管理自己的文件的时候,可新建文件夹对自己的文件进行单独管理。

    system-path.png

    文件挂载

    文件系统支持外部文件存储系统的接入,诸如BOS,S3等,均可接入到文件系统。同时,PFS抽象了这些不同的外部存储系统,对内提供统一的文件访问接口。同时,文件系统对接入的外部系统中的文件进行缓存,可以加速远端数据的访问。

    目前文件系统只支持挂载BOS文件,后续将陆续支持其他方式的文件挂载。

    挂载BOS文件

    点击挂载按钮,填写需挂载的BOS文件信息:

    mount.png

    • 挂载点:是将第三方文件挂载到Pingo文件系统的位置,具体表现为一个路径,通过这个路径可以访问挂载以后的第三方文件。可以选择一个已有的路径或新建一个路径,如果是第一次挂载,推荐在根目录下创建一个单独的路径,格式为"/foldername"。
    • 区域:BOS的存储区域,由于目前Pingo只支持北京区域,因此需要您将数据存储在北京区域以保证读取速度。
    • Bucket:BOS的存储桶名称,可以在BOS的管理页面获取。

    bucket.png

    • 路径:这个路径为第三方文件系统中的路径,如果是S3,则是bucket中的路径,如果只授权Pingo访问Bucket中的某一个存储路径,可以填写路径的名称,如果不填写,则表示授权访问整个Bucket的文件。
    • Access Key/Secret Key:原始AK/SK是指您在注册BOS时,系统自动分配给您的AK(Access Key ID)/SK(Secret Access Key),主要用于对用户的调用行为进行鉴权和认证,相当于百度智能云API专用的用户名及密码。您向BOS发送的每个请求,都需要通过鉴权认证通过后,BOS才会处理您的请求。

    挂载完成之后,可以在全部文件目录下看到所挂载的文件夹,也可以在我挂载的标签下看到所挂载的文件目录。挂载文件夹和远端文件是镜像关系,文件增删操作会实时同步。

    mount-2.png

    解除挂载

    当文件不再挂载访问的时候,可以将挂载目录进行解除挂载。点开文件挂载管理

    mount-manage.png

    挂载管理对话框中点击解除挂载,则取消了文件的挂载,Pingo文件系统中将不再可见远端文件夹。当还需要访问的时候,可以再重新挂载。

    mount-cancel.png

    请注意区分删除文件夹解除挂载删除文件夹会在Pingo文件系统和远端文件目录同时删除挂载的文件夹以及文件,请谨慎操作。解除挂载是将远端文件目录从Pingo文件系统中移除,并不会删除远端存储的文件夹和目录。

    文件上传

    除了通过文件挂载实现远端文件访问,也可以将需要读写的文件上传到Pingo文件管理系统,文件管理提供数据缓存能力,文件上传可以实现数据的本地访问,加速数据访问。

    upload.png

    文件权限管理

    文件挂载之后,在文件管理中就可以进行统一的权限管理,所以对于那些没有实现权限控制的文件系统,只要通过Pingo的文件挂载进行统一访问,即可实现权限管理。

    auth.png

    权限管理可以基于文件夹也可以基于文件,在想要授权的文件节点,点击权限管理,填写将要授权的用户,可以赋予读、写或者管理权限,还可以继承父目录权限。

    auth-dialog.png

    授权之后,被授权的用户可以在权限列表中查看自己有权限的文件。

    上一篇
    表管理
    下一篇
    传输管理