模板配置方法 可选模板 具体解释 适用场景 简历文档 简历模版将文件解析为结构化字段存储在一个切片中 支持上传doc、docx、pdf格式文件 PPT幻灯片 幻灯片模版将文件按页解析,每一页幻灯片内容分别存储在一个切片中 支持上传ppt、pptx格式文件 论文文档 论文模版根据论文结构将文件解析为对应结构切片,如标题、摘要、引言等结构 支持doc、docx、pdf格式文件 结构化问答对 问答对模版将文档识别解析为问答对切片
说明: · BOS:表示对象存储BOS · sysStorage:表示平台共享存储 storagePath string 存储类型为对象存储BOS时,对应的完整存储路径 sizeMB float 数据集大小,单位为MB,例:0.01 sampleCount int 数据集样本数 annotationProgress string 数据集样本标注进度,示例:1/10 importStatus string
导入方式 存储类型:对象存储BOS 存储类型:平台共享存储 本地导入 文件限制:对文件大小和数量无限制。 文件限制:单个文件/压缩包源文件大小,均不超过1G,所有文件数量不超过100。 BOS导入 支持文件导入和目录导入两种方式。 文件限制:单个文件/压缩包源文件大小,均不超过50G,所有文件数量不超过1000。 支持文件导入和目录导入两种方式。
从技术实现来看,图片格式筛选依托百度AI搜索的文件格式识别算法,通过解析图片文件的头部信息,精准识别图片格式,并将格式信息与图片资源关联存储。检索过程中,系统会根据开发者配置的格式参数,快速筛选出对应格式的图片,同时自动过滤格式损坏、无法正常解析的文件,确保筛选结果的可用性。此外,系统还支持多格式同时筛选,开发者可根据应用的兼容性需求,配置多种格式参数,实现多格式图片的批量检索。
数据文件格式和存储要求说明: 图片转文字:jpg/jpeg/png/bmp格式的图片,图片尺寸最小边大于15px;未加密的PDF文件,单个文件大小不超过10M;同类型的图片数据(例如都是增值税发票的图片)放在同一个目录下(建议目录名称为图片内容类型,例如增值税发票),将这些目录打包压缩成zip格式,存储至云端的对象存储中。
新拓扑图 新拓扑图用于表达节点及节点间的连接信息,同时支持节点搜索,条件格式,效果如下: 新拓扑图的数据绑定 新拓扑图支持两种结构的数据表: 单表存储:节点信息和节点对应关系存储在 1 张数据表中。 双表存储:分 2 张表存储节点信息和节点关系,例如:节点信息表中存储节点信息,节点关系表中存储节点关系。
数据标注状态选择有标注信息,并选择标注格式为COCO格式 以COCO格式导入,导入路径下应包含JPEGImages以及Annotations两个子文件夹,JPEGImages下存储图片数据,Annotations下存储Json格式的一个标注文件,所有图片的标注信息均存储在一个Json文件中 平台自定义格式导入 数据标注状态选择有标注信息,并选择标注格式为平台自定义格式 以平台自定义格式导入,导入路径不包含子文件夹
相关产品 BLS(百度LogService) 、 BOS(百度对象存储) 、 BMR(MapReduce) 、 Palo(百度OLAP引擎) 相关产品 对象存储 提供稳定、安全、高效以及高扩展存储服务。
编辑表 支持编辑表信息,包括表名称、表描述、存储路径、高级参数,数据存储格式、添加字段。不支持修改表类型、数据湖格式、添加分区。 表详情 提供详细的数据表查看功能,展示表的元数据信息。
编辑表 支持编辑表信息,包括表名称、表描述、存储路径、高级参数,数据存储格式、添加字段。不支持修改表类型、数据湖格式、添加分区。 表详情 提供详细的数据表查看功能,展示表的元数据信息。