百度日志服务BLS

    创建传输任务

    任务信息

    1. 在百度日志服务页面中点击“传输任务”,进入传输任务列表页面后,点击“创建传输任务”,进入创建传输任务页面。
    2. 在“任务信息”区,请输入任务名称。
    3. 为该任务添加标签,便于进行分类管理与查找。

    2.png

    源端设置

    1. 添加源端设置,产品提供“目录”和“文件”两种类型的源端,两者存在以下区别: 目录:适用于采集离线日志数据,采集所选目录下的的离线文件。 文件:适用于采集持续新增数据的在线文件,当BOS作为目的端时,系统默认间隔5分钟执行一次数据采集;当KAFAK\BES作为目的端时,系统实时采集。 两者的详细配置信息如下。

    “目录”作为源端

    当源端类型为“目录”时,源端有以下配置项:

    • 源日志目录:输入采集日志的源目录。目录支持golang Glob模式匹配,详见目录规则
    • 匹配文件规则:输入正则表达式,匹配正则表达式的文件将会被监控和收集。正则表达式示例:“匹配输入字符串的结束位置”的正则表达式为“$”,则“.tmp$”表示所有以.tmp结尾的文件名。
    • 排除文件规则:输入正则表达式,匹配正则表达式的文件将不会被监控和收集,应排除正在写入的日志文件,否则将导致传输出现异常。
    • 解析模式:提供“不解析”、“JSON模式”、“分隔符模式”、“正则表达式模式”。

      • 不解析:用于采集并传输原始日志数据,不对数据做解析。
      • JSON模式:用于采集JSON格式的日志数据,支持嵌套JSON的解析。
      • 分隔符模式:根据指定分隔符把数据进行解析成JSON格式。支持空格、制表符、竖线、逗号作为分隔符,并且支持用户自定义分隔符,自定义格式没有限制,解析出来的数据作为Value值显示在“解析结果”中,用户需要给Value值输入自定义的Key。
      • 完全正则模式:输入一条样例日志数据,再输入正则表达式,点击“解析”按钮,会根据输入的正则表达式解析样例日志数据,解析出来的数据作为Value值显示在“解析结果”中,用户需要给Value值输入自定义的Key。
    • 数据过滤表达式:不填写的情况采集所有数据,填写的情况下,只采集符合表达式要求的日志数据。表达式支持的语法具体如下:

      • 字段Key使用$key表示
      • 逻辑运算符中,字符串类型字段支持=、!=;数值类型字段支持=、!=、>、<、>=、<=;布尔类型字段支持!;字段之间支持&&、||、(、)
      • 若正则表达式中出现了运算符、括号、$等特殊符号时,则必须要使用双引号""括起来
      示例:
      ($level = "^ERROR|WARN$" || $ip != 10\.25.*) && (($status>=400) || !$flag) && $user.name = ^B.*
    • 丢弃解析失败日志:开启状态,会自动丢弃解析失败的日志数据;关闭状态,日志数据解析失败时,将原始日志数据传输到下游。“不解析”模式下不支持该选项。
    • 目录递归:默认关闭,开启后,源日志目录下所有符合匹配规则的文件均会被传输。 注:若不同子目录下的日志文件名相同,且日志投递的目的端是BOS,则BOS将把相同日志文件名的日志文件聚合在一起。
    • 多行模式:如果您的日志是多行的,请开启多行模式,并设置行首正则表达式,系统将以此正则作为每条日志的分割标识。
    • 有效文件时间范围:默认收集传输任务创建前1天以及之后新建或编辑的文件,最多可以回溯到任务创建前7天。 3.png

    “文件”作为源端

    当源端类型为“文件”时,源端有以下配置项:

    • 实时日志绝对路径:输入采集日志的源文件路径,路径支持golang glob模式匹配。
    • 轮转后日志名正则:如果您的日志文件有轮转操作,请输入轮转日志文件名的正则表达式,以防止因轮转导致漏传部分数据。
    • 实时日志绝对路径:输入采集日志的源文件路径。
    • 轮转后日志名正则:如果您的日志文件有轮转操作,请输入轮转日志文件名的正则表达式,以防止因轮转导致漏传部分数据。
    • 解析模式:提供“不解析”、“JSON模式”、“分隔符模式”、“正则表达式模式”。

      • 不解析:用于采集并传输原始日志数据,不对数据做解析。
      • JSON模式:用于采集JSON格式的日志数据,支持嵌套JSON的解析。
      • 分隔符模式:根据指定分隔符把数据进行解析成JSON格式。支持空格、制表符、竖线、逗号作为分隔符,并且支持用户自定义分隔符,自定义格式没有限制,解析出来的数据作为Value值显示在“解析结果”中,用户需要给Value值输入自定义的Key。
      • 完全正则模式:输入一条样例日志数据,再输入正则表达式,点击“解析”按钮,会根据输入的正则表达式解析样例日志数据,解析出来的数据作为Value值显示在“解析结果”中,用户需要给Value值输入自定义的Key。
    • 多行模式:如果您的日志是多行的,请开启多行模式,并设置行首正则表达式,系统将以此正则作为每条日志的分割标识。
    • 丢弃解析失败日志:开启状态,会自动丢弃解析失败的日志数据;关闭状态,日志数据解析失败时,将原始日志数据传输到下游。“不解析”模式下不支持该选项。
    • 有效文件时间范围:可选时间范围为1~7天,默认1天,即默认收集传输任务创建前1天以及之后新建或编辑的文件,最多可以回溯到任务创建前7天。

    目的端设置

    1. 在“目的端设置”,设置日志数据投递目的端。产品提供KAFKA、BOS、BES三种目的端,三者对应的具体参数配置分别如下:

    “KAFKA”作为目的端

    • Kafka主题:选择已创建的Kafka主题。
    • 数据丢弃:默认关闭,开启后,若单条消息大小超过10M时则丢弃该条消息。
    • 数据压缩:选择是否启用先压缩日志文件后传输功能,默认不启用,若需启用请选择压缩算法,各压缩算法特点如下:

      • Gzip:压缩率高,可有效节省空间,但压缩速度慢,且较Snappy和Lzop更多占用CPU资源。
      • Snappy:压缩速度快,但压缩率低于Gzip。
      • Lzop:压缩速度快,但稍慢于Snappy,压缩率也稍高于Snappy。
    • partitioner类型:默认为随机,可选择“按Value值哈希”用于消息去重。
    • message key:默认为无,可变更为“源端主机HostName”或“源端主机IP”。
    • 传输速率:开启数据压缩状态下,数据传输速率限速1MB/s;关闭数据压缩状态下,数据传输速率限速10MB/s。

    “BOS”作为目的端

    选择“BOS为日志投递目的,可投递离线日志,且系统将每隔15分钟将采集到的日志在BOS上生成一个日志文件。请配置如下参数:

    • BOS路径:选择BOS路径作为存储日志的目的地址。
    • 日志聚合:源端为目录时,可选择“根据时间聚合”和“根据主机聚合”;源端为文件时,仅可选择“根据主机名聚合”。
    • 根据时间聚合:需选择源日志文件的时间戳(如“yyyy-MM-dd”),以及选择对应的聚合方式:按天聚合、按小时聚合、用户自定义。其中选择按“用户自定义”的方式聚合日志时,可根据右侧的提示设置日期通配符,系统会根据您定义的日期通配符在您指定的BOS路径中聚合日志。
    • 根据主机聚合:需选择按主机IP聚合,或按主机名聚合。
    • 传输速率:默认1M/s,支持调整速率到100M/s。
    • 数据压缩:选择是否启用先压缩日志文件后传输功能,默认不启用,若需启用请选择压缩算法,各压缩算法特点如下:

      • Gzip:压缩率高,可有效节省空间,但压缩速度慢,且较Snappy和Lzop更多占用CPU资源。
      • Snappy:压缩速度快,但压缩率低于Gzip。
      • Lzop:压缩速度快,但稍慢于Snappy,压缩率也稍高于Snappy。
    • 传输通知:仅当源端是目录类型时支持传输通知功能,且默认不开启。开启传输通知后,系统将在每个文件传输完毕后,在BOS端目的路径下生成一个对应的文件名加“.done”后缀的空文件,便于下游服务根据标记启动。如下图所示:

    “BES”作为目的端

    选择“BES”作为日志投递目的,可投递实时日志。请配置如下参数:

    • 选择ES集群:选择当前用在当前region已创建的BES集群。
    • 用户名:填写所选BES集群的登录用户名
    • 密码:填写所选BES集群的登录密码
    • 测试连通性:测试并验证是否能够连接上所选的BES集群,如不能连通,传输任务无法正常运行。
    • index前缀:index前缀通过用户自定义,index Rolling开启状态下,BES集群中的index名称由“index前缀+采集日期”组成,关闭状态下,index名称由index前缀组成。采集日期是指数据写入BES时的日期,日期格式为:YYYY-MM-DD。
    • index Rolling:设定BES集群自动生成新index的频率,默认处于关闭状态;开启后,按照设定频率生成新index,采集的日志数据写入到新index。 bls.png

    选择主机

    1. 选择已安装收集器的主机,收集器Server端会下发传输任务到已选的主机上。如下图,列表中显示当前Region已安装收集器且未处于“丢失”状态的主机。 1.png
    2. 点击“保存”即可完成日志传输任务的创建,约1分钟后传输任务生效。
    上一篇
    收集器
    下一篇
    管理传输任务