数据准备

以准备Web日志数据为例,您可以直接使用百度智能云提供的样例数据,也可根据说明构造自己的输入数据:

  • 使用百度智能云提供的样例数据,路径如下:

    • 存储在“华北-北京”区域的样例数据路径为:bos://datamart-bj/web-log-10k/,仅华北区域的BMR集群可用。

    • 存储在“华南-广州”区域的样例数据路径为:bos://datamart-gz/web-log-10k/,仅华南区域的BMR集群可用。

  • 根据如下说明构造自己的输入数据,并上传到对象存储BOS(具体操作详见对象存储BOS入门指南)或您本地的HDFS中。

    由Nginx产生的Web访问日志具备如下格式:

    $remote_addr - [$time_local] "$request" $status $body_bytes_sent "$http_referer"  "$http_cookie" $remote_user "$http_user_agent"       $request_time $host $msec
    

    例如:

    10.81.78.220 - [04/Oct/2015:21:31:22 +0800] "GET /u2bmp.html?dm=37no6.com/003&ac=1510042131161237772&v=y88j6-1.0&rnd=1510042131161237772&ext_y88j6_tid=003&ext_y88j6_uid=1510042131161237772 HTTP/1.1" 200 54 "-" "-" 9CA13069CB4D7B836DC0B8F8FD06F8AF "ImgoTV-iphone/4.5.3.150815 CFNetwork/672.1.13 Darwin/14.0.0" 0.004 test.com.org 1443965482.737