作业帮

作业帮是面向全国中小学生的移动学习平台,也是习题搜索、高效练习和学习沟通的综合学习工具。

客户收益

作业帮借助百度智能云的天算平台,以较低的成本获得了海量数据ETL、数据统计分析、便捷查询等功能,以及稳定、安全、高效和高扩展的存储服务,同时也大大降低了大数据平台的运维成本。

使用产品

度云以开源开放的智能大数据平台-天算助力作业帮进行数据统计分析,为线上决策提供参考依据,引领业务升级。

业务场景

作业帮是面向全国中小学生的移动学习平台,也是习题搜索、高效练习和学习沟通的综合学习工具。在作业帮,学生可以通过拍照、语音、文字迅速得到难题的解析步骤、考点答案;也可以自由讨论作业问题,得到解题思路和知识点;还可以迅速发现自己的知识薄弱点,精准练习补充;更可以由全国众多名校老师在线一对一答疑解惑;学习之余还能与全国同龄学生一起交流,讨论学习生活中的趣事。截止到2016年6月,作业帮用户量突破1.3亿,占据拍照答题市场60%的份额。

作业帮面对海量中小学生的点击浏览,每天产生的应用数据和行为数据在TB级别。海量数据稳定存储,数据统计分析,方便快捷的查询以及高昂运维成本成了作业帮最为头疼的问题。

解决方案

面对每天由用户产生的海量应用数据和行为数据,作业帮首先使用百度日志服务BLS从服务器收集数据。百度日志服务是百度智能云提供的托管式日志收集、投递服务,提供了以下特性:

  • 提供托管式服务模式,无需开发与运维投入,一次部署即可轻松使用
  • 可灵活配置日志任务,轻量级架构不影响主机性能

收集到的日志存储于对象存储 BOS中,BOS是百度智能云提供的海量数据存储服务,并且在BMR和BOS之间的数据传输不会产生任何费用,降低用户使用成本。BOS主要提供了以下特性:

  • 稳定、安全、低成本的存储,提供完善的开发、管理工具
  • 支持丰富的数据类型存储,存储对象数量不受限制

之后使用百度MapReduce BMR进行定时的数据筛选、清理工作,百度MapReduce BMR是全托管的Hadoop/Spark集群,可以方便快捷地部署集群,BMR提供了以下特性:

  • 专属私有网络,独占系统环境,确保数据安全,并提供全天候的运维。
  • 按需调整集群规模,适应弹性的计算需求。

经过清洗、处理的数据存储于数据库等存储系统,即可便捷地接入报表系统进行分析展示。此外还有任务调度系统对整个数据平台的任务进行监控管理。

整体解决方案的示意图如下:

解决方案示意图

基于以上的架构,作业帮数据平台的运维成本大大降低,经过ETL处理后的数据可以方便地连接报表系统,支撑数据统计分析、定时报表产出、A/B Test实验效果评估等业务,对线上决策有着重要的参考价值。