百度外卖
百度智能云助力百度外卖持续提高客户转化率
客户收益
百度外卖平台最终应用BML做商户点击率的预估,根据预估点击率做主要排序因子,提升了模型训练效率,基于海量数据做到了模型的每天更新,上线后转化率相比原有排序有明显的提升。此外,BML基于分布式内存计算,应用大量的通信和计算优化技术,数百G的数据在一小时内完成百轮迭代。并通过数据和模型迭代优化,进一步持续提高转化率。
使用产品
实现了商户点击率预估及主要因子排序,提升了模型训练效率;基于海量数据每天更新模型,上线后转化率相比原有排序有明显的提升;上线后通过数据和模型迭代优化,持续提高转化率。
业务场景
百度外卖是由百度打造的专业外卖服务平台,覆盖众多优质外卖商家,提供方便快捷的网络外卖订餐服务。百度外卖于2014年5月20日正式推出,主打中高端白领市场,支持全国一二线城市。百度外卖具备得天独厚的定位优势和强大的搜索功能,品牌餐饮的批量入驻形成了独特的资源优势。截止2015年10月,百度外卖开通城市100+个,全国接入商户10+万,用户数达1000+万,最高日订单100+万。
百度外卖每天需要面对海量用户的点击浏览,如何在用户浏览页面上对接入的商户排序具有很大价值。更优的商户排序结果,对于合作商户,能够提供公正的上升通道,让优质商家能够得到更好收益;对于用户,能够更便捷的找到满足用户不同场景下的需求;对于百度外卖平台,能够促进良性生态发展。而传统的人工排序和规则排序等策略,存在负责人收取好处修改排名的风险,难以满足不同用户在不同场景下的需求。百度外卖亟需:
- 让真正优质的商户排名更靠前
- 满足不同用户在不同场景下的需求
- 提升外卖平台的多样性和动销率
要解决以上问题,需要依赖海量用户的真实浏览、点击、购买行为,预测用户的点击行为,让最有可能满足用户需求的商户获得更靠前的排序。
解决方案
由于每天会产生海量的商户展现数据和点击数据,百度外卖首先借助BMR这个全托管的Hadoop服务,定时进行数据筛选以及清理工作。百度MapReduce提供了以下特性:
- 全托管的Hadoop以及Spark服务,提供全天候的运维。
- 按需调整集群规模,适应弹性的计算需求。
关于商户排序,百度外卖曾经尝试使用单机版的机器学习算法来训练商户排序的模型,不过经过筛选和预处理后的样本数据量近300G,样本数上亿条,有意义的特征上十万,单机的算法无论时间消耗和内存消耗上,都无法满足模型训练需求,而为单机缩小数据量后模型预测结果不理想,对用户的点击率预估较差。
在调研了百度机器学习BML和其他开源机器学习项目后,使百度外卖最终决定使用BML来进行模型训练以实现商户的自动化排序,因为BML能够带来以下的优势:
- BML提供高效且丰富的分布式机器学习算法,能够满足海量数据上的模型训练,模型训练耗时短效率高,可以采用最新的数据进行模型日常例行更新。
- BML的数据和模型可复用,并提供配套的评估预测流程,能够根据测试数据来评估机器学习模型的效果,可以方便的进行模型反复实验评估。
- BML提供RESTful API调用,只需要发送HTTP请求便能完成整个模型训练监控和评估预测的过程,机器学习可以很方便地嵌入百度外卖平台自身的业务流程中。
- BML还为百度外卖提供了非常给力的技术支持,不但帮助进行调研、REST API的接入,而且分享了多年积累的广告推荐、点击率预估等业务的深厚经验,在模型迭代调优和训练数据处理方面给出了很多有价值的优化建议,帮助最终的商户排序效果提升。