
百度MapReduce
百度智能云助力百度外卖持续提高客户转化率
百度外卖平台最终应用BML做商户点击率的预估,根据预估点击率做主要排序因子,提升了模型训练效率,基于海量数据做到了模型的每天更新,上线后转化率相比原有排序有明显的提升。此外,BML基于分布式内存计算,应用大量的通信和计算优化技术,数百G的数据在一小时内完成百轮迭代。并通过数据和模型迭代优化,进一步持续提高转化率。
实现了商户点击率预估及主要因子排序,提升了模型训练效率;基于海量数据每天更新模型,上线后转化率相比原有排序有明显的提升;上线后通过数据和模型迭代优化,持续提高转化率。
百度外卖是由百度打造的专业外卖服务平台,覆盖众多优质外卖商家,提供方便快捷的网络外卖订餐服务。百度外卖于2014年5月20日正式推出,主打中高端白领市场,支持全国一二线城市。百度外卖具备得天独厚的定位优势和强大的搜索功能,品牌餐饮的批量入驻形成了独特的资源优势。截止2015年10月,百度外卖开通城市100+个,全国接入商户10+万,用户数达1000+万,最高日订单100+万。
百度外卖每天需要面对海量用户的点击浏览,如何在用户浏览页面上对接入的商户排序具有很大价值。更优的商户排序结果,对于合作商户,能够提供公正的上升通道,让优质商家能够得到更好收益;对于用户,能够更便捷的找到满足用户不同场景下的需求;对于百度外卖平台,能够促进良性生态发展。而传统的人工排序和规则排序等策略,存在负责人收取好处修改排名的风险,难以满足不同用户在不同场景下的需求。百度外卖亟需:
要解决以上问题,需要依赖海量用户的真实浏览、点击、购买行为,预测用户的点击行为,让最有可能满足用户需求的商户获得更靠前的排序。
由于每天会产生海量的商户展现数据和点击数据,百度外卖首先借助BMR这个全托管的Hadoop服务,定时进行数据筛选以及清理工作。百度MapReduce提供了以下特性:
关于商户排序,百度外卖曾经尝试使用单机版的机器学习算法来训练商户排序的模型,不过经过筛选和预处理后的样本数据量近300G,样本数上亿条,有意义的特征上十万,单机的算法无论时间消耗和内存消耗上,都无法满足模型训练需求,而为单机缩小数据量后模型预测结果不理想,对用户的点击率预估较差。
在调研了百度机器学习BML和其他开源机器学习项目后,使百度外卖最终决定使用BML来进行模型训练以实现商户的自动化排序,因为BML能够带来以下的优势: