揭秘阿里巴巴的客群画像

摘要:
本文摘自《阿里巴巴B2B电子商务算法实践》,经发布者授权发布。本书是阿里巴巴CBU技术部在B2B电子商务领域15年经验的总结。阿里巴巴B2B电子商务算法实践作者:阿里巴巴集团、新零售技术事业部和CBU技术部推荐阅读《用户画像:方法论和工程解决方案》。本书介绍了如何从0到

揭秘阿里巴巴的客群画像第1张

阿里巴巴一直在面向未来探索B类新电商模式,并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心,缺少买家维度的数字化经营体系是不完整的。平台场景目标群体及场景间买家差异性尚不明确,客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。同时,客群矩阵也是用户增长和算法特征的核心数据。鉴于客群矩阵如此重要且拥有诸多应用,其构建迫在眉睫。

阿里巴巴意在将客群矩阵打造成平台的一个风向标,以便业务有目标、有层次、有差异、高效地选品和进行场景运营及商家运营,为用户增长和算法模型优化提供动力,为数字化运营提供依据。我们主要围绕人、货、场、商4个维度构建,客群矩阵概况如图1所示。

揭秘阿里巴巴的客群画像第2张

客群矩阵同场景矩阵叠加,在构建场景目标用户、衡量场景差异性的同时,也能提高场景效能,有效引导目标流量,进而为各类业务场景的算法建模提供底层数据基础。

1 采购力

B类买家不像C类买家有明确的年龄、性别等基础坐标维度,B类用户多是企业或者批发商,如何刻画B类特色的客群矩阵,这对于B类电商非常重要,也是B类电商“小二”一直在思考的问题。

既然B类用户群体主要是企业和批发商,那么如何准确地描述客群矩阵呢?采购力就是突出的表征,采购力包含采购金额和采购频率,从采购力可以看出用户的经营规模和消耗能力。因此,我们将采购力作为基础坐标维度,分层提供精准差异化服务。

采购金额主要是一定周期内用户采购的金额。为了规避不同品类价格差异较大带来的分层干扰,首先分类目对采购金额划档,然后再按照金额档不分类目看,占比最多的金额档就是此用户的采购金额档层。

采购频率是一定周期内用户的采购频次。将用户按照采购时间排序,然后计算用户在一定时间周期内采购的频次。将所有用户按照高斯分布比例划分出高、中、低档,作为采购频率的分层档次。

2 生命周期

包括新装机、新用户、低活、中活、中高活、高活、沉睡、流失等阶段,该生命周期主要是按照用户在电商平台的活跃度来划分的,其中也融入了部分业务知识。例如,新装机用户是指刚装机的用户,新用户是指成交在2单以内的用户,低活是指一个月访问天数在2天以内的用户等。

从交易周期分析用户生命周期,如图2所示,包括新装机激活用户、登录用户、首单用户、活跃买家(高采购力买家、潜力买家)、潜睡买家、深睡买家等阶段,各个生命周期阶段之间的转换关系在图中也有直观呈现。精准化用户运营根据买家生命周期阶段不同而调整目标,所采取的策略也会相应调整。

揭秘阿里巴巴的客群画像第3张

了解了用户生命周期,就可以有针对性地做用户拉新、促活、留存,以提高用户黏性:对于新装机和新用户,主要是提高他们的用户体验,培养用户的消费习惯,做留存转化;对于中低活用户,主要是促活、留存;对于中高活用户,主要是维持用户的习惯,加强黏性;对于沉睡和流失用户,主要是通过红包权益等方式促活。用户生命周期的维护对于电商持续用户增长发挥着至关重要的作用。

3 核心主营

CBU作为B2B电商平台的典型代表,一直致力于服务全球亿万B类买家用户。用户核实身份与主营类目(如进口母婴店店主、精品女装店店主、微商兼职、小超市店主等)作为B类用户画像最为核心的属性之一,不仅代表着用户的线下实体身份,还直接影响着用户在电商平台上的行为偏好、采购周期及对商家服务能力的诉求等,因此一直是B类电商平台致力于深耕与运营的核心用户画像属性之一。

大多数C类用户画像属性可以直接基于用户在网站上的历史行为进行建模,但B类用户画像则不同。因为要核实用户核身身份以及对主营类目有精准性的要求,一般B类电商平台主要以用户自填表单的形式进行用户核实身份的确定。这种用户自填方式结果准确度较高,但位置隐蔽、链路冗长、没有利益点的引导,不仅用户填写率低,而且与场景结合力不足。

为解决原表单式核身用户操作成本高的问题,阿里巴巴CBU电商平台通过用户核身组件借力算法模型对用户核身进行预测,依据置信度排序,为用户推出Top K个选项供用户点选。整体算法解决方案如下。

01 数据源

1)用户站内行为

用户站内行为是用户需求与偏好的第一反馈基地,是算法需要着重去挖掘的数据源。相对其他偏好类画像属性来说,用户核身是一个相对稳定和长期的用户属性,因此在算法应用中,我们选取了用户最近半年的站内全域行为作为底层数据。定义半年的长时间窗口选取主要有两方面考虑:一是目前网站商品丰富、优质,搜索与推荐算法日渐精进,用户浏览各类商品的成本较低,所以B类用户在网站上的注意力难以保持专注,用户B类/C类的需求与行为混杂,数据较脏,较长的时间窗口有利于滤除干扰,捕获用户更为长期和稳定的需求;二是用户行为数据,特别是采购行为,相对稀疏,然而B类用户的采购行为是反映用户核身身份最为核心的特征之一,且用户采购行为又具有一定的周期性,因此长期的时间窗口能够帮助算法更加全面地认识用户。

2)用户站外上下游身份

不同于很多偏好类用户画像属性,用户核身身份能够与用户在现实中的身份产生真实的映射关系,如奶茶店店主—喜茶店主、烘焙店店主—宝岛金典店主、精品女装店店主—淘宝女装店店主等。因此,用户站外上下游的身份映射关系,能够辅助我们进一步完善用户核身身份的预测,提高覆盖率和准确率。

3)行业知识

鉴于用户在网站上B类/C类行为混杂,噪声较多,B类用户核身偏好易受网站热门类目与商品的干扰,因此我们也引入了大量行业知识作为指导来协助完成B类用户核身身份的预测,并基于此沉淀下来一份核身偏好类目数据。

02 算法方案

利用以上用户站内行为、站外上下游身份和行业知识的数据,算法端可以通过以下几个步骤实现用户核身身份的预测工作,预测流程如图3所示。

揭秘阿里巴巴的客群画像第4张

图3 用户核身预测流程图

1)种子用户圈选

种子用户主要定义为站内已核身用户及站外上下游有映射关系的核身信息的用户。

2)行业知识指导

我们基于种子用户最近一段时间的站内行为数据,挖掘识别显著性特征,提供给运营同事,对种子用户再进行一轮划拨,把日常核心行为与行业偏好明显不符合的用户排除,优化种子用户的圈选。

3)种子商品圈选

以行业偏好类目作为门槛,筛选出种子用户在门槛下最近半年内采购过的商品作为种子商品。

4)种子商品扩展

基于团队沉淀现有商品的I2I表,利用种子商品作为trigger触发Key,对种子商品进行扩展,扩展种子商品的偏好分等于商品I2I相似分与trigger种子商品偏好分的乘积。

5)用户核身预测

对于一个用户的核身预测,我们选取其最近半年的行为数据进行建模打分。然后基于打好分的用户行为商品计算用户对每一个可能的核身身份的偏好置信度,并用以区分用户的个人采购行为和B类采购行为,降低用户的个人采购行为对预测结果的影响,加大用户的B类采购行为的权重。

本文摘编于《阿里巴巴B2B电商算法实战》经出版商授权发布。

揭秘阿里巴巴的客群画像第5张

本书是阿里巴巴CBU技术部(1688.com)深耕B2B电商15年的经验总结。阿里巴巴B2B在战略形态上经历了信息平台、交易平台和营销平台的升级迭代,本书聚焦营销平台商业形态背后的算法和技术能力,试图从技术和商业互为驱动的视角阐述技术如何赋能业务,并结合阿里巴巴集团在基础设域和算法创新上的沉淀,打造出智能B2B商业操作系统。

阿里巴巴B2B电商算法实战
作者:阿里集团,新零售技术事业部,CBU技术部

推荐阅读

揭秘阿里巴巴的客群画像第6张

《用户画像:方法论与工程化解决方案》

这是一本从技术、产品和运营3个角度讲解如何从0到1构建用户画像系统的著作,同时它还为如何利用用户画像系统驱动企业的营收增长给出了解决方案。

用户画像:方法论与工程化解决方案
作者:赵宏田

关注“实时流式计算” 后台回复 “0814” 参与抽奖

将于8月15号中午12:00开奖 共送出两本图书 欢迎大家参与~

免责声明:文章转载自《揭秘阿里巴巴的客群画像》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Linuxshell脚本之if条件判断makefile学习经验(三)编译生成动态库文件(方式一)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

TCP的拥塞控制

1.引言        计算机网络中的带宽、交换结点中的缓存和处理机等,都是网络的资源。在某段时间,若对网络中某一资源的需求超过了该资源所能提供的可用部分,网络的性能就会变坏。这种情况就叫做拥塞。        拥塞控制就是防止过多的数据注入网络中,这样可以使网络中的路由器或链路不致过载。拥塞控制是一个全局性的过程,和流量控制不同,流量控制指点对点通信量的...

Oracle ERP系统月结与年结流程探讨

月结与年结处理,是企业财务比较特殊而重要的业务操作。在实施与推广Oracle ERP系统过程中,如何结合现行的会计制度与惯例,充分利用软件功能,做好相应的关账、开账工作,是困扰许多企业财务人员乃至实施顾问的一个热点问题。为此,笔者提出自己一些解决思路,供同仁参考。由于时间紧迫,错漏之处在所难免,欢迎商讨及指正。 一、什么是月结处理 通常,企业财务部门每月...

rsync用于同步目录

rsync是unix/linux下同步文件的一个高效算法,它能同步更新两处计算机的文件与目录,并适当利用查找文件中的不同块以减少数据传输。rsync中一项与其他大部分类似程序或协定中所未见的重要特性是镜像是只对有变更的部分进行传送。rsync可拷贝/显示目录属性,以及拷贝文件,并可选择性的压缩以及递归拷贝。rsync利用由Andrew Tridgell...

JS-七大查找算法

顺序查找 二分查找 插值查找 斐波那契查找 树表查找 分块查找  哈希查找 查找定义:根据给定的某个值,在查找表中确定一个其关键字等于给定值的数据元素(或记录)。查找算法分类:1)静态查找和动态查找;注:静态或者动态都是针对查找表而言的。动态表指查找表中有删除和插入操作的表。2)无序查找和有序查找。无序查找:被查找数列有序无序均可;有序查找:被查找数列...

UED大全

http://www.baiduux.com/百度UFOhttp://ued.sohu.com/搜狐UEDhttp://ued.taobao.com/淘宝UEDhttp://www.ued163.com/网易UEDhttp://www.uedblog.com/YAHOO!CNUEDhttp://ued.ctrip.com/携程UEDhttp://fed.r...

C#刷遍Leetcode面试题系列连载(1)

目录 系列教程索引 为什么要刷LeetCode 刷LeetCode有哪些好处? LeetCode vs 传统的 OJ LeetCode刷题时的心态建设 C#如何刷遍LeetCode 选项1: VS本地Debug + 在线验证后提交 选项2: VS Code本地Debug + 在 LeetCode 插件中验证和提交 安装C#相关插件 配置 .NET...