千人千面、个性化推荐,解读数据赋能商家背后的AI技术

摘要:
12月6日至7日,阿里巴巴集团、阿里巴巴技术发展部和阿里云社区联合主办了以“2016双11技术创新”为主题的阿里巴巴技术论坛。事业部技术总监魏虎分享了数据赋能业务背后的人工智能技术。旺普个性化模块的商家可以通过场景化的商品池实现多样化的营销需求。只要选择了商品库,剩下的就可以交给人工智能。牵牛头条位于B端商家的电商媒体之门

12月6~7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016 双 11 技术创新”为主题的阿里巴巴技术论坛,来自商家事业部的技术总监魏虎给大家分享了数据赋能商家背后的AI技术。首先对大数据和人工智能进行了简要介绍,接着着重分析了客户运营平台,包括实时分群算法、match和rank框架以及千人千面技术,最后讲解了千牛头条、服务市场和智能客服中AI技术的应用。

背景介绍

大数据

大数据主要有四个特征:Volume(大量)、Value(价值)、Velocity(速度)、Variety(多样)。

  • Volume(大量):互联网实时采集用户的各种行为,数据量庞大;
  • Variety(多样):数据格式发生了翻天覆地的变化,数据类型的多样性也是大数据的特点;
  • Velocity(速度):信息采集速度为秒级或毫秒级;
  • Value(价值):海量数据中存在很多金矿,价值密度低,须通过不同类型的数据挖掘才能完整刻画用户,产生价值。

人工智能

  • 通用人工智能(General AI)概念,指拥有人类五感(视觉、听觉、嗅觉、触觉、味觉、甚至更多)、推理能力以及人类思维方式的神奇机器。
  • 弱人工智能(Narrow AI):执行特定任务的水平与人类相当,甚至超越人类的技术。

0de9b4a16b088b7024cb80322d25c7d25d18b49a

上世纪50年代,人工智能的概念就已提出,人工智能的发展也经历了坎坷的阶段;上世纪80年代,机器学习开始兴起,开始用模型、算法和数据组成软件部分;随着处理能力的提升和海量数据的累积,2010年以后,深度学习火热起来,它源自于人工神经网络, 深度学习的发展也得益于算法模型的优化,自动学习特征。

710ffd1f857677e22ee0de6e64a34d32710f628f

人工智能的核心点由大数据、处理能力、数据模型组成。人工智能给我们带来了四大方向:

1.         发现:通过人工智能可以发现一些有价值的数据,比如发现一些用户的购买行为,经常购买搭配的组合套餐;

2.         预测:可以对用户进行预测,预测购买哪些商品,购买概率是多少;

3.         推荐:预测后就要推荐,通过各种推荐技术,比如猜你喜欢进行推荐;

4.         自动化:了解用户定期购买什么商品,自动化的定期进行推荐。

客户运营平台

CRM:企业为提高核心竞争力,利用相应的信息技术以及互联网技术来协调企业与顾客间在销售、营销和服务上的交互,从而提升其管理方式,向客户提供创新式的个性化的客户交互和服务的过程。其最终目标是吸引新客户、保留老客户以及将已有客户转为忠实客户,增加市场份额。

客户运营平台来自于CRM,是为阿里商家打造的数据驱动的客户精细化运营平台,商家可以对自己的客户进行洞察和分群,同时可以针对自己的客户在各个沟通的通道上(店铺首页、详情、微淘、旺旺等)进行千人千面的沟通和表达。客户运营平台承载着从流量运营到客户精细化运营的使命。

个性化店铺首页

0ab958c573f053e731ee84345a12d6ec67c47810

页面级千人千面,通过面向不同的客户人群投放不同的个性化店铺首页来提升转化效果。面向消费者部分,我们需要做实时偏好算法分群。因为是需要卖家参与设计对应的人群的页面,所以不同商家效果有区别,做的好的商家,成交转化率能有50%的提升;面向商家部分,我们不仅仅是做一个工具,包括人群细分(年龄、性别)、个性化页面选择(属性偏好)、策略诊断(匹配度)、选品助手、效果跟踪,背后都是AI在支持。

d04d774ee5da1836262b02e068127fcd108d260b

谈到实时分群算法,它的分群方法是基于实时商品分组、品类等维度定义标签,算法实时预测匹配分群,实时分群策略可与普通标签交叉使用,实时分群策略还可以透视。算法体系包括行业级别的模型,GBDT在线预测,长期+近期+实时偏好相结合,还引入了增强学习方法根据实时的累积受益来调整偏好阈值。

图中从上到下分为离线、近线、在线算法。离线部分有离线特征计算,我们用了用户、搜索、浏览、加购、支付等,离线算法也应用很多,包括普通的LR、SimRank、图计算以及深度学习等,我们都做了很多尝试,并且取得了一些成果,最后通过模型库训练产生一些结果;离线部分可能一天算一次,而近线部分是分钟级或小时级,包括流计算引擎,实时接收各种浏览加购行为,实时计算用户特征;在线部分需要给用户展示商品,商家需要设置模块,在线部分我们也引入了投放策略,通过增强学习动态调整每个店铺用户的偏好阈值。整个个性化店铺首页背后技术由离线、近线和在线三套架构来支撑人群分群策略。

双11店铺承接页

b0ebd924aad8e2b2801d39609c39f9211bceef82

店铺承接页包括三个模块。“所见即所得”,根据用户个性化进行推荐;楼层商品的个性化排序,商家可以参与选择;猜你喜欢瀑布流完全由算法帮助实现个性化推荐。对比有AI支撑承接页和没有AI能力的承接页,人均成交率提高20%以上。

Match框架

b814fe33029c1a748d1f9f1cd946ab3c5a3a870e

Match框架分为基础日志、训练数据构造、match算法引起三部分:

1.         基础日志:日志抽取解析和数据清洗;

2.         训练数据构造:生成用户序列,商品用户关系图,进行rank i2i样本构造,样本去躁以及特征工程。

3.         Match算法引擎:主要分为Online和Offline两部分,具体类别主要包含:基于节点关系,基于hash,基于learning,基于热度,基于属性匹配,基于流式计算的match数据。以上数据,可以在不同层次满足数据match召回方式,具有极强的覆盖率和准确性。

Rank框架

c5180ecda43352a4221d638f25cc95891eb86567

Rank框架主要分为样本、特征、模型三个点:

1.         样本:通过预处理、去噪得到干净的训练数据,根据不同样本的策略训练效果最好的模型。

2.         特征:千万级的ID类特征,包括用户、商品基础特征及相互组合特征;场景反馈类特征如ctr、cvr等;实时特征如召回类型、召回分数以及用户类目、价格偏好等;业务类特征如会场类目信息、承接页页面信息,大促商品折扣率,商品加购率等。

3.         模型:通过PS版的LR、PAI平台的DNN训练天级及小时级模型,做到模型的准实时;并在线上通过融合CTR、CVR模型,做到线上效果最佳。

旺铺个性化模块

2504fb89c83863907b3f3fa82e69d3a8789cfdf8

商家可以通过场景化商品池实现多样化的营销需求,只要选择商品库,其余都可交给AI来做。这样,消费者端千人千面投放可实现高速转化,整个模块点击率平均提升20%,成交转化率提升超过40%,千次展现支付金额提升超过50%。

智能海报

9697b701d72bcab9d612655192c7cdfaf62e9cb5

通过素材生产能力与千人千面技术结合,提升店铺、详情等场景banner投放效果。

16729fab79374782148a7d3420e0c5eca8278865

背后的技术就是图像技术与个性化投放的结合,商家可以自动选模板将商品放进去, 自动生成海报。

详情个性化

c5e0e4221a18ba201a60f4608fb27e15fa38380e

我们提供给商家易于运营的详情个性化访客运营工具,提升转化效果和客单价。我们给予商家自主权,可以自主选择在详情推荐模块放哪些商品。在商家端,操作成本低、可以批量覆盖多款商品,“一键升级”直接覆盖最多100款商品,并支持高阶配置(商品池、加权商品池);在消费者端,基于当前用户、当前商品的个性化投放,商家配置的加权商品能够获得曝光保障。详情个性化很好的将商家的确定性和个性化融合起来。

粉丝&会员运营算法

6e154b596e0e08d42d54ee5bbd9e2bdbf94965ef

我们提供对粉丝/会员的深入洞察,进行分群剖析。我们也提供一些场景化的能力,比如粉丝个性化营销算法,提供高购买潜力粉丝、预流失粉丝等;对于会员个性化营销算法,提供预复购会员、预流失会员等人群;对于前端投放算法体系,提供投放时机算法和人群权益匹配算法,根据预测模型预测概率值。

千牛头条

千牛头条定位于面向B端商家的电商媒体门户,旨在引入媒体、小二、服务商帮助商家紧跟行业动态、官方规则变化,以及实时的直播内容。

4a813a94d36600e573c1131eb8a5ae6aa9a3aa86

通过AI能力赋能千牛头条。资讯在千牛头条中很重要,实施个性化后,整个频道页个性化点击率有了很大提升,也提升了单个用户的资讯消耗率。

ae6ee286555a17f23262101d2318a26a5be67ec7

千牛头条的算法架构也分成离线、近线和在线。离线部分,对用户进行分层,抽取行业特征,包括店铺规模、关键词等等,对商家做360度的刻画,此外,离线部分还有各种帖子质量的打分模型,通过大规模的离线计算得出商家对哪些帖子感兴趣;近线部分个性周期更加快,可以对帖子进行自然语言处理,包括关键词提取、环境信息提取等,还要建立索引,对帖子进行相似度的计算;在线部分是一个流程,商家过来一个请求,我们会拿到商家的profile,生成一个query,到实时检索引擎中进行召回,去重过滤,在模型里我们也做了如图创新,每一篇帖子训练一个模型,接着后处理带有一些运营规则,包括多样性的处理,最后推荐给用户。

服务市场

96737a9bf7a594e4a17d25c3c85b4cc28f1f68fa

阿里巴巴集团推出的主要面向商家,为其提供店铺、订单、营销管理等软件工具以及运营、客服外包、摄影等服务为一体的运营平台,是阿里生态体系的重要组成部分。很多服务商与我们一起为商家提供工具,通过AI能力进行赋能,使服务市场效果有显著提升。

07d48906a00c6f43e2e89c3799bfa9d16aed6701

b80ea5fe5d41db255537ea2aa15c11fea498cb69

数据赋能服务市场搜索,解决商家在服务市场“搜什么”、“搜不到”、“搜不准”、“搜不好”的体验问题。使之达到更精准的搜索体验、更高效的平台导购、更多优秀服务得到曝光。采用基于前沿的NLP技术的Query理解,基于语义的检索,也有数据驱动的自适应模型优化,个性化排序模型优化,还有实时个性化技术,热搜词挖掘、引导价值分析等。通过AI能力使搜索点击率增加25%,跳失率降低16%,搜索空结果率降低452%,付费转化提升20%。

b8b30ef7a22852a4becccecb8137930c9721fa7b

搜索之后就是个性化推荐技术,包括首页、结果页、详情页、付款、购后整个商家的服务市场流程中,进行深入分析和挖掘用户订购行为,尝试前沿AI算法,提升推荐精准性;深入挖掘优质的服务和服务商,为用户推荐优质的服务;深化服务市场个性化导购,进一步提升用户订购体验和效率。我们做了一些导购场景布点,主要技术与推荐相关,包括用户商家的实时意图分析等,使服务市场的商家更容易搜到想要的服务。

智能客服

928902a64274cd108cb96ab6994d8d9eee6d9ef5

我们制定了智能客服的全新接待模式,消费者通过聊天窗口与客服沟通时,推荐消费者可能问的问题,并给出相应答案,大大节省了客服工作量。

3ad77e085583d7fdc43e7a20e63ae5bcc192735b

智能客服管理团队,实时分析消费者和客服之间聊天记录,实时做语义分析,帮助监控客服效率,机器可以自动挖掘好的问答对。

b5e9033787caf759b4778294a1ce9de49691dd3b

智能客服背后的算法,从下往上,第一层基础数据,我们会对聊天记录、店铺、商品和评价等底料进行挖掘;第二层是AI算法,包括自然语言处理、在线学习、深度学习等等;第三层是知识沉淀,包括知识库、知识图谱、绩效指标体系等;第四层是公共服务,提供意图识别、多轮交互、情感分析等等;第五层是业务,包括智能搜索、智能绩效、热点挖掘等。通过AI能力,我们的目标是提升店铺销售额,降低运营成本,提升服务体验。

总结

f7d177eb096eeb753d8f362b1f8d47a939bd8802

通过这些技术的深入理解,在各个产品的功能里升级,在毛细血管中融入AI能力,可以更好的赋能商家,提升效率。

阿里巴巴集团商家事业部技术总监魏虎,早期负责淘宝网站架构,主导了淘宝多个大型架构变迁项目。后期从事大数据方向的技术研发,主导研发了阿里集团的个性化推荐平台,推动并支撑阿里所有重要个性化推荐场景的落地。目前的主要工作是通过大数据和人工智能相关技术提升阿里商家的效能,从而为商家赋能。

大会所有资源(视频回放、PDF、文章整理)一键下载:https://yq.aliyun.com/articles/65238

大会系列整理文章:

免责声明:文章转载自《千人千面、个性化推荐,解读数据赋能商家背后的AI技术》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇ultraedit 查看文件基于Gecko内核的简单浏览器实现下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

机器视觉之 ICP算法和RANSAC算法

临时研究了下机器视觉两个基本算法的算法原理 ,可能有理解错误的地方,希望发现了告诉我一下 主要是了解思想,就不写具体的计算公式之类的了 (一) ICP算法(Iterative Closest Point迭代最近点) ICP(Iterative Closest Point迭代最近点)算法是一种点集对点集配准方法,如下图1 如下图,假设PR(红色块)和RB(蓝...

小议WebRTC拥塞控制算法:GCC介绍

网络拥塞是基于IP协议的数据报交换网络中常见的一种网络传输问题,它对网络传输的质量有严重的影响,网络拥塞是导致网络吞吐降低,网络丢包等的主要原因之一,这些问题使得上层应用无法有效的利用网络带宽获得高质量的网络传输效果。特别是在通信领域,网络拥塞导致的丢包,延迟,抖动等问题,严重的影响了通信质量,如果不能很好的解决这些问题,一个通信产品就无法在现实环境中正常...

mysql 数据库的表中复制一条数据并添加到该表中

数据库的表中复制一条数据并添加到该表中: 需求: 复制一行数据,并把c_name=化学,tid=015  1、准备sql查询语句:介绍一种快速生成的查询语句  2、编写sql语句:    INSERT INTO `course`(SELECT `cid` + 1, '015', '化学', `ctype`, `ccredit`, `cmax`, `c...

在重命名SqlServer数据库时,报5030错误的解决办法

数据库不能重名名5030的错误,其实很简单原因就是有应用程序正在占用这个连接,使用这样一行命令就可以查询出正在占用的连接 use master select spid from master.dbo.sysprocesses where dbid=db_id('数据库原名') 执行下面这条语句杀掉连接进程就OK了 use master kill 54...

数据分页技术(学习笔记)

    最近学习了WebCast中的数据分页技术,现把相关知识点归纳如下,便于以后总结复习: 一、 数据分页概述: 1.通常在Web页面,在显示数据量比较大时,无法在一个页面上显示所有的数据。 2.在某些特定场景下,并不需要返回所有满足条件的数据。 3.从数据的角度看,需要返回指定范围内的数据。 二、分页技术 1.数据层技术: 在数据库查询时,只查询特定页...

Oracle 删除数据后释放数据文件所占磁盘空间

. . . . . 测试的时候向数据库中插入了大量的数据,测试完成后删除了测试用户以及其全部数据,但是数据文件却没有缩小。经查阅资料之后发现这是 Oracle “高水位”所致,那么怎么把这些数据文件的大小降下来呢?解决办法如下: 概念: 表空间的相关知识请见这里,详细的介绍了 Oracle 数据库的存储结构。 高水位:High Water Mark (HW...