0 前言

一、 电商推荐算法简述

电子商务涉及的用户可能有不同背景、爱好,电商提供多样化、个性化的服务有助于满足不同类型用户的个性化需求。和传统的电子商务相比,移动电子商务具有“人机对应、一人一机”的特点,所以可以针对用户进行便捷的个性化推荐服务。

目前比较多的电商模式为B2B,B2C,O2O,在本文介绍和需要举例说明的地方B2B电商模式为主。

1 移动商务及个性化服务

电商推荐根据推荐内容不同分为物品推荐、商家推荐;流行的推荐应用主要有三个方面:1)针对用户的浏览、搜索等行为所做的相关推荐;2)根据购物车或物品收藏所做的相似物品推荐;3)根据历史会员购买行为记录,利用推荐机制做邮件推送或会员营销。其中推荐算法主要分为以下几个类: 

移动电子商务是传统电商的特别形式,是一种利用移动通信网络实现的电子商务活动,其商务形式由固定地点延伸到随时随地;移动电子商务的特征包括:位置相关性、随时随地访问。传统的电子商务中用户的位置并不重要,展现给所有用户的是统一的内容。移动电子商务可以定位使用者,而且在移动终端中的配置可以分辨用户的身份;定位及用户识别这两个特性的结合使移动电子商务具备一定的个性化特征。

1、基于用户的协同过滤推荐算法

移动电子商务的个性化服务观点有不同的内涵:用户特性。可以将移动电子商务看作是为不同特性客户提供针对性的信息内容的服务。用户偏好及习惯。不同用户的行为习惯以及偏好不尽相同,移动电子商务需要为用户提供满足个性化需求的服务。针对上述观点,可以将移动个性化服务定义为:内容及服务提供商根据用户的身份、职业、偏好、年龄等特性,为不同的使用者提供针对性的内容。个性化主要体现在[1]:内容的个性化。不同用户对商品的需求不同,移动电子商务不再仅仅提供多样化的商品,而是根据用户的兴趣偏好为用户推荐真正需要、可能消费的商品,尽量减少用户在商品搜索过程中耗费的时间、精力。服务方式的个性化。传统的信息服务方式多为“PULL”模式,即信息直接发布到网络上,用户从海量信息中查找需要的信息。为了提高销售效率,移动电子商务必须改变为“PUSH”模式,直接将合适的信息精准的推荐给可能需要的用户。

a. 找到与目标用户兴趣相似的用户集合

2 个性化推荐技术

b. 找到这个集合中用户喜欢的、并且目标用户没有听说过的物品推荐给目标用户

电子商务的整个流程中涉及到大量不同类型的数据,比如用户信息、商品信息、服务信息及日志、交易信息等。移动电子商务涉及到的数据类型更多,而且异构数据的比例更大;移动用户的需求可能会随着时间、用户场景的变化而变化;例如,旅行中的用户通常更关注住宿、交通相关的商品信息,而休假中的用户往往对娱乐信息更感兴趣;这无疑增加了预测用户行为、推荐合适商品的难度。

2、基于Item(项目)的协同过滤推荐算法

移动电子商务中的个性化推荐技术的主要步骤包括:数据采集、数据预处理、数据建模、数据分析、个性化推荐。数据采集阶段负责采集所有用户的信息,包括用户资料、购买历史信息等。数据预处理对采集到的数据进行有效性检查,去掉无效订单。建模阶段以数据挖掘技术为主,对预处理后的数据进行聚类分析、关联分析等。数据分析阶段试图从大量数据中发现用户的购买倾向,以便进行个性化推荐。

  a.基于用户对某商品的兴趣程度,寻找出相似度最大的物品。

通过上述分析可知移动电子商务中个性化推荐的功能需要满足[2]:分析用户的偏好和行为习惯,以进行更加精确的用户行为预测。关联规则挖掘可以从用户的购买历史数据中发现潜在的关联关系。分析用户行为,针对用户的购买习惯,为用户提供个性化推荐。协同过滤可以根据有相似购买习惯用户的偏好,为当前用户推荐其可能感兴趣的商品信息。

  b.将相似度最大的物品推荐给目标用户。

3 关联规则挖掘

 

关联规则挖掘技术是实现移动电子商务个性化推荐的关键,直接决定着个性化推荐的效果。关联规则挖掘的目的是从海量信息中找到有商业价值的关联关系,并为商业决策提供支持。

协同过滤举例:四个用户ABCD,对5个商品abcde的兴趣与否见下表(实际用户对物品的兴趣程度有区别,需要具体的评分量化),这里方便理解原理,用二元值表示用户对物品是否感兴趣。

假设现有m条交易记录、n个物品,并且物品集合I={Ij|j=1,2,…,n},交易数据库D={Ti|i=1,2,…,m},则关联数据挖掘过程中涉及到的概念主要包括[3]:项集。集合I中的任意子集,有p个物品项的项集Ip={I1,I2,…,Ip}。关联规则。关联规则是类似于R:Ii?圯Ij这样的蕴涵式,表明如果数据库中的事务包含项集Ii,那么此事务也很可能包含项集Ij。支持度。假设组成关联规则r的物品项集为Ir,那么Ir在D上的支持度即为包含Ir的事务占D中所有事务的比例。频繁项集。频繁项集指的是数据库D中满足指定最小支持度的所有非空子集。

 

a

b

c

d

e

目标物品

A

1

1

0

1

0

1

B

1

0

1

0

0

0

C

0

1

0

0

1

1

D

0

1

1

1

0

获取频繁项集后,就能够根据频繁项集生成关联规则;值得注意的是,生成的关联规则中有很多是无意义或冗余的,为了提高推荐的质量,必须改进关联规则的评价过程。关联规则的评价过程又被称为关联规则的兴趣度量度;常见的度量方法有主观兴趣度及客观兴趣度,前者一般是基于用户的知识,而后者多依赖于挖掘数据和关联规则的表现形式。支持度――置信度框架是最经典的兴趣度量方式[4]:支持度用来度量关联规则的可用性,置信度用于评价关联规则的确定性。

 基于用户的协同过滤:指根据用户对各物品的兴趣度计算相似性,相似性的算法有很多(主要有余弦相似性、相关相似性以及欧式距离等),上述与用户D相似对最高的是用户A,用户A对目标物品的兴趣度为1,就可将目标物品推荐给用户D。

4 协同过滤推荐

基于item的协同过滤:指从物品维度上看,根据用户对每个物品的兴趣度,计算物品间的相似性,可以算出物品b和目标物品的相似性最大,用户D对物品b感兴趣,则很可能对目标用户感兴趣。

传统的电子商务技术在进行商品推荐时大多使用的是基于内容的过滤技术,这种方法在商品数量过多时的分析能力相对有限,而且难以发现用户已经展现出的兴趣之外的潜在兴趣。基于内容的过滤和协同过滤的推荐方式如图1所示:

3、基于内容的推荐算法

协同过滤推荐技术克服了基于内容过滤的不足,它根据其他习惯近似用户的偏好为当前用户推荐可能感兴趣的信息,并且在推荐时只需要用户的购买行为以及评分信息,并不需要其他额外信息,也不会涉及到用户的个人隐私。

商品为客观体,提取商品对象的特征,寻找相似度比较大的物品进行推荐。系统首先对物品的属性进行建模,通过相似度计算,发现物品A和B相似度较高,或者他们都属于同类物品。系统还会发现某用户喜欢物品A,由此得出结论,某用户可能对物品B也感兴趣,于是将物品B推荐给该用户。

协同过滤技术的步骤包括:采集电商的销售数据、评分数据,并根据相似性算法计算指定用户、商品间的相似性;根据相似性信息,获取和指定用户、商品最相似的k个目标,称为k近邻集合;根据k近邻集合的信息,预测指定用户对目标商品的购买兴趣。

    基于内容的推荐算法比较容易理解,主要用到分类、聚类算法,对用户兴趣可以很好的建模,并通过对物品属性维度的增加,获得更好的推荐精度。但是物品的属性有限,很难得到更多数据属性,且对于部分物品属性特征提取有时候比较困难,只考虑物品本身的特征,忽略用户的行为特征,存在一定片面性,对于从未购买物品的新用户存在冷启动问题,不能对新用户进行推荐。

5 ?结

 

要在移动电子商务中进行商品推荐需要发现用户偏好、分析用户行为,关联规则挖掘的目的是从海量信息中找到有商业价值的关联关系,协同过滤技术可以用于个性化推荐;这两者的结合可以有效用于移动电子商务,将特定内容有针对性的推荐给电商的潜在用户。

4、基于关联规则的推荐算法

  基于关联规则的推荐是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性,关联规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品,根据某种商品所属的置信度较高的关联规则,推荐物品。

根据用户的购买记录,提取关联规则,常用的算法有Apriori算法,为了提取频繁项集和一定置信度的关联规则。Apriori算法的主要原则是如果项集A是频繁的,那么它的子集都是频繁的。如果项集A是不频繁的,那么所有包括它的父集都是不频繁的,简化频繁项集的选择的复杂度。

 

5、基于RFM的推荐算法

 

6、基于人口统计特征的推荐算法

  这是最为简单的一种推荐算法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户。系统首先会根据用户的属性建模,比如用户的年龄,性别,兴趣等信息。根据这些特征计算用户间的相似度。比如系统通过计算发现用户A和C比较相似。就会把A喜欢的物品推荐给C。

  基于人口统计特征推荐算法的优势是不需要历史数据,没有新用户冷启动问题,不依赖于物品的属性,不足是算法比较粗糙,效果很难令人满意,只适合简单的推荐。

 

7、混合推荐算法

融合以上方法,以加权或者串联、并联等方式尽心融合。实际应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果,然后用某方法组合其结果,如加权、变换、混合、特征组合、层叠、特征扩充、元级别等。组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。

1)加权(Weight):加权多种推荐技术结果。

2)变换(Switch):根据问题背景和实际情况或要求决定变换采用不同的推荐技术。

3)混合(Mixed):同时采用多种推荐技术给出多种推荐结果为用户提供参考。

4)特征组合(Feature
combination):组合来自不同推荐数据源的特征被另一种推荐算法所采用。

5)层叠(Cascade):先用一种推荐技术产生一种粗糙的推荐结果,第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。

6)特征扩充(Featureaugmentation):一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。

7)元级别(Meta-level):用一种推荐方法产生的模型作为另一种推荐方法的输入

 

 

二、 各种推荐算法的优缺点

 

推荐方法

优点

缺点

协同过滤推荐

新异兴趣发现、不需要领域知识;

随着时间推移性能提高;

推荐个性化、自动化程度高;

能处理复杂的非结构化对象

稀疏问题;

可扩展性问题;

新用户问题;

质量取决于历史数据集;

系统开始时推荐质量差;

基于内容推荐

推荐结果直观,容易解释;

不需要领域知识

新用户问题;

复杂属性不好处理;

要有足够数据构造分类器

基于规则推荐

能发现新兴趣点;

不要领域知识

规则抽取难、耗时;

产品名同义性问题;

个性化程度低;

基于人口统计

不需要历史数据,没有冷启动问题;

不依赖于物品的属性,因此其他领域的问题都可无缝接入

算法比较粗糙,效果很难令人满意,只适合简单的推荐

 

 

三、 推荐算法总结 

鉴于各种推荐算法的优缺点和适应场景,系统开始与系统成熟时的推荐算法应有区别。系统开始时,用户数据不够多,交易行为记录数据比较少,倘若利用基于内容和协同过滤的推荐算法存在很多新用户冷启动问题。在系统成熟时,用户交易数据较多,部分算法用到矩阵,产生较大的稀疏矩阵数据,运算量大,需要结合组合推荐法。总结B2B电商平台在系统初和系统成熟时的推荐算法建议:

  系统初可使用的推荐方法:

1、基于人口统计、热搜、浏览记录

   
基于人口统计的推荐:通过注册以及询问得知一些用户的属性信息,譬如年龄、居住城市、受教育程度、性别、职业等等,能够得到用户之间属性的相似度;

    热搜:站内热搜,按排名进行推荐;

   
基于浏览记录的内容的推荐:部分产品的内容特征比较好提取,比如带文字描述的产品,也有内容特征比较难提取的,如图片,或者浏览的商品不详,则需要人工或智能爬取相关信息。总的来说,这一部分的推荐是基于用户浏览的内容,通过提取特征,计算相似度,推荐相似产品(相似产品的推荐精确度可能比较难达到要求,通过提高粒度,进行品类推荐是常见做法)。

2、标签系统

   
利用标签也只能是提高有少量行为的用户的推荐准确性,对于纯粹的冷启动用户,是没有帮助的,因为这些人还没有打过任何标签。系统也可以给商品打上标签,但是这里面没有个性化的因素,效果会打一个折扣。从这个意义上讲,利用标签进行推荐、激励用户打标签以及引导用户选择合适的标签,都非常重要。引导用户多打标签,通过标签进行分类推荐也是常用的方法

3、多维数据的利用

每个人处于一个巨大的社会网络中,在多个网站存在行为数据,相当比例的用户都具有交叉购物的习惯,把这些网络数据整合起来,特别是知道每个节点身份的对应关系,可以带来的巨大的社会经济价值。使用‘迁移学习法’,可以实现跨领域的推荐。多维数据的利用能解决新用户的冷启动问题。

神州商桥的用户来自本来的用户群的比例应该很大,从其它的数据接口获取数据源,获得用户的基础信息。

 

系统成熟时可使用的推荐方法: 

1、 协同过滤推荐法

2、 基于内容的推荐法

3、 基于关联规则,用户与用户之间的关联,商品与商品之间的关联

4、 组合推荐法(协同过滤和基于内容的推荐的结合)

  
 这三个推荐法在电商系统成熟时应用的比较多,行为数据充足使得这些算法的推荐效果比较好,然而在数据量级特别大的时候存在数据稀疏问题,一般采用的解决办法是把这些商品信息粗粒化,譬如只考虑一个个的品类,数据就会立刻变得稠密。如果能够计算品类之间的相似性,就可以帮助进行基于品类的推荐。

 

四、推荐算法评价指标

  
准确度、多样性、新颖性和覆盖率。每一类下辖很多不同的指标,譬如准确度指标又可以分为四大类,分别是预测评分准确度、预测评分关联、分类准确度、排序准确度四类。第二个层次是商业应用上的关键表现指标,譬如受推荐影响的转化率,购买率,客单价,购买品类数等等,第三个层次是用户真实的体验,注意保护用户隐私。

 

五、 数据挖掘在电商中的应用(后续补充)

1、客户画像

2、精准营销

3、信用评级

4、广告推介

5、物流配送

6、舆情分析

 

 

相关文章

网站地图xml地图