今天谈下对大数据下的用户画像和标签体系构建的一些关键点思考,对于用户画像和标签体系构建实际上网上已经有很多相关的历史文章可以参考,今天文章这篇文章不会系统地去谈整体的构建方法步骤,而是搞清楚里面的一些关键逻辑。
什么是用户画像?
简单点来说用户画像是根据用户的静态基本属性和动态行为数据来构建一个可标签化的用户模型。对于静态属性包括了类似个人基本信息(地域,年龄,性别,婚姻),家庭信息,工作信息等;而动态属性则包括了学习,工作,生活,娱乐,社交活动等产生的各种动态行为,但是对于电商平台来说一般主要聚焦在用户的购买行为,点击行为,浏览,评论,营销活动参与行为,退换货行为,支付行为等上面。
那么用户的静态和动态属性信息和标签有啥关系?
实际上对于用户年龄,职业,地域,婚姻情况等都是用户的标签,但是这些标签更多的是在陈述用户的基本事实信息,因此也被称为事实标签。还有一类标签,类似白领,潮流一族,高频用户,追求性价比等,这些标签不是简单对用户静态属性,或单次动态属性的描述,而往往是经过大量的用户静态和动态行为属性经过抽象后形成的一直抽象标签。
比如一个用户经常购买团购或秒杀区的商品,那么我们可能会给用户打一个价格敏感型的标签。或者说用户经常购买电子类的新品发售,那么我们可能要给用户打要给数码潮人的标签。或者我们发现用户最近开始购买类似某个品牌汽车的类似脚垫,汽车清洁用户等商品,那么我们可以推断给用户打上有车一族的标签。
为何要给用户画像并标签化
简单来说用户画像和标签化还是为了针对性营销的需要。任何一个商品,当进入到市场营销推广阶段的时候一定有其明确的目标用户群体,比如一个母婴类商品,在推入市场后明确的市场定义和用户群体细分为,面向:二胎家庭+高收入+价格不敏感+上班族
这个是商品本身的细分市场这个策略上面的每一个定位点实际上本身就是用户画像中的标签。那么当我们对所有的用户进行标签化后,我们就很容易进行匹配。
上面列的标签和用户画像库中的匹配度越高,往往营销的针对性也就越强,越是你需要最终关心的目标用户。比如一个用户的标签库模型和上面的四个点都匹配,那么在进行针对性推荐的时候购买行为达成的概率也就越高。
如果一个用户二胎家庭+高收入+上班族这三个标签都慢点,但是属于价格敏感型用户,那么我们完全就可以考虑在进行团购,秒杀的时候针对性推荐。
基于大数据分析的用户画像,实际要理解是可以从两个不同的切入点进入的。
其一是基于单个用户,如张三进行用户画像。
其二是针对某个商品,对其历史购买群体进行用户画像
某个商品的历史购买群体形成的用户画像,实际i上本身就是商品的目标用户群体。那么拿着这个画像区和第一种单个用户的画像库中的标签进行匹配分析。针对性营销的关键可以理解为这种匹配度。
数据采集和模型构建
前面已经谈到对于用户数据的采集分为了静态属性数据和动态行为数据。
对于静态属性数据往往在用户进行注册的时候就完成了初步的采集,当前在用户实名制注册情况下可以采集到用户身份证号,婚姻情况等更进一步的信息。当用户的一些静态属性仍然可以通过个人的一些行为数据进行推测。比如用户构建大学辅导书籍,邮寄到学校地址等,往往可以进一步推测用户是一个大学生。
对于用户的动态行为往往就比较多了,动态行为数据不是简单的购买行为和购买订单,更加重要的是用户浏览行为,搜索行为,点赞,评论,转发,添加购物车等各种行为数据。这些动态行为数据往往才能够为分析推断起到关键作用。
比如用户最近一直在搜索婴儿车,尿不湿,奶瓶等商品,即使没有发生购买行为,你也可以推断出用户家里即将有刚出生的婴儿这个核心标签。
也就是说对于大部分运营平台,上面就是一个最简的数据采集模型,你可以采集用户和商品的基础属性信息数据,同时采集用户在APP或网站上发生的购买,浏览,搜索等动态行为数据形成一个最基础的原始数据库。
当谈大数据的时候,实际不仅仅是谈数据的多样性和大数据量,更加重要的是数据的关联性。用户和用户的关联性,即我们常说的用户社交属性信息;而商品本身也有商品的关联性,商品A可以是商品B的一个子类,同时也和商品C同时属于某一个商品类型等。
大数据分析的重点往往正是在于这种由人到物,由物到人形成的复杂关系网络。
简单来说就是当我们对用户,商品两者的关系进行扩展后,将形成一个完整的静态关系+动态行为网络结构。这个网络结构有点类似于我们前面谈到的知识图谱和语义图。
为何要作这种扩展?
简单来说即使通过关系扩展后,将形成更多可以追溯,可以关联,可以聚类的点。才有可能进行更多的数据建模并进行推理。
数据模型和数据聚类
常用的数据模型包括了自然语言处理和分析,回归模型,聚类模型,文本挖掘和机器学习等。在模型构建前有个重点就是数据本身的检验(回答数据本身是否准确可靠),数据的相关性分析等。
要注意进行用户画像的时候,可能针对的是一个用户群体,也可能针对的是一个具体的用户群体。比如我们可以对月均消费金额>1000元,消费次数>2次的用户群体进行画像,得到这个群体的年龄分布,学历分布,地域分布等;其次我们也可以对张三这个特定用户进行画像,给出他是小孩,动漫迷,音乐发烧友等标签。
由个体到群体是进行聚类的基础,即我们可以通过大量的个体行为数据,基于某些关键维度进行聚合,通过聚合得出以下大的归类。比如对耳机类商品购买,通过聚类分析后可能得出发烧+品质型,尝鲜型,价格敏感型等关键分类。
对于聚类完成后我们还需要进一步对聚类的抽象用户进行画像说明,比如对于发烧型抽象用户群体特征:20岁以下,学生,喜欢日系品牌,2000价格区间等。
聚类最终的结果将可用于针对性营销,类似当我们推出一个发烧耳机的时候我们就知道推送给哪些用户,或者当我们有大的促销优惠的时候应该推送哪些用户等。
大数据下的用户画像
对于大数据下的用户画像实际上前面已经谈到,核心就是对用户进行标签化或图谱化处理。这个标签可以是简单的事实标签,那么不需要建模,也不需要推理。
但是更多的是抽象标签,需要进行模型建设和推理。
下面梳理下识别和分析维度的过程简单来说对于电商大数据分析中的用户画像,其核心的展开逻辑应该是如此的,即是:用户购买或希望购买某一个商品。
可以看到我们所有的用户分析的维度展开均是基于上面这句话展开,可以看到两个静态的对象(用户,商品)通过购买或潜在购买行为发生了关系和链接。那实际维度展开过程即:
a.用户基本属性先展开第一层
包括了性别,年龄,区域,婚否,工作还是学生,年收入,是否有小孩,是否有车,电话号码等。(第一层展开里面会出现问题,即有些基础数据我们没法收集到,比如是否有车?那么我们可以从用户购买行为来反向推测用户是否有车)。
第一层展开后涉及到第二层的展开,比如区域,区域本身又是一个树状对象,可以作为展开和分析的维度。通过手机号我们可以分析出运营商,进入转到运营商维度。
b.对于商品同样,可以先做第一层的展开
商品本身有商品的类目,那么类目是一个重要的分析维度。即由商品类目构成的商品树状展开结构式商品的一个核心数据。即可以朝上进行类目聚合归纳,又可以向下进行演绎推理。其次,一个商品涉及到自营或其它的2B商家,那么就涉及到商家和品牌这些维度,这些维度同样也是可以进行展开的点。最后,任何一个商品本身还存在其它的关联类商品,商品关联往往是基于某些关键业务活动场景进行的组合。
c.动态行为展开
动态行为包括了购买行为和潜在购买行为,对于浏览,点评,放入购物车等都可以纳入潜在购买行为。实际上我们应该更加关注潜在购买行为,促使潜在购买转变为最终购买。
一次购买就涉及到购买的时间,购买的地点,PC端还是移动端购买,购买的时候用的手机,购买的具体商品,购买的总金额,支付的方式,送货的方式,是否基于促销活动购买,是否使用打折券,退货或换货情况等。这些都应该纳入对动态购买行为的分析中。
b.基于关系驱动的进一步分析
前面已经谈到了静态的关系数据和动态的行为数据往往形成一张复杂的网络结构,这个网络结构本身可以用于聚合分析,关系推理等。
比如当发现张三和李四购买订单的配送地址都是同一个公司地址的时候,你可以初步推理张三和李四实际是属于同事关系。
再比如当你发现张三的所有同事关系都已经被动态行为属性和购买行为打上了某个标签的时候,你就可以考虑张三本身是否也可能存在类似的标签,虽然张三这个时候并没有通过自身的行为聚合出这个标签。
用户全量行为数据的分散性
在当前的互联网格局下,可以看到用户实际的大数据行为数据体现出明显的分散性。比如对于交通出行旅游等数据往往被类似携程,去哪儿网等采集存储;对于餐饮消费类似数据往往被大众点评存储;对于商品购买类往往体现在类似京东,天猫等电商平台;而对于强关系数据体现在电信运营商和微信,对于弱关系数据体现在类似微博等新媒体应用,对于个人民生类数据往往则存储在政府部门大数据中心。
而实际要对一个用户进行完整的画像或行为数据,需要的不仅仅是单一数据,更加重要的是完全包括用户衣食住行各个行为特征的全量数据。如果谁能够真正获取到这种全量数据,往往才能够构建最精确的用户画像,对于各个用户来讲也是将个人隐私完全暴露,这也和你光天化日大街上裸奔没啥区别。
试想,当我打开携程预定完出行机票或酒店的时候,进入到京东电商后一句再给你推荐你可能需要的出行装备的时候,这才是能够做到跨APP域的精确用户画像和推荐。
所以对于大数据用户画像和标签构建已经不是一个简单的技术问题,更加重要的是用户行为和隐私数据的合法保护问题。