HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

标签模型依旧遵循数仓建模的“ODS-DWD-DWS-ADS”分层规划

2024-02-24

标签模型规划

进入详细开发之前,需考虑标签模型层规划,在数仓加工出来数据,标签产品加工数据。标签模型依旧遵循数仓建模的“ODS-DWD-DWS-ADS”分层规划,根据DWD、DWS层抽象一层标签模型层,加工标签根底标签,到时在标签产品上让事务人员经过规矩可加工生成新的标签。

一般遵循“公共层数据”、“大数据量计算”的标签放在数仓中数据开发写SQL完结,“经过规矩可定义”、“标签规矩经常修改”的标签在标签产品中装备。数仓一般完结:

1. 公共层数据

包括根底属性数据、根底目标(目标也能够作为一种标签,如最近30天购买金额、最近30天拜访次数等),这些数据不只给标签体系用,也能够给BI报表、数据门户运用,所以放在数仓中加工表。

1)根底信息类标签


2)买卖类标签


3)行为类标签


2. 大数据量计算的标签

如计算历史最高花费金额、产品的历史最高库存、累计消费金额、用户排序等,这些标签的计算根据的数据量大,最好放在hive中跑批上线。

在数仓中加工好标签根底表,这些表中的标签一般称之为原子标签,再将该表对接标签产品,在标签产品中进行衍生类、组合类标签加工。

三、标签模型规划

根据标签模型的规划,一部分根底目标类的标签在数仓已建造完结,一部分标签需求在产品界面上完结。咱们接下来看下事务人员如何在袋鼠云标签产品中装备标签。

1. 根据事务对象,创建实体、联系

假设一个电商类客户,需求树立一套用户标签体系,则首先创建“用户”实体对象,并在实体对象下能够接入标签多张根底表,如用户根底信息表、用户行为事件的目标表等,这些表的字段可作为原子标签直接运用,作为后续加工衍生、组合标签的根底。

同时,在后续加工衍生标签时,在某些场景上会用到多个实体下的原子标签加工,这时候能够用“联系”将2个实体关联起来,如将“用户”实体与“书本”实体经过用户表的“最近购买产品ID”、以及书本表的“书本ID”关联起来,便能够用到2个表的字段进行某个标签的加工,如下图:


2. 读入原子标签

从标签根底表中读入原子标签,进行原子标签的元数据管理。


读入原子标签时,有些字段可能存储的是编号或一些枚举值,但事务人员需求看到具有真实事务意义的值,此处可做一层字典值映射。比如将“省市编号”映射为详细的省市称号。


根据接入的数据表的原始字段和原子标签,经过“且、或”联系、“求和、去 重计数、计数、最大值、最小值、均值”聚合函数、“等于、不等于、小于、小于等于、大于、大于等于、包括、不包括等”操作符,对源表字段进行加工,生成衍生标签。


相关推荐