admin管理员组文章数量:1570219
G:\Bigdata\Projects\电商数仓4.0
G:\Bigdata\Projects\电商数仓6.0
第1章 数据仓库概念
数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。
数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等
业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在MySQL、Oracle等数据库中。
用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。
爬虫数据:通常事通过技术手段获取其他公司网站的数据。
第2章 项目需求及架构设计
2.1 项目需求分析
1)采集平台
(1)用户行为数据采集平台搭建
(2)业务数据采集平台搭建
产品经理制定需求,来源一般如下:
1. 领导决策
2. ToB 客户侧需求
3. 开发人员对产品提出的改进优化点。
2)离线需求
主题 | 子主题 | 指标 | 备注 |
流量主题 | 各渠道流量统计 | 当日各渠道独立访客数 | 作用:衡量网站或应用当日各个渠道的独立用户数量。 重要性:帮助了解不同渠道的吸引力和用户量,从而调整营销方案和优化渠道推广。 |
当日各渠道会话总数 | 作用:统计各个渠道当日产生的会话总数。 重要性:反映网站或应用的流量状况和用户活跃度,帮助评估营销策略的效果和网站性能。 |
||
当日各渠道会话平均浏览页面数 | 作用:计算每个渠道的平均会话期间浏览的页面数量。 重要性:表征用户对网站或应用内容的浏览深度,有助于了解用户偏好和改进页面导航等体验。 |
||
当日各渠道会话平均停留时长 | 作用:衡量在各个渠道上用户平均停留的时间长短。 重要性:提供关于用户对内容或页面的兴趣程度和互动程度的信息,指导用户体验和内容优化。 |
||
当日各渠道跳出率 | 作用:表示用户在访问网站或应用后没有与之互动或访问其他页面的比例。 重要性:帮助评估网站或应用的用户体验和页面导航是否有效,指导改进以降低跳出率,提高用户的停留和互动。 |
||
路径统计 | 路径分析 | 作用:跟踪用户在网站或应用中的行为路径,了解用户从入口到转化的具体流程和转换率。 重要性:帮助优化用户体验、页面设计和营销转化策略,提升用户满意度和转化率。 |
|
用户主题 | 用户变动统计 | 流失用户数 | 流失用户数是指在特定时间内停止使用电商平台的用户数量。流失用户数的增加可能意味着平台出现了一些问题,例如服务质量下降、产品更新不及时或竞争对手优势更大等,需要及时了解原因并采取措施来挽留用户,提高用户忠诚度。 |
回流用户数 | 回流用户数:回流用户数是指曾经流失的用户在一定时期内重新回到平台并进行消费的用户数量。增加回流用户数有助于提高平台的用户留存率和销售额,说明平台的推广或改进措施取得了一定效果,对平台的发展有积极的影响。 | ||
用户留存统计 | 新增留存率 | 新增留存率:新增留存率是指在某段时间内注册或首次购买用户在未来一段时间内继续使用平台的比例。高新增留存率意味着平台具有吸引用户和留住用户的能力,是衡量平台用户忠诚度的重要指标,对提高用户活跃度和增加用户价值有帮助。 | |
用户新增活跃统计 | 新增用户数 | 新增用户数:新增用户数是指在特定时间段内新注册成为平台用户的数量。增加新增用户数可以扩大平台的用户基数,促进销售增长和市场份额的提升,对平台的长期发展至关重要。 | |
活跃用户数 | 活跃用户数:活跃用户数是指在一段时间内访问或使用过电商平台的用户数量。增加活跃用户数可以提高平台的用户互动性和转化率,有助于提高平台的用户粘性和商业价值。 | ||
用户行为漏斗分析 | 首页浏览人数 | 首页浏览人数:首页浏览人数是指访问电商平台首页的用户数量。增加首页浏览人数可以提高用户的浏览深度和购买转化率,对提升平台用户体验和销售成绩有积极影响。 | |
商品详情页浏览人数 | 商品详情页浏览人数:商品详情页浏览人数是指访问某一商品详情页面的用户数量。增加商品详情页浏览人数可以提高用户对商品的关注度和购买意愿,是完成购买转化的重要环节。 | ||
加购人数 | 加购人数、下单人数、支付人数、新增下单人数、新增支付成功人数:这些指标反映了用户在电商平台上不同环节的行为情况,包括用户加购、下单和支付的情况。提高这些指标对于增加平台的销售额和交易转化率非常重要。 | ||
下单人数 | |||
支付人数 | |||
新增下单用户统计 | 新增下单人数 | ||
新增支付成功人数 | |||
最近7日内连续3日下单用户数 | 最近7日内连续3日下单用户数:这个指标表示在最近7天内连续3天有下单行为的用户数量。这可以反映用户的购物习惯和订单频次,对于把握用户需求和进行个性化营销有一定帮助。 | ||
商品主题 | *复购率统计 | 最近30日各品牌复购率 | 最近30日各品牌复购率:各品牌复购率是指在最近30天内再次购买某品牌商品的用户比例。提高品牌的复购率可以加强用户对品牌的忠诚度和购买意愿,对品牌的长期发展至关重要。 |
各品牌商品下单统计 | 各品牌订单数 | 各品牌订单数、各品牌订单人数、各品类订单数、各品类订单人数:这些指标可以帮助了解不同品牌和品类的销售情况,有助于优化产品组合和促销策 | |
各品牌订单人数 | |||
各品类商品交易统计 | 各品类订单数 | ||
各品类订单人数 | |||
购物车存量统计 | 各分类商品购物车存量Top3 | ||
各品牌商品收藏次数Top3 | |||
交易主体 | 订单支付时间统计 | 下单到支付时间间隔平均值 | 下单到支付时间间隔平均值是指用户从在电商平台上下单购买商品到最终完成支付所花费的平均时间。这个指标可以反映出用户的购买决策速度和支付效率,对电商系统有重要的影响: 1.用户体验优化:较短的下单到支付时间间隔可以提升用户体验,减少用户等待时间,增加用户满意度,从而提高用户留存率和复购率。 2.订单转化率:通过分析下单到支付时间间隔平均值,电商平台可以了解用户的购买行为习惯,优化商品推荐策略和营销策略,提高订单转化率。 3.库存管理:及时支付可以帮助电商平台更准确地估计实际需求,避免库存积压或缺货情况,提高库存周转率和资金利用效率。 4.支付安全性:较长的下单到支付时间间隔可能增加支付风险,容易导致订单风险评估不准确和交易纠纷的发生。通过缩短下单到支付时间间隔,可以减少支付风险,提升交易安全性。 |
各省份交易统计 | 各省份订单数 | ||
各省份订单金额 | |||
优惠券主题 | 优惠券使用率统计 | 使用次数 | |
使用人数 |
3)实时需求
主题 | 子主题 | 指标 |
流量主题 | 各渠道流量统计 | 当日各渠道独立访客数 |
当日各渠道会话总数 | ||
当日各渠道会话平均浏览页面数 | ||
当日各渠道会话平均停留时长 | ||
当日各渠道跳出率 | ||
流量分时统计 | 当日各小时独立访客数 | |
当日各小时页面浏览数 | ||
当日各小时新访客数 | ||
新老访客流量统计 | 各类访客数 | |
各类访客页面浏览数 | ||
各类访客平均在线时长 | ||
各类访客平均访问页面数 | ||
关键词统计 | 当日各关键词评分 | |
用户主题 | 用户变动统计 | 当日回流用户数 |
用户新增活跃统计 | 当日新增用户数 | |
当日活跃用户数 | ||
用户行为漏斗分析 | 当日首页浏览人数 | |
当日商品详情页浏览人数 | ||
当日加购人数 | ||
当日下单人数 | ||
当日支付成功人数 | ||
新增交易用户统计 | 当日新增下单人数 | |
当日新增支付成功人数 | ||
商品主题 | *复购率统计 | 最近 7/30 日截至当前各品牌复购率 |
各品牌商品交易统计 | 当日各品牌订单数 | |
当日各品牌订单人数 | ||
当日各品牌订单金额 | ||
当日各品牌退单数 | ||
当日各品牌退单人数 | ||
各品类商品交易统计 | 当日各品类订单数 | |
当日各品类订单人数 | ||
当日各品牌订单金额 | ||
当日各品类退单数 | ||
当日各品类退单人数 | ||
各 SPU 商品交易统计 | 当日各 SPU 订单数 | |
当日各 SPU 订单人数 | ||
当日各 SPU 订单金额 | ||
交易主题 | 交易综合统计 | 当日订单总额 |
当日订单数 | ||
当日订单人数 | ||
当日退单数 | ||
当日退单人数 | ||
各省份交易统计 | 当日各省份订单数 | |
当日各省份订单金额 | ||
优惠券主题 | 优惠券补贴率统计 | 当日优惠券补贴率 |
活动主题 | 活动补贴率统计 | 当日活动补贴率 |
2.2 项目框架
2.2.1 技术选型
V4.0
V6.0
2.2.2 系统数据流程设计
V6.0
2.2.3 框架版本选型
V6.0
2.2.4 服务器选型
2.2.5 集群规模
2.2.6 集群资源规划设计
在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务,测试集群用于上线前代码编写和测试。
1)生产集群
(1)消耗内存的分开
(2)数据传输数据比较紧密的放在一起(Kafka 、Zookeeper)
(3)客户端尽量放在一到两台服务器上,方便外部访问
(4)有依赖关系的尽量放到同一台服务器(例如:Hive和Azkaban Executor)
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
nn |
nn |
dn |
dn |
dn |
dn |
dn |
dn |
dn |
dn |
rm |
rm |
nm |
nm |
nm |
nm |
nm |
nm |
||
nm |
nm |
||||||||
zk |
zk |
zk |
|||||||
kafka |
kafka |
kafka |
|||||||
Flume |
Flume |
flume |
|||||||
Hbase |
Hbase |
Hbase |
|||||||
hive |
hive |
||||||||
mysql |
mysql |
||||||||
spark |
spark |
||||||||
Azkaban |
Azkaban |
ES |
ES |
2)测试集群服务器规划
服务名称 |
子服务 |
服务器 hadoop102 |
服务器 hadoop103 |
服务器 hadoop104 |
HDFS |
NameNode |
√ |
||
DataNode |
√ |
√ |
√ |
|
SecondaryNameNode |
√ |
|||
Yarn |
NodeManager |
√ |
√ |
√ |
Resourcemanager |
√ |
|||
Zookeeper |
Zookeeper Server |
√ |
√ |
√ |
Flume(采集日志) |
Flume |
√ |
版权声明:本文标题:[数仓]一、离线数仓(日志数据采集) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1727660413a1124197.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论