基于Apache Doris的小米增长分析平台实践|电子爱好者

admin管理员组
文章数量:1530353

1、背景

随着小米互联网业务的发展，各个产品线利用用户行为数据对业务进行增长分析的需求越来越迫切。显然，让每个业务产品线都自己搭建一套增长分析系统，不仅成本高昂，也会导致效率低下。我们希望能有一款产品能够帮助他们屏蔽底层复杂的技术细节，让相关业务人员能够专注于自己的技术领域，从而提高工作效率。通过分析调查发现，小米已有的统计平台无法支持灵活的维度交叉查询，数据查询分析效率较低，复杂查询需要依赖于研发人员，同时缺乏根据用户行为高效的分群工具，对于用户的运营策略囿于设施薄弱而较为粗放，运营效率较低和效果不佳。

基于上述需求和痛点，小米大数据和云平台联合开发了增长分析系统(Growing Analytics, 下面简称GA)，旨在提供一个灵活的多维实时查询和分析平台，统一数据接入和查询方案，帮助业务线做精细化运营。

2、增长分析场景介绍

如上图所示，分析、决策、执行是一个循环迭代的过程，因此，增长分析查询非常灵活，涉及分析的维度有几十上百个，我们无法预先定义好所有要计算的结果，代价太高，所以这也就要求了所有的数据需要即时计算和分析。同时，决策具有时效性，因此数据从摄入到可以查询的时延不能太高。另外，业务发展迅速，需要增加新的分析维度，所以我们需要能够支持schema的变更（主要是在线增加字段）。

在我们的业务中，增长分析最常用的三个功能是事件分析（占绝大多数）、留存分析和漏斗分析；这三个功能业务都要求针对实时入库（只有append）的明细数据，能够即席选择维度和条件（通常还要join业务画像表或者圈选的人群包），然后在秒级返回结果（业界相关的产品如神策、GrowingIO等都能达到这个性能）。一些只支持提前聚合的预计算引擎（如Kylin），虽然查询性能优秀，但难以支持schema随时变更，众多的维度也会造成Cube存储占用失控，而Hive能够在功能上满足要求，但是性能上较差。

综上，我们需要存储和计算明细数据，需要一套支持近实时数据摄取，可灵活修改schema和即席查询的数据分析系统解决方案。

3、技术架构演进

3.1 初始架构

GA立项于2018年年中，当时基于开发时间和成本，技术栈等因素的考虑，我们复用了现有各种大数据基础组件(HDFS, Kudu, SparkSQL等)，搭建了一套基于Lamda架构的增长分析查询系统。GA系统初代版本的架构如下图所示：

GA系统涵盖了数据采集、数据清洗、数据查询和BI报表展示等一整套流程。首先，我们将从数据源收集到的数据进行统一的清洗，以统一的json格式写入到Talos(注：小米自研的消息队列)中。接着我们使用Spark Streaming将数据转储到Kudu中。Kudu作为一款优秀的OLAP存储引擎，具有支持实时摄取数据和快速查询的能力，所以这里将Kudu作为热数据的存储，HDFS作为冷数据的存储。为了不让用户感知到冷热数据的实际存在，我们使用了动态分区管理服务来管理表分区数据的迁移，定期将过期的热数据转化为冷数据存储到HDFS上，并且更新Kudu表和HDFS表的联合视图，当用户使用SparkSQL服务查询视图时，计算引擎会根据查询SQL自动路由，对Kudu表的数据和HDFS表的数据进行处理。

在当时的历史背景下，初代版本的GA帮助我们用户解决了运营策略较为粗放、运营效率较低的痛点，但同时也暴露了一些问题。首先是运维成本的问题，原本的设计是各个组件都使用公共集群的资源，但是实践过程中发现执行查询作业的过程中，查询性能容易受到公共集群其他作业的影响，容易抖动，尤其在读取HDFS公共集群的数据时，有时较为缓慢，因此GA集群的存储层和计算层的组件都是单独搭建的。另一个是性能的问题，SparkSQL是基于批处理系统设计的查询引擎，在每个Stage之间交换数据shuf

本文标签：小米平台 Apache Doris

版权声明：本文标题：基于Apache Doris的小米增长分析平台实践内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1725868578a1046020.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

基于Apache Doris的小米增长分析平台实践

更多相关文章

android11开发版小米,MIUI：小米10系列因适配Android 11，开发版暂停更新！

小米开发版安装magisk_小米开发版安装magisk(面具），不用第三方rec就可以安装...

小米路由器安装Linux软件,小米路由器mini安装mixbox教程

小米路由器4A千兆版安装OpenWRT和ShellClash

Kaggle平台5个月2块银牌晋级Competition Expert历程

探索创新的区块链竞赛平台：ColaDrill's tx_competition

探索PPD Modeling Competition：一个数据建模与预测的创新平台

ChatGPT Plus 开源啦！一款现代化风格的 ChatGPT 跨平台客户端

云漾AI创作平台 ChatGPT+AI绘画平台+支持GPT4.0+Midjourney绘画

iMazing许可证编号如何激活苹果版手机管理器支持 WinMac 双平台

Linux下访问小米路由器文件

小米路由器AX3600和Redmi路由器AX5使用问题讨论

一、玩转小米路由器mini之刷openwrt固件

小米路由器mini实现锐捷认证.

amd支持服务器内存,AMD专用内存为什么只能在AMD平台使用？与普通内存有什么区别？...

【AMD平台下DPDK的使用--以dpdk-19.11.10为例】

AMD黑苹果 3A平台EFI分享给大家

在线软件测试平台,免费好用的APP安全在线检测平台

暴风云视频平台SDK使用介绍（一）-- 概述

暴风云视频平台点播SDK使用介绍（三）-- 视频播放（IOS）

发表评论

推荐文章

二级路由器配置网址无法访问的解决方法

亲测好用，ChatGPT 3.54.0新手使用手册，最全论文指令手册~ 【2024年9月 更新】

INFORMS 及 EJOR 系列主编汇总

串联两个路由器互相访问路由表设置记录

剪映做好的字幕用迅雷影音播放出现乱码

热门文章

Win10使用汇总

HONOR荣耀MagicBook Pro i5(HBL-WX9)原装出厂Windows10系统

水星路由器上网设置服务器无响应,怎么防止路由器DNS被劫持弹出广告

使用驱动器H：中的光盘之前需要将其格式化

chrome浏览器添加crx插件

Chrome浏览器自动生成debug.log文件解决方法

外网远程唤醒群晖NAS:路由器唤醒内网树莓派唤醒手机端WOL软件远程唤醒网页工具唤醒

Kali--MSF-永恒之蓝详解（复现、演示、远程、后门、加壳、修复）

网秦手机杀毒软件 v2.1 pocketpc _wm5.0 下载

2024最新版IntelliJ IDEA安装教程（非常详细）从零基础入门到精通，看完这一篇就够了

最新文章

禁止搜狗拼音输入法自动更新

如何将搜狗拼音输入法键盘布局更改成日文106键布局

linux安装搜狗拼音输入法

linux 输入法 14.04,如何在Ubuntu 14.04 LTS 上安装配置搜狗拼音输入法

Fedora Workstation 36安装搜狗拼音输入法

搜狗拼音输入法的安装和基本使用

最新ArchLinux上 fcitx搜狗拼音输入法的安装

manjaro 安装搜狗拼音输入法

必应拼音输入法与搜狗拼音输入法对比评测报告之功能评价篇

CentOS 7 安装搜狗拼音输入法

Ubuntu下搜狗拼音输入法在不同窗口切换后总弹出拼音状态框的问题

搜狗拼音输入法输入数字和英文时总是有空格

Ubuntu 1804上安装搜狗拼音输入法

计算机有自带的拼音打字功能吗,搜狗拼音输入法 自带功能提升打字速度的技巧...

win10更新之后搜狗输入法、QQ拼音输入法不可用

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

亲测好用，ChatGPT 3.54.0新手使用手册，最全论文指令手册~ 【2024年9月更新】

计算机有自带的拼音打字功能吗,搜狗拼音输入法自带功能提升打字速度的技巧...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载