admin管理员组

文章数量:1562423

继续更新数分的面经(霍霍)

一、概念问题

  1. Python你常用的包有哪些?/ 工作中python会用到哪些
    Python当中我常用的都是用于数据分析以及机器学习的包
    例如Numpy对数组进行处理以及pandas对csv以及excel的数据进行读取以及分析了解数据内部的结构,并且用matplotlib制作各种柱状图折线图热图来对数据属性之间的关系进行可视化
    机器学习的话不用多说scikit-learn包里面有很多集成的机器学习模型都可以调用

  2. 说一下数据分析常用软件
    spss python tableau excel powerbi , GA

  3. Power BI和Excel的对比
    1.Power BI是比Excel更强大的工具: Power BI处理大数据,而Excel无法处理大数据。
    2.Power BI可以连接各种不同的源,而Excel只可以连接到有限的源。
    3.Power BI仪表板更具交互性和自定义性,而Excel仪表板交互性不强。
    4.Power BI 主要用于数据可视化和与大量用户的仪表板共享,而Excel主要用于深入的驱动程序分析。

  4. 参数估计和假设检验分别是什么?区别在哪里?
    参数估计 通过样本统计量来对总体参数进行估计的方法,包括点估计和区间估计
    参数估计是以置信区间(大概率)估计总体参数;
    置信区间 在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间
    假设检验 是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立 假设检验是利用小概率时间判断是否成立;
    假设检验在工作之后更重要的一个应用就是AB实验。AB实验是快速验证策略是否有效的方法,其中涉及的大量统计学知识以及实验步骤:确定目标及假设、确定指标、确定实验单位、样本量估算、测试时间估算、实施测试、分析测试结果等

  5. 说一下假设检验的显著性水平
    假设检验的显著性水平是在统计测试中使用的一个非常重要的概念,通常表示为 α。

  6. 假设检验相关的第一类错误、第二类错误,怎么降低第一类错误,如何同时降低第一类和第二类错误
    第一类错误(保真):当原假设(H0)实际为真时,却错误地拒绝它,这种错误称为第一类错误,或“假阳性”。显著性水平就是犯这种错误的概率。即P{拒绝H0/H0为真}=α;
    第二类错误(取伪):当假设H0不正确,接受H0。称此为第二类错误,记β为犯第二类错误的概率,即P{接受H0/H0不真}=β。 我们通常希望犯这两类错误的概率都很小。但当样本容量n固定时,α、β不能同时都小,α变小时β就变大,而β变小时α就变大。只有当样本容量n增大时,才有可能使两者变小。
    降低第一类错误
    要降低犯第一类错误的概率,可以采用以下策略:
    降低显著性水平(α):选择更低的显著性水平,如从 0.05 降到 0.01,意味着我们对拒绝原假设的证据要求更高,这自然会减少错误拒绝正确原假设的风险。
    使用单侧检验:当研究假设方向性明确时,使用单侧检验代替双侧检验可以降低第一类错误的风险。
    增强数据质量和研究设计:减少测量误差和实验误差,提高数据收集的精确性,确保研究设计的严密性。

  7. 如何判断实验组和对照组的某个指标是否有显著差异?
    在实验开始前就对实验组和对照组进行数据指标监测,若实验前两组指标无明显差异,观测实验后的情况,根据假设检验原理设置所需的显著性水平,在该水平下判断两组的指标是否有显著差异;若实验前两组指标即存在差异,则可以采用DID(双重差分)的方法,查看两组的指标差距在设定显著性水平下实验前后是否有显著差异。

  8. 说一下显著性水平、置信区间、假设检验
    9.讲一下Union和Join的区别
    10.说一下SQL窗口函数并举例
    11.说一下SQL里面的like的用法
    12.SQL语句求单日留存及一个月的每日留存
    13.sql如何进行优化
    14.是否会SQL、Python、R等分析工具,分别有什么用?
    15.你对数据分析的认知是什么,那你是如何学习数据分析的?(除上课外)

正态分布
正态分布也称为高斯分布,是一种常见的连续性概率分布,若随机变量x服从概率密度函数f(x),则称x服从均值为μ,方差为δ^2,的正态分布,记为x~N(𝜇,𝛿2),正态分布曲线呈钟型,故常称之为钟形曲线。

二、业务问题

  1. 怎么样的数据挖取能真正对业务起到指导作用?
    明确业务指标以及业务要求,了解到当前业务真正需要的数据是什么,了解到当前业务是需要挖去数据的哪些特征以及他们潜在的关系。
    想要数据分析能够对业务起到指导作用,首先应该充分了解当前的业务。而每个公司、每项业务都离不开四个步骤,获客、激活、留存、变现,因此对业务的指导也是围绕这几个方面展开的,数据分析应该落地于帮助业务优化成本、扩大规模,让潜在的用户真正使用我们的产品,提高用户粘性、尽力留住用户,并提高每个用户所带来的收益。
  2. 短视频业务需要哪些指标,哪三个指标最重要?
    1.短视频本身的数据,比如短视频发布时间、视频时长、发布渠道。这个都是视频发布后即有的固定属性
    2.短视频消费测相关的数据,比如累计播放量、点赞率、完播率
    3.短视频供给侧相关数据,投稿用户数、连续投稿用户数、优质投稿人涨粉率等。
    我认为最重要的三个指标为播放量、点赞量和收藏量。这三个指标可以反映出短视频消费的健康情况。也是我认为最应该关注的指标
  3. 结合你实习中的业务场景,介绍一下获取和处理数据的途径和流程?
    企业的数据中台中的数据库中获取的表数据
  4. 说一个常用的社交媒体软件app,讲一讲有什么优缺点
    首先第一个是小红书的用户基数大,各个年龄段的人都有找到相处的圈子,第二个是内容种类多样,可以针对不同的用户的兴趣爱好推荐相应的内容。
    缺点首先是信息量多,内容过于多,对于内容的推荐以及筛选机制不佳
  5. 跟领导汇报字节跳动的业务,你会选择哪5个指标,为什么
    从用户增长角度出发,套用AARRR模型,包括获取,激活,留存,转化,传播五个阶段。 获取-日新增用数 激活-日视频观看人数 留存-次,3,7日留存率 转化-总收入 传播-分享转化数
  6. 关于视频app(比如爱奇艺)首页推荐的推荐顺序,你会考虑哪些指标?
    1)用户行为数据:浏览、点击、播放、搜索、收藏、点赞、转发、滑动、在某个位置的停留时长、快进等等一切操作行为; (2)用户属性数据:年龄、性别、地域、学历、家庭组成、职业等; (3)视频属性数据:评分、播放量、评论数、出品方、导演、主演、国别、年代、语言、是否获奖、剧情等; (4)上下文数据:用户最近观看历史记录、最近偏好的演员明星、最近常看的视频类型等。
  7. 你用过飞书吗?或者共享文档也行,你觉着怎么去通过拆分得到业务流程中的一个ah moment呢
    没用过飞书,但是用过腾讯文档。对于共享文档来说,最大的功能点在于多人能同时对文档进行编辑,并且能够实时保存及同步,ah moment在用户首次远程阅读编辑共享文档。对于一个普通的业务,需要寻找其ah moment的时候,需要重点关注留存用户与流失用户的行为差异,找出与留存用户正相关的所有行为。然后进行A/B测试,对低频活跃的用户进行测试,促使其完成留存户具备的正向行为。若低活用户在完成该行为后留存率有所提升,说明找到了该产品的ah moment。
    (aha moment,即使用产品时的爽点,顿悟时刻 )

异动分析问题

  1. boss直聘的投递量较低,你会如何提高?从前期调研、方案策划到推广复盘等过程说明一下
    首先需要定义这个“投递量较低”的比较对象是什么,是达不到KPI、比不过某个竞对还是同环比不如去年。然后要看这个“投递量较低”具体是低了多少、低了多久,(在现有资源的投入下)这个数字是正常的还是异常的,思考一步步排除系统问题、季节因素、统计口径等等可能的原因之后,再考虑怎么提高。 前期调研可以从多个维度进行拆解来定位问题,比如,从指标上来看,投递量=投递人数*人均投递简历数;从结构上来讲,投递量=∑各行业投递量;从漏斗上考虑,到投递这一步要经历注册-搜索岗位-和HR沟通-投递或者注册-收到投递邀请-投递;根据人货场模型,检查活跃用户数、网站上的岗位数量和各个设备端的投递量等等等等。找到可以优化的点,才能对症下药。 方案的策划要拉上相应的业务部门一起的,因为他们才是方案最终的执行者,数据分析师更多的是在制定目标、寻找标杆、验证想法等方面为业务部门打辅助。 推广复盘,如果之前的方案成功了,首先复盘看能否持续、能否优化、能否扩大,有哪些经验教训;如果失败了,具体那个地方出了问题,为什么没能中途止损,接下来怎么办都需要思考
  2. 小红书的点赞量下降怎么去分析 (指标异动分析的案例)
  • 数据收集:首先,确保收集相关的数据,包括点赞数、观看次数、用户互动(评论和分享)以及发布时间等。此外,也应收集竞争对手的相似数据进行对比分析。
  • 趋势分析:时间趋势分析:查看点赞量下降是否与特定时间有关,例如特定的季节、月份或一周中的某天。
  • 内容分析:分析哪些类型的内容点赞量下降明显。是否是视频、图片还是文字?主题是否发生了变化?
  • 用户行为分析:分析用户的参与度,查看评论数量和质量是否有变化。
    通过用户反馈了解他们对内容的满意度。
  • 算法变动考虑:分析平台算法更新对内容曝光度的影响。小红书时常更新其推荐算法,可能会影响内容的可见度和互动率。研究是否有新的内容类型或格式被优先推荐。
  • 竞争分析:观察竞争对手的表现,比较他们的互动率和内容策略。
    分析市场上是否有新的趋势或新兴竞争者吸引了原本的目标用户。
  • A/B测试:实施A/B测试,通过发布不同类型的内容,测试哪种内容能得到更多的点赞和互动。调整发布时间和频率,测试最佳的用户互动时间窗口。
  • 反馈循环:鼓励用户留下反馈,了解他们的需求和偏好。
    根据用户反馈调整内容策略。
  1. DAU下降应该怎么分析?
    DAU daily active user 日活跃用户数
    MAU month active user 月活跃用户数
    MAU = DAU*30/月活 = 用户月平均登陆次数
    正确性判断
    => 拆分维度
    首先定位问题,查看是哪一天的日活跃用户数下降之后确定问题,通过环比及同时期的数据对比,查看相同时期是否有该现象,确定是周期性问题还是个例,确定完是异常个例,分析问题出现的原因
    市场和行业趋势:
    考察整个市场或行业内的趋势。如果同类产品的DAU也在下降,这可能是一个更广泛的市场趋势或季节性因素
    异动定位-指标拆解
    人:(分析不同用户群体的活跃度变化,比如新用户老用户,也可以是对不同年龄段的用户进行分段分析,看看哪个群体的下降最为明显,找到异动的关键
    归因分析:
  2. GMV下降20%如何分析?
    GMV=平台活跃用户数 *费转化率 *客单价
  3. 评论量下降10%,怎么分析归因?
  4. 线下零售店全国销售额相比Q2季度下降30%,请你分析下原因

费米问题(拆分问题)
芝加哥有多少个调音师?
全年芝加哥调音师总工作时长
每位调音师工作时长
总人数=总时长/单个时长
总时长=钢琴数、每年调音次数、调音时长
怎么估算上海外卖员的数量
估算一下北京某星巴克一个月收入有多少?
估算一下北京有多少名数据分析师?
拆分问题:
定义数据分析师:
首先,明确什么是数据分析师的职责和范围,以避免与其他数据相关职位混淆,如数据科学家、业务分析师等。
估计劳动力总数:
假设北京市有约2000万常住人口。进一步假设,劳动年龄人口占60%,即1200万人。
行业分布:
考虑到北京是中国的政治、文化和技术中心,可以合理假设约20%的劳动力在技术和信息行业工作,即240万人。
数据相关职位比例:
在所有的技术和信息行业中,假设约5%的人员从事数据相关的工作,包括数据分析、数据科学等,这部分人数为120,000人。
数据分析师比例:
在所有数据相关职位中,进一步假设数据分析师占50%,即大约60,000人。
估算一下一辆公交车能装下多少个乒乓球?
拆分问题:
数量=公交车体积/乒乓球体积 = 公交车长高/乒乓球半径**2 Π

有20000人的就餐需求,现建了一个新食堂,如何规划食堂的座位数?

如何预估全国大学生人数
大学生的总数是24届到20届的总数,也就是在02年-05年,我们预估这个年份出生的人数为:
800w,假设上学率为80%,都进行了九年义务教育,中考升学率60%,高考升学率60%,则最后 全国大学生人数1800X4X0.8X0.6X0.6=2000w
如何预估2030年高考生的数量。
估算今年五一全国的旅游消费总支出?
有些难度的
北京11点左右上空飞行的飞机数量?
北京机场年旅客吞吐量一亿人次,每天旅客量1亿/365=27万; 考虑到机场有大中小型飞机,假设平均每架飞机载客150人,于是北京每天起降飞机架次:27万/150~1800架; 大部分的航班集中在早6点-晚12点的18个小时内。城市上空的飞机主要是起飞或等待降落,每架飞机起飞会立刻飞离北京,降落之前需盘旋等待进场,假设每架飞机在北京上空滞留时间在半小时. 故在白天的任意时刻(11点),北京上空飞机数量=18000.5/18=50架
估算北京五环实时车流量
北京每日车流量约50w人次,主要车流动的时间段为7点-20点,假设北京六环的车流量比例为:4:4:3:3:2:2;即五环车流量占比约11%。 故在白天的任意时刻,北京五环的实时车流量=50w
11%/14=4000辆。
(北京市人口约为2000万,车辆保留量约为200万,除去限号和不开车上班的、不走环城路的情况,约每天100万车次,部分人不走环城路,假设北京六环的车流量占比分别为0.35,0.3,0.2,0.1,0.05,即五环车流量占比为0.1,每天24小时,所以车流量为100万0.1/24=4.1万 )
估计北五环有多少辆车
北五环车数量=平均每家有小轿车数量
有小轿车的家庭数量北五环车辆占比=平均每家有小轿车数量北京家庭数量有小轿车的比例北五环车辆占比=平均每家有小轿车数量北京人口数量/平均每家人口数量有小轿车的比例北五环车辆占比 假设家庭拥有私家车:电动车:自行车:啥都没有=6:2:1:1即:有自行车的家庭占比=60%; 假设北京六环的车量比例为:4:4:3:3:2:2;即五环车量占比约11%。 假设平均每家有小轿车的数量为1。北京人口:2500w,平均每家人口数量4人。 北五环车数量=12500w/4*60
若贝壳要进入一个新的城市要如何去估计这个城市的需求量 (?)


希望描述一群用户在某页面停留时长的集中趋势,最好采用()
A 均值
B 众数
C 中位数
D 均值和中位数

在描述用户在页面上的停留时长的集中趋势时,选择合适的统计量很重要。这取决于数据的分布特性,特别是数据是否对极端值敏感。以下是各个选项的考虑:

A. 均值
均值是所有数据点的平均值。它对极端值非常敏感,即一个非常高或非常低的停留时长可以显著影响均值。如果数据中存在异常值或分布非常偏斜,均值可能不是一个好的选择。

B. 众数
众数是数据集中出现次数最多的值。对于描述停留时长,如果大多数用户的停留时长相似,众数可能是一个有用的度量。然而,众数可能不适用于连续数据或数据中存在多个频繁出现的值的情况。

C. 中位数
中位数是将数据集从小到大排序后处于中间位置的值。中位数对极端值不敏感,能较好地反映数据的中心位置,特别是在数据分布偏斜时。

D. 均值和中位数
同时考虑均值和中位数可以提供关于数据的更全面的信息。均值提供了一个总体的平均水平,而中位数提供了一个对异常值不敏感的中心位置。这种组合可以帮助解释数据的分布特性,尤其是在数据偏斜或包含异常值的情况下。

某种产品的生产总费用2023年为50万元,比2022年多2万元,而单位产品成本2023年比2022年降低5%,则以下正确的是()[指数=本年度/上年度**]
A 产品生产总量指数109.65%
B 生产费用指数为108.56%
C 单位成本指数为105%
D 由于成本降低而节约的生产费用为2.5万元

本文标签: 数据