Sql知识点
1.where和having的区别
where不能用聚合函数,having可以
where对数据表中数据直接过滤,having是根据已经查询出来的数据过滤(having不能过滤没选的字段)
where先过滤后分组,having先分组后过滤
where不能用字段别名,having可以
2.字符串匹配
指标异动分析
指标异动问题——次日留存率下降怎么分析
转载自小红书-小粗腿在打工-Scarlett
1.明确问题
1.1确定数据的真实性
统计口径、时间范围、数据来源的准确性
1.2确认下降幅度
判断下降幅度是否在业务的正常波动内
1.3确认对比什么时间下滑
通过事件的比较,初步判断下滑是否由于季节、节日、突发性事件、天气等影响
2.分析原因
2.1问题定位
维度拆解:计算各维度的变化贡献占比,优先定位变化最大的维度进行下钻分析
用户维度
用户画像:性别年龄地域(静态特征)
用户类型:新/老用户(老用户进一步用RFM模型拆解)、付费/续费用户、是否VIP(消费能力)
用户兴趣:内容平台关注的笔记类目,电商平台购买偏好类目(动态特征)
用户获取渠道:应用商场/投放渠道(不同渠道用户质量)
手机系统
设备品牌
版本
时间
指标拆解:利用公式进行指标拆解
横向拆池子(不同类型用户)
纵向看漏斗(行为路径)
2.2归因分析
外部原因
PEST模型:政治、经济、社会、科技
竞品分析:现有竞争对手的活动、新功能、新产品,新竞争对手出现
内部原因
产品侧:新的推荐算法上线
运营侧:拉新活动 ...
统计2
统计复习
1.H0/H1
H0:需要检验的假设(0假设/原假设/无效假设)
它在某种意义上是“无效”的,因为它通常代表着一种“现状”。
H1:H0成立证据不足的情况下而被动接受的假设(备择假设)
2.p值
指在H0成立的条件下,观察到的样本差别是由于随机误差所致的概率
零假设下,得到检验统计量或比样本值更极端的值的概率
p值越小,越有理由拒绝H0,0假设成立的概率越小
p小于显著性水平\(\alpha\),拒绝0假设,否则没有足够证据接受,但不代表接受
3.假设检验
https://zhuanlan.zhihu.com/p/360154305
https://zhuanlan.zhihu.com/p/143151606
https://zhuanlan.zhihu.com/p/86178674
SQL-计算某店铺各商品毛利率及店铺整体毛利率-Withrollup
牛客网SQL大厂面试真题-SQL170
某店铺的各商品毛利率及店铺整体毛利率
描述
商品信息表tb_product_info
id
product_id
shop_id
tag
in_price
quantity
release_time
1
8001
901
家电
6000
100
2020-01-01 10:00:00
2
8002
902
家电
12000
50
2020-01-01 10:00:00
3
8003
901
3C数码
12000
50
2020-01-01 10:00:00
(product_id-商品ID, shop_id-店铺ID, tag-商品类别标签,
in_price-进货价格, quantity-进货数量, release_time-上架时间)
订单总表tb_order_overall
id
order_id
uid
event_time
total_amount
total_cnt
status
1
301001
101
2021-10-01 10:00:00
30000
...
一些SQL
SQL复习
一、窗口函数
窗口函数也称为OLAP(Online Anallytical
Processing)函数,意思是对数据库数据进行实时分析处理。
窗口函数就是为了实现OLAP而添加的标准SQL功能。
窗口函数基本语法:
12<窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名>)
1.分类:
序号函数:row_number() / rank() / dense_rank()
ROW_NUMBER()不考虑并列,1、2、3、4
RANK()考虑并列,并列之后和ROW_NUMBER一样,1、2、2、4
DENSE_RANK()考虑并列,并列之后按下一个名次来,1、2、2、3
分布函数:percent_rank() / cume_dist()
percent_rank() :rank()/rows
cume_dist():累积分布,表示值小于或等于行的值除以总行数的行数
前后函数:lag(n) 前/ lead(n)后
123select *,lead ...
电商数据分析
电商数据分析
一、兴趣电商
即内容电商(内容推荐场景里的货找人),区别于传统的货架电商(用户主动场景里的人找货)。
兴趣电商是一种基于人们对美好生活的向往,满足用户潜在购物兴趣,提升消费者生活品质的电商模式。
二、电商数据分析指标
1. 总体运营指标
1.1 流量类指标
数量指标:独立访客数UV、页面访客数PV、新访客数
质量指标:PV/UV、跳出率
转换指标:用户下单次数、加入购物车次数、成功支付次数以及相对应的转化率
1.2 订单产生效率指标
1.3 总体销售业绩指标
GMV:Gross Merchandise Volume/商品交易总额,拍下订单金额,
包含付款和未付款的部分
1.4 整体指标
2. 网站流量指标
3. 销售转化指标
4. 客户价值指标
以RFM模型为考虑基准
客户的价值由三部分组成:
历史价值(过去的消费)
潜在价值(主要从用户行为方面考虑,RFM模型(Recency、Frequency、Monetary)为主要衡量依据)
附加值(主要从用户忠诚度、口碑推广等方面考虑)
客户价值指标可分为三类:
客户指标:累计购买客户数、客单价
新客户指标:新客户数量、获取 ...
A/B Testing
一、假设检验
假设检验(hypothesis
testing)是指从对总体参数所做的一个假设开始,然后搜集样本数据,计算出样本统计量,进而运用这些数据测定假设的总体参数在多大程度上是可靠的,并做出承认还是拒绝该假设的判断。
如果进行假设检验时总体的分布形式已知,需要对总体的未知参数进行假设检验,称其为参数假设检验;若对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验,通常称之为非参数假设检验。此外,根据研究者感兴趣的备择假设的内容不同,假设检验还可分为单侧检验(单尾检验)和双侧检验(双尾检验),而单侧检验又分为左侧检验和右侧检验。
假设检验的基本思想是反证法思想(逻辑上)和小概率事件原理(统计上)。反证法的思想是首先提出假设(由于未经检验是否成立,所以称为零假设、原假设或无效假设),然后用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立。小概率事件原理,是指小概率事件在一次随机试验中几乎不可能发生,小概率事件发生的概率一般称之为“显著性水平”或“检验水平”,用\(\alpha\),而概率小于多少算小概率 ...
短视频数据分析
作品数据的核心指标
1. 完播率
抖音短视频的完播率尽量保持在30%以上,算是比较好的数据指标
怎样提高:少说废话,控制时长
2. 作品平均播放时长
如果你的抖音短视频是15-40秒之间的话,均值至少在7秒以上才能算是相对比较好的数据;如果是在1分钟以上的长视频的话,至少在15秒以上才算比较好的数据
怎样提高:前3秒钟是关键,使用技巧制造反转、悬念
3. 互动率
点赞3%、评论1%、转发0.5%
怎样提高:情节设计有趣,在视频中引导用户点赞、转发给相应的人,在结尾提出问题让用户进行评论,打造独特记忆点
4. 吸粉率
吸粉率=(视频吸粉量/视频播放量)*100%,保持在1%以上是比较好的数据
怎样提高:保持视频发布频次和创意生产,打造有趣又有用的内容,是吸粉的关键
5. 用户留存率
即有多少观众在你的视频中留了下来。
其实,“播放完成率”也是“用户留存率”中的一种,即在视频最后一秒留下的用户占比。
将视频按时间线进行切割,甚至可以得到视频每秒的“用户留存率”
10%用户留存:在视频的前10%进度中,每秒流失的用户会达到最高值,10%处将成为决定整个视频获得的自然播放量的重要影响因素之一 ...
统计
统计
一、概率
1.古典概型
2.贝叶斯统计
3.组合概率
二、分布
1.正态分布
2.几何分布
3.泊松分布
4.期望计算方法
5.抽样分布:卡方、F、T
6.相关性检验
7.峰度、偏度、统计量
三、假设检验
1.P值
2.第一类错误、第二类错误
3.原假设、备择假设
4.参数估计:最大似然估计、无偏估计、区间估计
5.T检验和Z检验
6.有效样本量计算
7.辛普森悖论
8.中心极限定理
中心思想是无论是什么分布的数据,当我们从中抽取相互独立的随机样本,且采集的样本足够多时,样本均值的分布将收敛于正态分布。
img
img
9.ABtest
10.因果推断
11.贝叶斯?
四、其他
1.概率和似然
概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性。
根据参数求结果的可能性
似然刚好相反,是在确定的结果下去推测产生这个结果的可能环境(参数)
根据结果求参数的可能性
2.两个向量之间的相似性计算有什么方法
距离的性质:非负、同一、对称、三角不等式
曼哈顿距离,欧氏距离,余弦相似度,字符串距离、汉明距离
3.皮尔森相关 ...
强化学习
强化学习复习
一、强化学习概述
实验1(20%)+实验2(30%)+考试(50%)
1. 强化学习过程
也称试错法trial and error
通过间接的奖励信号反应完成目标的情况
2.
强化学习与其他机器学习的不同
监督学习的training signal:target outputs
识别或估计观测的内容(感知)
强化学习的traning signal:rewards
根据观测做出行为(决策)
3. 强化学习发展历史
强化学习和马尔可夫决策过程:个体未来的状态只与当前时刻的状态有关
动态规划1957
策略迭代/值迭代
蒙特卡洛算法和时间差分学习算法
无模型学习控制:Sarsa和Q学习
函数逼近
TD-Gammon:1992年,IBM的研究员 Gerald Tesauro
开发了一个结合时间差分学习 (TD Learning)和神经网络的算法,给它取名
TD-Gammon, 专攻双陆棋
策略梯度
REINFORCE
Q Actor-Critic
Advantage Actor-Critic
TD Actor-Critic
TD(\(\lambda\)) Actor-C ...