本系列是从0开始学习数据分析文章。
从0到1,从工具到思维,系统掌握业务实操型数据分析知识体系。
考虑到内容较多,故分为系列文章,具体多久更完?看吧。。大概15篇
为什么做这期?
数据分析越来越重要。用数据分析解决业务问题:如网站流量分析、留存分析、消费行为、运营策略分析等。汇报展示,打造有说服力的“数据报告”。
我学习数据分析的目的是优化我的应用“公考相伴”社交平台。
整个系列目录如下:
一、数据分析初相识
走进数据分析
多种多样的数据类型
统计指标:集中趋势、离散趋势、分布形态
异常值的识别与处理
数据分析的6大步骤
二、Excel入门到表格分析
Excel功能介绍
核心函数库:文本函数、数学函数、逻辑函数、条件聚合函数
函数对数据进行预处理
数据去重、拆分、排序、筛选
查找与引用函数
使用数据透视表快速汇总
认识图表、床架你图标
实战:大数据人才需求分析报告
三、SQL入门
SQL
表、字段、记录
MySQL与Navicat的可视化工具
增删改查命令
数据筛选和排序
函数计算数据
对数据进行分类汇总
联表查询
存储数据
四、数据可视化理器Tableau
Tableau
如何获取数据
准备数据
构建图表
创建仪表板
创建故事
保存与发布
实战:美妆产品销售分析
五、Python网络爬虫
爬虫
Request库
BeautifulSoup
尝试改写网页
遍历整个网页
登陆问题
爬取整个网站
解析JSON
存储数据到CSV
实战:爬取销售数据
六、Python的pandas、matplotlib
Pandas
读取数据
请理数据:缺失、重复、异常、空值
数据运算:排序与筛选
Matplotlib
画布
绘制直方图、折线图、散点图
调整视觉标签、设置多图并列
七、初识互联网商业模式
互联网行业
行业研究方法
企业研究方法
B2C/C2C商业模式
O2O/B2B商业模式
B2B2C商业模式
八、解析数据指标体系
用户生命周期
用户指标
留存指标
时长指标
渠道指标
功能指标
销售指标
直播类指标
九、构建用户画像
用户画像
创建用户标签
创建用户画像
RFM模型
Excel实现RFM模型
实战:消费者用户画像分析
十、用户引流与转化
网站流量
漏斗分析
AARRR用户增长模型
用户下单基本流程
分析下单路径中的关键优化点
Excel绘制漏斗图
实战:电商推广渠道分析
十一、分析消费行为,优化营销渠道和推荐系统
计算复购率
计算回购率
分析男女用户消费频次是否有差异
分析用户头部贡献了多少成交
分析那类商品最畅销
相关性分析
聚类分析
实战:直播带货数据VS消费者偏好
十二、预售销售额、调整运营策略
销售数据
线性回归模型
线性回归模型预测数据
销售额影响因素
确认销售额优化方向
实战:预测电商双十一销售额
共享单车为什么推广红包车
红包策略引导用户再分布
成本优化解决方案
十三、促进用户活跃度、提升用户留存
用户活跃度
影响活跃度的因素
签到功能、积分体系
实战:如何提升用户活跃度
Excel计算留存率
ahaMoment提升留存
寻找流失点
实战:留存率下降原因分析
十四、AB实验迭代功能
AB实验的基本概念、应用场景
AB实验的统计学原理:假设检验
AB实验的业务基础:流量分层
AB实验的基本流程
AB实验结果的分析与解读
实战:AB实验真的有用吗?
寻找异常下单行为
杜邦分析法
实战:识别电商异常数据
十五、撰写数据报告
数据分析报告结构
数据报告的分析思路与框架
图表展示
PPT排版设计
图文排版技巧
数据报告演讲技巧
本期目录:
数据分析初相识
走进数据分析
多种多样的数据类型
统计指标:集中趋势、离散趋势、分布形态
异常值的识别与处理
数据分析的6大步骤
一、数据分析初相识:
1.走进数据分析
随着互联网的发展,任何岗位都离不开数据分析。
互联网产生数据,数据产生价值,数据分析就是找出价值。
例如中国联通的数据分析JD就是构建用户画像,推荐相关产品。
用户:网上购物——评价、购买量、价格
产品:设计优化——跟踪用户行为、监测数据
运营:成交量——数据指标、有效营销手段
数据分析师需要掌握:
硬性数据处理和分析工具的使用
对事物的认知方式、经验积累
总之,数据分析的流程如下:
确定分析目标
数据获取
数据清洗
数据探索
洞察结论
数据报告
互联网数据分析:
互联网是信息传输的一种载体,通过电子化的方式留存信息、与传统线下基于实物的传输方式相对应。互联网数据分析就是对基于线上产生的数据的规律进行总结、提炼,帮助我们做出决策。数据就是原始的生产材料。
就比如纸币等值于数字货币。
2.多种多样的数据类型
数据,是对事物的描述和记录。
根据计量层次,进一步对数据进行分类。
2.1定类数据
按照类别属性进行分类,各类别之间是平等并列关系。
这种数据不带数量信息,并且不能在各类别间进行排序
主要数值运算,计算每一类别中的项目的频数和频率
2.2定序数据
可以进行排序、比较优劣
可以将编码进行排序,可以表示之间的高低差异
2.3定距数据
具有一定单位的实际测量值
精确性比定类数据、定序数据更高
可以计算各变量之间的实际差距(加/减)
2.4定比数据
可以比较大小,进行加、减、乘、除运算
定距尺度中,0表示数值,定比尺度中,0表示没有
定比数据中存在绝对零点的,而定距数据不存在
以上4种类型数据,统称为定性、定量数据:
定性数据:一组表示事物性质、规定事物类别的文字表述型数据。(包括定类数据、定序数据)
定量数据:以数量形式存在着的属性,并因此可以对其进行测量。(包括定距数据、定比数据)
把这些数据以一定的标准组合起来的时候就是数据矩阵/二维数据表
3.统计指标
体现总体数量特征的概念和数值。
根据数据分析的目的不同,统计指标也会变化。
如房屋设计中,统计对象是建筑面积、竣工面积等。
又如提升用户转化率中,统计对象是网站浏览量、着陆页、跳失率。
统计指标根据它要体现的内容分为总体、相对2大类。
基础统计指标如下:
总量指标:特定条件下的总规模、总水平或工作总量。如GDP、总人口、销售总额。即常说的总和SUM。是一种最基本的统计指标
平均指标:用一个数字显示其一般水平。也叫集中趋势指标
相对指标:体现相对情况的指标。通过2个有联系的现象数值相比得到的比率。描述的是相对关系,而不是总体情况。
比例=各数据/总比%
比率=数据项:数据项
倍数可以突出上升、增长幅度。
学过行测的都知道r增长率,考查销售情况可以通过环比、同比增长率求得。
环比更注重短期的涨幅表现,同比更注重长期的涨幅表现。
4.统计指标:集中趋势指标
数据分析过程中,常遇到这些问题:
简单的方法可以通过平均值来了解不同选择的平均水平,进而得出初步结论。
平均值是集中趋势指标中的一种。
集中趋势指标,用于体现数据一般水平的指标,帮助我们最快速了解样本数据的概况。最常用的就是平均值。
平均值=所有数据相加/数据的个数
中位数,按顺序排列后,居于中间位置的数。
众数,出现次数最多的数值。反映的是局部特征、密集度。且众数可有多个。
可见,对于集中趋势指标,不同的统计方式,统计标准,都是从不同的维度反映样本特性。
5.统计指标:离散趋势指标
离散趋势指标,体现内部差异度的指标。
极差
平均差
标准差
极差,相距最远的2个点之间的距离。体现数据内部最大的差异情况。
平均差,一组数据与平均值差异的平均差异。
其公式:
事件启动型的数据,在样本量较小的时候,容易导致误差。其对离散值数据更敏感。
标准差:
相对于平均差,标准差更能代表离散程度的指标。更加放大了他们之间的差异程度。
可见标准差更能体现差异程度。
标准差也是最常用的离散指标。
6.统计指标:分布形态指标
分布形态,将一组数据通过点线面的方式呈现出来的形态。
上图就是示例分布形态。
分布形态还可以是正太分布。
对于一组数据的分布形态而言,
高度意味着一般水平
宽度意味着离散程度
除了正太分布,还有:
分布形态的基本形态:
左偏分布
右偏分布
正太分布
7.判定、处理异常值
样本量没有那么大的情况下,可以通过与均值相除计算倍数的方式快速筛选异常值。
筛选出异常值后,需要对异常值
检测异常值:与总体差异度。
7.1判定异常值:
异常值的产生是有很多场景的,主要有:
错误记录
错误添加
真实、正确:判断是否反映特殊事件对异常值修改调整即可。如果是周期性数据就不做处理
7.2处理异常值:
对于需要进一步处理的数据,
错误数据:填充空值、填充样本平均值
真实、正确需要做调整的数据:根据实际情况调整:数值*需要调整比率
8.数据分析的流程
目标确定:解决什么问题?达到什么目的?
数据获取:字段设计、数据提取(SQL)
数据清洗:保证数据的可用性。主要针对异常值、空白值、无效值、重复值
数据整理:格式化(如日期的处理、行列格式化)、指标计算(基础的计算,如平均值、总额)
描述分析:数据描述(数据的基本情况)、指标统计(分析实际情况的数据指标)
洞察结论:数据报告核心,体现数据分析能力
撰写报告:报告背景(业务现状)、报告目的(解决什么问题)、数据基本情况(数据可信度)、可视化图表(数据的可理解程度)、策略选择(提出解决方案)
感谢读者和我一起从0开始,用数据解析世界!
yinlei你的鼓励是对我最大的支持!