用数据分析解决问题的基本思路

输出结果: 具体定义的期望值,成果指标。如销售量增加、库存成本减少等。
分析单位: 构成输出结果的单位。如顾客、员工、商品等。输出结果可以以各样的分析单位为基准进行分解。
解释变量: 可以体现出分析单位不同的特征,对每个分析单位所对应的输出结果的差别进行“解释说明”的变量。若分析单位是顾客,那么解释变量可以为性别、年龄、光顾次数等。

设定为输出结果的基准:

  • 在可能的范围内,其最大化或最小化与利润直接相关。
  • 使输出结果变化并不困难。

设定分析单位时候,可以从以下这几个方面考虑:

  • When: 哪个时期/什么时间? (季节、月、周、日)
  • Where: 位于哪里?(地域、营业所、门店)
  • Who: 什么人?(顾客、员工、合作伙伴)
  • What: 什么东西?(产品、设备、包装)
  • How: 怎么发生的?(广告、特卖、培训)

在选择分析单位时,需要注意:

  • 从数据中能够给发掘出几十或者几百以上的,,分析单位至少需要几十或者几百以上的数据支撑,
  • 一旦明确了影响输出结果的分析单位的特征,就能够提出解决措施。
  • 解释变量能够简洁易懂地体现出分析单位的特征并从数据中定义。

选择解释变量时:

  • 要找出尽可能多的,并将各解释变量与输出结果的关联性进行考察。
  • 尽量定义与输出结果无明显关联的解释变量。当解释变量与输出结果的关联性过于明显时候,可以适当调整转换成有实际意义的解释变量。比如:不直接用“某种商品的购买商品数量”,而是用“某类型商品数量占所有购买商品数的比例”
  • 是否存在通过其他解释变量就能够完全预测出的解释变量(的组合),若有,则将可以预测的去除,简化分析结果。
  • 比起单个解释变量,多个解释变量的组合是不是更有意义。

在进行分析前,一般还需要对解释变量进行加工。基本的加工方法:

解释变量基本的加工方法

确定分析方法:

解释变量输出结果
定量数据定性数据
定量数据(单个)(一元)回归分析逻辑回归
定性数据(单个)每一类别的平均值汇总和t检验每一类别所占比例的汇总和卡方检验”
多个解释变量同时进行多元回归分析逻辑回归

实例分析知识点总结

p值是指:由于数据的不规则分布而偶然出现这样(或者高于这样)的差的概率。p值偏小(一般是小于5%),可以判断其为“具有统计学意义上的差(显著性差异)”。

Excel中,用ttest函数求出t检验的p值。ttest函数的格式为:

1
ttest(数组1,数组2,指示分布曲线的尾数,t检验类型)

其中各参数的含义如下:

  • 数组1与数组2是进行交叉表分析的每个定性变量对应的输出结果的列
  • 指示分布曲线的尾数有单尾分布和双尾分布,一般商业分析使用双尾分布。仅当对检测特定方向的结果予以关注,对其他方向的结果不予以关注时,才使用单尾检验。
  • t检验类型有成对、双样本等方差假设、双样本异方差假设。成对,用于分析对同一个样本进行两次检验的数据变化的差异值时,比如同一个顾客三个月前与现在的消费金额的差异值,可应用“成对”t检验。双样本等方差/异方差假设,这个由于数据来自于不同的总体,一般需要进行它们总体方差的F检验来判断两个总体的方差是否一致,两个独立总体方差不一样,用异方差假设,否则用等方差假设。

CHITEST函数通过指定实际的交叉表范围和与之对应的期待值的范围,就可以计算出卡方检验的p值。

一元回归分析,利用一次函数(y = ax+b形式的函数)引导,分析出x轴表示的解释变量每增加1,y轴的输出结果会随之产生多少变化(称为回归系数),以及解释变量为0时输出结果为何值(称为截距)

将定性的解释变量转化为定量的解释变量,称为虚拟变量,通常取值为0或1。将设定为1的名称命名为’xx虚拟变量’。

在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定:如果模型中每个定性因素有m个相互排斥的类型, 且模型有截距项,则模型中只能引入m-1个虚拟变量, 否则会出现完全多重共线性,称为虚拟变量陷阱(dummy variable regression)。例如,性别有2个互斥的属性,引用2-1=1个虚拟变量;再如,文化程度分小学、初中、高中、大学、研究生5类,引用4个虚拟变量。

利用IF函数,将日期、时间等数据转换为便于统计的形式:

1
2
3
4
=IF(AND(HOUR(C2)>8, HOUR(C2)<18>), 1 ,0), 在8-18点正常上班为1,否则为0
=IF(OR(HOUR(C2)<8, HOUR(C2)>18), 1, 0), 在早上8点之前,或者下午18点以后加班为1, 否则为0
=IF(WEEKDAY(B2)=1,1,0), 星期一工作时间为1,其他时间为0
=IF(WEEKDAY(B2)=2,1,0), 星期二工作时间为1,其他时间为0

VLOOKUP 函数表示:

1
=VLOOKUP(要查找的值、要在其中查找值的区域、区域中包含返回值的列号、精确匹配或近似匹配

VLOOKUP函数参数的具体含义:

  • 要查找的值,也被称为查阅值。
  • 查阅值所在的区域。请记住,查阅值应该始终位于所在区域的第一列,这样 VLOOKUP 才能正常工作。例如,如果查阅值位于单元格 C2 内,那么您的区域应该以 C 开头。
  • 区域中包含返回值的列号。例如,如果指定 B2:D11 作为区域,那么应该将 B 算作第一列,C 作为第二列,以此类推。
  • (可选)如果需要返回值的近似匹配,可以指定 TRUE;如果需要返回值的精确匹配,则指定 FALSE。如果没有指定任何内容,默认值将始终为 TRUE 或近似匹配。