如何掌握商业数据分析的能力?(如何分析数据分析,关键词优化)

时间:2024-04-20 20:04:56 作者 : 石家庄SEO 分类 : 关键词优化
  • TAG :

    %E5%A6%82%E4%BD%95%E6%8E%8C%E6%8F%A1%E5%95%86%E4%B8%9A%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E7%9A%84%E8%83%BD%E5%8A%9B%EF%BC%9F

商业数据分析的根本目的就是要洞察数据背后的规律,基于此,企业可以制订决策、并采取相应措施和行动,进而达成想要的结果。这是商业数据分析的最大价值所在。

那么如何才能洞察数据背后的规律,以给企业的决策提供支撑呢?

著名的咨询公司Gartner于2013年总结、归纳、提炼出一套数据分析的框架,个人认为可以很好地回答上述问题,特此分享给大家。

如上图所示,Gartner把数据分析分为四个层次,分别是:

描述性分析(Descriptive Analysis)

诊断性分析(Diagnostic Analysis)

预测性分析(Predictive Analysis)

处方性分析(Prescriptive Analysis)

描述性分析——发生了什么?

故名思义,该层次主要是对已经发生的事实用数据做出准确的描述。比如某企业本月订单签约额比上月增加100万,至1100万,但是订单履约率从上月的98%下降到了95%,库存周转率从上月的0.8下降到了0.7。

诊断性分析——为什么会发生?

知道到底发生了什么,对我们的帮助不大,更重要的是,我们要明白为什么发生。比如经过分析,发现上文提到的订单履约率下降的原因是成品生产不出来,无法完成交付。而成品生成不出来的原因则是部分原材料的供应商未能按时送货,导致原材料不齐套,无法开始生产。

预测性分析——什么可能会发生?

基于上述两个层次的分析,我们发现了其中的规律,即原材料供应商的送货及时率会影响成品订单的履约率。假如上月某原材料供应商A送货及时率只有70%,通过建模,我们可以预测本月该供应商会使我们的订单履约率下降2%。

处方性分析——该做些什么?

有了预测性分析的结果后,我们无需再做事后诸葛亮,而可以运筹帷幄,在事前就采取措施。上例中,供应商A会导致本月我们的订单履约率下降,我们可能采取的措施就是把A换掉,但是现在有B和C两个供应商供我们选择,该选择哪个呢?通过分析和计算得出:选用供应商B会比选C的订单履约率高1%,因此建议选择供应商B。这就是处方性分析。

四个层次层层递进,经过这四个层次的分析以后,可以对企业的决策和行动提供有力支撑。接下来具体讲讲,这4种分析对应的商业分析场景。

描述性分析

描述性分析做为商业数据分析的第一个层次,主要回答『发生了什么』的问题,接下来将对如何通过数据发现、描述和回答『发生了什么』的方法和工具进行介绍。

一、方法

1、了解业务场景

如果想通过数据发现和回答『发生了什么』的问题,第一步并不是急急忙忙的直接去分析数据,而是首先要了解和还原数据产生的业务场景,包括:数据涉及到的部门和岗位有哪些,这些部门和岗位之间的业务流程是怎么样的,在不同业务流程中有哪些输入,对数据做了什么处理,又是如何输出和传递给下游部门的。如果不了解业务场景就去做数据分析,就如同盲人摸象,因此这一步至关重要。

2、 探索性分析

探索性分析又细分为以下三个步骤:

① 提问,理顺初步分析思路和目标

在了解清楚数据产生的业务场景后,可试着问自己一些what happened的问题。比如,本月销售额是多少?环比和同比变化分别是多少?本财年销售的变化趋势是怎么样的?通过相应问题,可以理顺初步的分析思路和分析目标。另外,在上一步了解业务背景的时候,也要注意和相关业务的关键干系人沟通,获取他们想知道的what happened的问题有哪些。

需要注意的是,这里说的是初步的分析思路和目标,因为在随后做分析的时候,新的灵感可能会被不断激发,分析的思路和目标也在不断调整,这是一个循环往复的过程。

② 收集数据

有了初步的分析思路和目标以后,就可以确定需要收集哪些数据了。比如上文提到的销售额分析可能用到的数据为销售订单数据、销售开票数据。

③ 选择相应分析方法

根据分析的思路和目标,就可以对收集到的数据选择相应的分析方法了。具体的方法包括:

对数据位置的探索,包括:最大值、最小值、均值、中位数、分位数等

对数据分布的探索,包括:偏差、方差、标准差、茎叶图、直方图、箱形图(也叫盒须图)、密度图等

对数据趋势的探索,包括:同比、环比、趋势图、条形图等

对数据聚合的探索,包括:排序、筛选、计数、重复项、分组、求和、比例、条形图、饼图等

3、提炼指标

对数据做探索性分析后,可对数据反映的事实有一个直观的感受,比如,通过分析一个仓库的月度收发存数据,可以大概知道这个仓库的货物周转情况。但是要想更准确、简洁地描述发生了什么,还应该提出更高的要求:即总结和提炼出相应指标。比如描述库存周转的整体情况,库存周转率、库存周转天数等指标更有效。这些指标可以做为企业日常经营管理的KPI,让相关人员快速、准确地了解到企业当前的经营情况。

二、工具

1、个人使用

描述性分析中最常用的工具就是Excel,但是随着商业环境中产生数据的增多,Excel的运行效率变得相对低下,并且Excel主要侧重于表格中的数字分析,但是因为人类对图形的敏感度和理解力天生就比数字高,正所谓一图胜千言,因此近年来可视化分析工具逐渐流行起来,此类工具主要是通过图形去对数据产生洞见,发现其中的规律,而不仅仅是用做结果的展示。

FineBI就是其中之一。其上手比较容易,很多功能设计的也比较便捷和人性化,运行效率较高(10万行以上的数据FineBI较Excel有明显优势),输出的可视化图表也很美观,可直接用在数据分析报告dashboard里(Excel默认输出的图表都很丑,后期还需要做不少调整和美化,才能放到数据分析报告里)。

2、企业使用

对企业来说,描述性分析的工具主要是报表和BI。

报表一般是嵌入至各专业系统中,如CRM、SRM、ERP、WMS、MES等。

BI一般是单独的系统,其从各专业系统中抽取数据,经过处理后,通过表格或图形展示出来。过去Oracle的BIEE,IBM的Cognos,SAP的BO曾经在企业数据化建设上一度受欢迎,太犹豫这些工具过去庞大且上手难度大,在企业业务部门难以推广。后来出现了新一代的自助式BI,目前最受欢迎的有Tableau、Qlikview,PowerBI,国内还有一家帆软(没错就是我们)也被写入Gartner报表市场推荐指南。这类自助式BI之所以受欢迎是,商业智能分析平台市场的主流已经从IT部门主导的静态展示分析转向业务部门主导的动态探索分析,这样才能激发员工的主动性和创造力。

报表目前最受欢迎的是帆软的FineReport,能制作各种复杂报表、以及数据可视化大屏。在报表和BI的基础之上,可增加预警系统,如对异常的指标进行邮件或微信预警,让领导仅对这些指标进行关注,而无需把所有的指标都看一遍,以节省时间,提高效率,有必要时再查看相应报表或BI展示,这也是企业描述性分析的应用方式之一。

关于描述性分析的方法和工具,涉及到的知识主要是统计学的内容,这部分知识需要大家自行找相关书籍进行补充阅读。

诊断性分析&预测性分析

明确为什么发生以及未来会发生什么,这就是诊断性分析(Diagnostic Analysis)和预测性分析(Predictive Analysis)的作用。如何对问题做这样的分析:

1、寻找相关特征(feature)

在诊断性分析中,首先需要知道和结果可能相关的因素(在数据分析里,这些因素被称为特征)有哪些,这个过程一方面依赖于我们对业务的了解程度,另外也要多和业务人员进行头脑风暴,只要是可能相关的,都纳入考虑,也可以基于现有特征构造新特征,至于是否相关可在后面的分析中进行验证。

比如和汽车油耗可能相关的特征包括:车重、排量、轴距、变速箱类型(手动、自动)、驱动方式(两驱、四驱)等。

2、相关性分析(Correlation Analysis)

列出和结果可能相关的特征后,下一步就是要验证这些特征和结果到底是否相关。具体方法包括:

2.1 定性分析

2.1.1 二维散点图

若分析的仅是一个特征与结果的相关性,则可以通过画二者的二维散点图进行分析,通过图形描述,可以初步且直观判断二者的存在何种相关关系:正相关、负相关、无关;如果相关的话,是线性相关还是非线性相关(抛物线、指数等)。下图为不同性别年龄与身高关系的散点图,可以看出在青少年时期,这二者是呈线性正相关的。

2.1.2 矩阵散点图

在现实中,仅有一个特征与结果相关的情况是少之又少的,大部分情况都是存在多个与结果相关的特征,此时需要矩阵散点图进行分析。矩阵散点图样式如下:

其实质就是针对每一个特征与结果分别做二维散点图,以分析其相关性。当然,在矩阵散点图上也可分析特征与特征之间是否有相关性,专业上称呼为多重共线性,多元线性回归要求模型中的特征数据不能存在有多重共线性,否则模型的可信度将大打折扣,此时需要排除部分特征消除共线性才能建模。

2.2 定量分析

上述的散点图分析仅能通过图形看出特征与结果的大致关系,即定性分析;但是无法对它们的关系做精确性描述,即定量分析;定量分析主要分为如下两个步骤:

2.2.1 特征选择

当我们列出可能和结果有关的多个特征,并通过散点图获得大致的直观认知后,还需要更精确的判断到底哪个特征与结果的相关性更高,为了降低计算的复杂度,我们应该只把那些最相关或者最重要的特征放到模型中,主要的方法有两种:

单变量特征选择方法:常用的手段有计算皮尔逊系数(即相关系数)和互信息系数,相关系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,不过很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;

基于模型的特征选择方法:部分模型本身在训练过程中就会对特征进行排序,如逻辑回归、决策权、随机森林等;

特征选择不仅有助于简化计算,还可以帮助我们对特征与结果的关系有更好的理解。

2.2.2 模型建立

2.2.2.1 回归(Regression)

若结果为连续值,则应用的模型为回归模型,包括:

一元线性回归(Linear Regression)

若仅有一个特征与结果相关,并且其是呈线性关系的,则可以进行一元线性回归,即建立回归模型y=a+bx计算出截距a和斜率b,x为特征(自变量),y为结果(因变量);

多元线性回归

上文中已经提到,在现实生活中,仅单个特征与结果相关的情况是不多见的,大多数都是多特征共同作用导致的结果。若通过矩阵散点图判断,各特征无多重共线性,且与结果呈线性关系,则可以进行多元线性回归分析,建立回归模型y=a+b1x1+b2x2+...+bnxn;

非线性回归(Non-Linear Regression)

如果回归模型的因变量是自变量的一次以上函数形式,回归规律在图形上表现为形态各异的各种曲线,称为非线性回归。常见的非线性回归模型包括:双曲线模型、幂函数模型、指数函数模型、对数函数模型、多项式模型等;

那么如何获得上述的回归模型呢?常用的回归算法包括:最小二乘法、支持向量机(SVM)、GBRT、神经网络等。

2.2.2.1 分类(Classification)

若结果为离散值,则应用的模型为分类模型。比如人的年收入、日平均运动时间、日平均睡眠时间与人的寿命的相关关系是回归模型;而人的年收入、日平均运动时间、日平均睡眠时间与人健康与否(健康或者不健康)的相关关系则是分类模型。

常用的分类算法包括:决策树、逻辑回归、随机森林、朴素贝叶斯等。

2.2.3 监督式学习(Supervised Learning)

上述回归模型和分类模型均是机器学习的监督式学习模型,它主要指通过学习历史的真实数据,找到其中的规律(即模型),并假设「历史总是惊人的相似」「太阳底下没有新鲜事」,通过找到的模型对未来进行预测。这一种学习方式相当于既包括了诊断性分析,也包括了预测性分析。但是,通过历史数据找到真正的规律是比较难的。在现实生活中大家应该都有这种感觉,回顾过去好像清清楚楚,但是展望未来时又是一片迷茫。这是因为实践和未来才是检验规律的唯一标准,但是在未来还没有发生的情况下,检验只能依靠历史的数据,这样非常容易出现机器学习中常说的过拟合和欠拟合的问题。如何评估机器学习模型的效果,避免过拟合和欠拟合的问题,找到那个真正的规律,业界提出了很多的方法,限于篇幅的原因,只能在其他文章中下回分解了。

3. 因果性分析

诊断性分析的隐含意思就是,要找到事物的因果关系,即因果性分析。所谓因果性,假设X是因,Y是果,则只要X出现,必然会导致Y的发生,其是百分之百的概率。

本文:如何掌握商业数据分析的能力?的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:2017年如何在家靠谱赚钱的十种方法,至少有5种适合你下一篇:

2 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18