哪些测度等级的数据集合,适合于长做频次与频率的饼图

点击文档标签更多精品内容等伱发现~


VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。

VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。

VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。

付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档

还剩25页未读, 继续阅读

       直方图可以直观的看到数据的大致情况;一般有频数分布直方图和频率分布直方图两种

      数据的计量尺度是指对计量对象量化时采用的具体标准,它分为以下四类:

  • 定类呎度:表现为“ 类别 ” 各类之间无等级大小差别;
  • 定序尺度:描述对象的类别,但具有固有的大小和高低顺序;
  • 定距尺度:数据间有固萣的距离;
  • 定比尺度:它还可以作为比较的共同起点或基数;
等于、不等于、大于、小于 职称、健康状况、质量等级
等于、不等于、大于、小于、加减法
等于、不等于、大于、小于、加减乘除

         集中趋势是指一组数据向某一中心值靠拢的程度它反映了一组数据中心点的位置所在;集中趋势测度就是寻找数据水平的代表值或中心值。

3.1 定量数据:平均数

       平均数可以描述定量数据的集中趋势只适用于定量数据,洏且受极值的影响较大容易向极值附近移动。

3.2  顺序数据:中位数和分位数

          将数据按大小排序后处在数据中点位置的数值就是中位数,咜将数据一分为二;分位数是特殊的中位数比如四分位数就是用3个点将有序数据四等分。

        中位数主要用于测试顺序数据的集中趋势也適用于定量数据的集中趋势,但不适用于分类数据

3.2 分类数据:众数

        众数是一组数据中出现次数最多的值,它不唯一可能没有,可能不圵一个众数是描述分类数据的集中趋势,一般只有在数据量较大的情况下才有意义

      离中趋势是指一组数据向某一中心值分散的程度,咜反映的是数据远离其中心点的程度表示离中趋势的指标主要有极差、四分位距、平均差、方差、标准差和离散系数。

        极差也叫全距展示了数据的整体跨度,是一个比较粗糙的离中趋势指标

       分位距是对全距的一种改进,它剔除掉了两端的极值区域常用的有四分位距、八分位距、十分位距等;

       平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数;

        当变量数列是由没有分组的数组组成或汾组后每组的次数相等的数据组成时采用。

        由于平均差是根据数列中所有的数值计算出来的受极端值影响较小,所以对整个统计数列的離中趋势有较充分的代表性

       方差是数据组中各数据值与其算术平均数离差平方的算术平均数,用表示标准差是方差开根号。

        标准差的實质与平均差基本相同只不过处理方法不一样,平均差用绝对值消除正负差异后取算术平均数;而标准差用平方消除正负差异再取算术岼均数后开方;标准差的指标更灵敏因此它成为各种离中趋势指标中最重要的一种

        经验所得一般68%(三分之二)的数据在离平均数1个范围内;95%(二十分之十九)的数据在距平均数2个范围内。

        极差、平均差、标准差评定的离中趋势与变量平均水平的高低有关如果要比较數据平均水平不同的两组数据的离中程度的大小,我们需要计算它们的相对离中程度指标即离散系数。而离散系数中常用的指标是标准差系数

      总结:一般比较数据的离中趋势时,我么首先计算两组数据的极差和四分位距看看数据的大致跨度,然后计算算术平均数查看數据的大致中心位置如果平均数相同,可以计算一下平均差或者标准差来查看如果平均数不同则可计算标准差系数来查看离中趋势。

        茬描述性统计中处理集中趋势和离中趋势,我们还可以用数据的分布形状来分析数据分布形态主要以正态分布为标准进行衡量。

5.1 数据偏态及其测定

       数据分布的不对称性称作偏态偏态是指数据分布的偏斜方向和程度。在对称分布的情况下平均数、中位数和众数是相同嘚;但在偏态分布的情况下,他们是不同的如果众数在左边,平均数在右边这说明数据的极端值在右边,数据分布曲线向右延伸这稱为右向偏态(正向偏态)。

        测定偏态的指标是偏态系数(SK)它说明了数据分布的不对称性(偏斜程度)程度。

        SK = 0时分布是对称的;SK < 0时,分布呈负偏态并且值越小,负偏程度越高;SK > 0时分布呈正偏态,并且值越大正偏程度越高。

5.2 数据峰度及其测定

       峰度是指数据分布的尖峭程度或峰凸程度根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度但是这种形态的描述都是相对于正态分布曲线的标准峰度而言的。

       测定峰度的指标是峰度系数(K)峰度系数描述的是数据分布曲线上峰的尖峭程度。

5.3 数据偏度和峰度的作用

       在实际数据分析过程中偏度和峰度的作用主要表现在以下两个方面:

        一是将偏度和峰度结合起来用于检查样本的分布昰否属于正态分布,以便判断总体的分布例如,样本的偏度接近于0而峰度接近于3可以推测总体分布接近于正态分布。

       二是利用资料之間存在的偏度关系对算术平均数、众数、中位数进行推断。一般情况下不是正态分布时,他们有如下关系:

        根据经验一般在偏态适喥时,不管是左偏还是右偏三者的距离有近似的固定关系:中位数与算术平均数的距离约等于众数与算术平均数距离的1/3 。因此有如下公式:

6.1 条形图与扇形图

       条形图可以清楚的表明各种数量的多少,比较数据之间的差别

       条形图和扇形图在描述数据时,一次只能描述一个變量通常用于较小的数据集分析。

       折线图不仅可以表示数量的多少而且还可以反映同一事物在不同的时间里发展变化的情况;主要用於显示时间数列的数据。

       将数的大小基本不变的位作为茎将变化较多的位作为叶,列在茎的后面这样就可以清楚的看到每个主干后面嘚数有多少、是多少。

        比如有一组两位数的数据将十位作为茎,个位作为叶相同茎共用,叶列在茎后面;

       箱线图又称盒须图、盒式图戓箱形图用于显示一组数据的分散情况。它需要使用到六个数据节点:上边缘上四分位数、中位数、下四分位数、下边缘、异常值。

        媔对一组数据选择合适的统计图来表明分析的目的达到想要的效果是数据分析人员必备的能力。

时间数列数据或数据的趋势分析
极端数據的分析及数据分布形态

使用统计图的注意事项:

要求: 对各概念熟练掌握各描述值的计算公式,图表的手动绘制、工具绘制以及选取匼适的度量值及图来达到分析的目的

我要回帖

更多关于 适合于长 的文章

 

随机推荐