描述统计学:找到关键的的指标来描述数据的整体情况描述数据集常用的4个指标平均值四分位数标准差标准分平均值意义:对极端值不敏感,出现平均数陷阱案例:如平均工资并不能代表每个人的收入水平,高收入群体将平均工资拉高了四分位数四分位数与中位数有关中位数:将数字按从小到大排序,排在中间的那个数或两个数的平均值即为中位数如何求四分位数?先求出中位数,中位数将整列数据一分为二。四分位数即为,在中位数分割成的两半数据中分别再求一个中位数,则可以求得上四分位数和下四分位数。五个数值:此时下四分位数、中位数、上四分位数将这个数列分为四等分,每份占25%,第一个数称为下界,最后一位数称为上界。用5个数值可以描述数据的整体分布状况(箱线图)
箱线图用计算四分位数过程中得到的五个数值,可以绘制箱线图
应用1:在箱线图中,离中位数更近的四分位数可以反映出该部分数据更集中。如图,表示该数据集中的数据更加集中于中位数以下。同时,箱线图还可以反映出数据集的最大最小值。应用:识别出可能的异常值。对异常值进行检查和处理四分位数识别异常值的方法——Turkey‘s test 方法
如图,在图中将计算得到的Q1,Q2,Q3带入两个公式,K值分别取1.5和3,计算得到的数值在图中表明。可以看到超过红色部分的数值可能为中度异常,而超过蓝色部分的数值则为极度异常。
标准差(西格玛)标准差反映了每个数值与平均值之间的距离,用于衡量数据集的波动大小波动大小=离散程度=变异性
标准差的应用
夏普比率=(投资回报-无风险回报)/投资组合的标准差,夏普比率越高,反映投资风险越低,回报越大
标准分标准分Z=(数值-平均值)/标准差标准分表示某个数值距离平均值多少个标准差
应用质量管理:六西格玛管理法,知道产品质量偏离的程度
变异系数
应用场景:标准差能够表示数据整体的波动,但它的缺点是如果两个数据集差别比较大,那就无法比较比如两个店铺,一个店铺的营业额为1000w,另一个为100w,就算两个店的标准差相同,也不能进行对比,这种情况下需要使用变异系数变异系数CV=标准差/平均值,用于比较不同数据集的波动大小。指标总结
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至827202335@qq.com 举报,一经查实,本站将立刻删除。文章链接:https://www.eztwang.com/dongtai/130105.html