箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),它是用一組數據中的最小值、第一四分位數、中位數、第三四分位數和最大值來反映數據分布的中心位置和散布範圍,可以粗略地看出數據是否具有對稱性。通過将多組數據的箱線圖畫在同一坐标上,則可以清晰地顯示各組數據的分布差異,為發現問題、改進流程提供線索。
本文将為您介紹如何利用Data Analytics快速制作箱線圖!
一、你需要先知道的基本統計知識
中位數:從小到大排列數據集,然後計算中間位置。
總數是奇數,則為位于中間的數值;總數是偶數,則中位數就是中間兩個數的平均值
四分位數:
一般,數據集中的最小值我們稱之為下界,最大值稱之為上界。
計算四分位數之前,第一步需要先求中位數M,
下四分位數Q1=數據集中所有數值由小到大排列後第25%的數字
上四分位數Q3=數據集中所有數值由小到大排列後第75%的數字
四分位數間距IQR=Q3-Q1
下界(Min):Q1-1.5IQR
上界(Max):Q3 1.5IQR
箱線圖其實就是四分位數圖形化展示。
二、箱線圖的作用
1、識别出可能的異常值
箱線圖最重要的作用就是可以識别出可能的異常值。在數據清洗環節,可以借助箱線圖對異常值進行檢查和處理。
2、多批同類數據的比較
箱子的上下限,分别是數據的上四分位數和下四分位數。這意味着箱子包含了50%的數據。因此,箱子的寬度在一定程度上反映了數據的波動程度。箱體越扁說明數據越集中,端線越短也說明數據集中。
所以箱線圖也常見用于質量管理、人事測評、探索性數據分析等統計分析活動。
三、如何制作箱線圖
場景:某客戶經理想查看各省顧客的大概訂單數量,以探索各省的大客戶都有哪些。
工具:DataHunter的數據分析産品Data Analytics
步驟方法:
第一步:導入數據
第二步:選擇新建圖表為“箱線圖”
将“省份”拖入維度,“訂單數量”拖入度量,“顧客姓名”拖入顔色,就能一步生成箱線圖。
說明:此處維度用于整體聚合,顔色用于分組聚合。
第三步:觀察分析,得出結論
将鼠标懸浮至異常點上,可查看相關數據:河南省内,高瑞光這位顧客的訂單量要遠高于其他顧客,屬于标準的“大客戶”
從中位數上,還可以看到不同省份之間的訂單量差異,可以看出,在已展示的十個省份中,山西省的整體訂單量略高,西藏較低。
另外鼠标懸浮在每個箱子上都能看到該省内所有顧客的訂單量的四分位數信息。
四、小結
1、箱線圖是四分位數的圖形展示;
2、箱線圖的主要作用是識别異常值以及對同類數據進行比較。
,