分類數據是一組信息的集合。如果一個組織或機構試圖獲取其員工的生物數據,則生成的數據被稱為分類數據。該數據被稱為分類數據,因為它可以根據生物數據中存在的變量(例如性别、居住狀态等)進行分組。
分類數據可以采用數值(例如“1”表示是,“0”表示否),這些數字沒有數學意義,既不能将它們加在一起,也不能彼此相減。

依舊使用天津的少兒英語培訓機構舉例來說。數據來源 教育寶,使用爬蟲抓取機構的名稱和口碑。


假設這102家機構入住到同一所3層大樓中,我們依照口碑如何進行樓層的劃分?(雖然這種方式不太合理)
|
樓層 |
口碑範圍 |
類别轉化 |
入駐商家數量 |
|
3 |
3-3.8 |
一般 |
35 |
|
2 |
3.9-4.3 |
好 |
45 |
|
1 |
4.4-4.9 |
較好 |
22 |
這種叫做 分組,編程語言裡稱作 聚合。每一層作為一個分區,稱作 組 。
可以嘗試計算一下每個組的一個的一個占比情況,也稱作相對次序。
相對次序 = 所屬組别的個數 / 數據總數
|
口碑分組 |
組中值 |
次數 |
相對次數 |
|
3-3.8 |
3.4 |
35 |
34.3% |
|
3.9-4.3 |
4.1 |
42 |
41.1% |
|
4.3-4.9 |
4.6 |
22 |
24.51% |
根據分類的百分比可以制作一個條形圖來表示。

是一種用于命名變量而不提供任何數值的數據。這種數據類型源自拉丁語命名法 Nomen(意思是名稱)是分類數據的子類别。
名義數據有時稱為『标記』或『命名』數據。名義數據的示例包括姓名、頭發顔色、性别等。
主要通過調查或問卷收集,這種數據類型是描述性的,因為它有時允許受訪者自由輸入回複。盡管這一特征有助于得出更好的結論,但有時也會給研究人員帶來問題,因為他們必須處理如此多不相關的數據。
序數數據這是一種具有固定順序或比例的數據類型。這個順序沒有一個标準的尺度來衡量每個尺度中變量的差異。
序數數據示例包括:李克特量表、區間量表、錯誤嚴重程度、客戶滿意度調查數據等。這些示例中的每一個可能有不同的收集和分析技術,但它們都是有序數據。
分類數據特征- 類别:氛圍名義數據和有序數據。名義數據稱為命名數據,是用于命名變量的數據類型,而有序數據是一種具有比例或順序的數據。
- 質性:分類數據是定性的,使用一串單詞而不是數字來描述事件。
- 分析:分類數據使用衆數和中位數分布進行分析,名義數據使用衆數進行分析,而序數數據同時使用兩者。還可以使用單變量統計、雙變量統計、回歸應用、線性趨勢和分類方法來分析序數數據。
- 圖形分析:使用條形圖和餅圖進行圖形分析。條形圖主要用于分析頻率,而餅圖分析百分比。這是在将其分組到表中之後完成的。
- 區間尺度:對于具有給定順序或尺度的有序數據,尺度沒有标準化區間。不适用于名義數據。
- 數值:分類數據是定性的,有時可能會采用數值。然而不能對它們進行算術運算。









