在實際生活中,通常需要對對多個總體的均值進行比較,分析均值之間是否存在差異,方差分析原理:是研究自變量和因變量是否有關系,或者關系強度的分析方法,其實質是将所有測量值之間的與總變異之間的離均差平方和及自由度,按照其變異的來源分解為多個部分,之後求相應部分的變異,在用各部分的變異與總類變異進行比較,得出F值和P值,與顯著性進行比較。
首先,介紹方差分析中的三個概念:①因素:隻影響觀測量變化的條件;②水平:因素變量不同級别或類别;③:觀測變量即為得到的樣本數據;如:研究冰箱銷售量受三個等級價格的影響程度,其中,冰箱銷售量為觀測值,商品價格為因素,商品價格的三個等級就是水平。
應用方差分析之前,需要滿足三個基本假設:
①數據總體服從正态分布;②各個總體的方差相等(方差齊性);③每個組的觀測值之間是獨立的。
方差分析的基本步驟:
①提出假設檢驗:假設因素有N個水平,每個水平的均值用U1、U2、...、Un表示,檢驗N個水平的均值是否相等,提出零假設:N個水平的均值是相等
②構建一個F統計量;
③指定顯著性水平α,一般為0.05或0.01;
④通過統計量F計算出概率P值,
⑤概率P值與顯著性水平進行比較,如果P值小于顯著性水平,拒絕原假設,認為各總體的均值之間是存在顯著差異;如果P值大于顯著性水平,不能拒絕原假設,認為各總體的均值之間是不存在顯著差異。
下面先學習第一種:單因素方差分析
話不多說,直接上操縱。
原始數據
原始數據
問題:多個區域的土壤含水量是否有顯著差異
操作:分析→比較均值→單因素ANOVA
單因素ANOVA
因變量列表:土壤含水量;
因子:區域
對比:
多項式:用于趨勢檢驗,勾選之後,度:線性、二次項、立方、四次項、五次項
1的對比1:用于先驗對比實驗,以T檢驗進行驗證,在系數部分輸入數值,添加;系數順序對應因變量的水平值,保證系數之和為0,比如:要比較1和3水平的均值,那麼可以将2和4水平的系數指定為0,若要進行多組比較,可以點擊上一頁、下一頁進行添加。
勾選:多項式,默認:線性
對比
事後多重比較:
用來實現方差分析結果的多重比較,例如四組區域方差分析結果是具有顯著差異,但是未知哪兩組之間是差異顯著,這時可以進行事後多重比較。
假定方差齊性:
LSD:最小顯著性差異法,本質上是用T檢驗完成各組間的配對比較,檢驗敏感度高,隻要兩組之間有一定的微小差異,均可檢驗出來,該方法适用于總體方差相等的情況下,缺點是沒有對第一類錯誤的問題加以有效控制和調整;
S-N-K:采用極差在均值間的配對比較,是一種有效劃分相似性子集的方法,适用于各水平觀測值個數相等的情況;
Tukey:采用的是Student-range檢驗統計量進行所有組間均值的配對比較,所有配對比較的誤差率作為實驗誤差率,适用于各水平下,觀測值個數相等的條件下,與LSD相比,該方法對範一類錯誤的概率可以較為有效的處理;
Duncan:指定一系列的range值逐步計算比較得出的結論。
未假定方差齊性:說明在方差不齊性的條件下,在進行比較;
顯著性水平:一般用0.05或0.01
勾選:LSD
兩兩比較
選項
統計量:
描述性:輸出每個組的基本描述統計量,包括:個案數、平均值、标準差、最小值、最大值95%的置信區間;
固定和随機效果:固定效應的标準差、标準誤差、95%的置信區間以及随機效應模型的标準誤差等;
方差同質性檢驗:方差齊性檢驗,該檢驗方法是不依賴與正态分布的假設;
Brown-Forsythe:檢驗各組均值是否相等的統計量,不能确定方差齊性假設時,該統計量比F統計量更有優勢;
Welch:跟上述的Brown-Forsythe意義相等。
平均值圖
缺失值
按分析順序排除個案:給定分析中的因變量或因素變量的缺失值的個案,不參與該分析,不使用超過因素變量範圍指定的個案;
按列表排除個案:隻排除因素變量有缺失值的個案,或在主對話框中因變量列表的任何因變量值,需要注意的是,當未指定多個因變量時,該選項不起作用
勾選:描述性、方差同質性檢驗、平均值圖
選項
輸出結果
描述 | ||||||||
土壤含水量 | ||||||||
N |
均值 |
标準差 |
标準誤 |
均值的 95% 置信區間 |
極小值 |
極大值 | ||
下限 |
上限 | |||||||
公園A區 |
3 |
24.7767 |
2.94419 |
1.69983 |
17.4629 |
32.0904 |
21.68 |
27.54 |
公園B區 |
3 |
18.8533 |
3.40306 |
1.96476 |
10.3997 |
27.3070 |
16.62 |
22.77 |
公園C區 |
3 |
22.7900 |
9.96218 |
5.75167 |
-1.9574 |
47.5374 |
11.40 |
29.88 |
公園D區 |
3 |
27.3567 |
2.34504 |
1.35391 |
21.5313 |
33.1821 |
25.02 |
29.71 |
總數 |
12 |
23.4442 |
5.76626 |
1.66458 |
19.7805 |
27.1079 |
11.40 |
29.88 |
方差齊性檢驗 | |||
土壤含水量 | |||
Levene 統計量 |
df1 |
df2 |
顯著性 |
5.129 |
3 |
8 |
.029 |
上表方差齊性檢驗,顯著性的值為0.029小于0.05,說明總體方差是不相等的,也就是方差不是齊性的,不滿足方差齊性條件。(注:滿足方差齊性後面的多重比較才有意義)
單因素方差分析 | |||||||
土壤含水量 | |||||||
平方和 |
df |
均方 |
F |
顯著性 | |||
組間 |
(組合) |
115.761 |
3 |
38.587 |
1.235 |
.359 | |
線性項 |
對比 |
20.452 |
1 |
20.452 |
.654 |
.442 | |
偏差 |
95.309 |
2 |
47.655 |
1.525 |
.275 | ||
組内 |
249.987 |
8 |
31.248 | ||||
總數 |
365.747 |
11 |
上表可知,總的離差平方和為365.747,組間離差平方和為115.761,組内離差平方和為249.987,組間被線性解釋的部分為20.452,組間F值為1.235,顯著性為0.359大于0.05,認為四組數據中,ABCD四個區域沒有一組數據與另一組數據是存在顯著差異的(若顯著性小于0.05,認為四組數據中,ABCD四個區域至少有一組數據與另一組數據是存在顯著差異的)
多重比較 | ||||||
因變量: 土壤含水量 LSD | ||||||
(I) 區域 |
(J) 區域 |
均值差 (I-J) |
标準誤 |
顯著性 |
95% 置信區間 | |
下限 |
上限 | |||||
公園A區 |
公園B區 |
5.92333 |
4.56423 |
.231 |
-4.6018 |
16.4485 |
公園C區 |
1.98667 |
4.56423 |
.675 |
-8.5385 |
12.5118 | |
公園D區 |
-2.58000 |
4.56423 |
.587 |
-13.1051 |
7.9451 | |
公園B區 |
公園A區 |
-5.92333 |
4.56423 |
.231 |
-16.4485 |
4.6018 |
公園C區 |
-3.93667 |
4.56423 |
.414 |
-14.4618 |
6.5885 | |
公園D區 |
-8.50333 |
4.56423 |
.099 |
-19.0285 |
2.0218 | |
公園C區 |
公園A區 |
-1.98667 |
4.56423 |
.675 |
-12.5118 |
8.5385 |
公園B區 |
3.93667 |
4.56423 |
.414 |
-6.5885 |
14.4618 | |
公園D區 |
-4.56667 |
4.56423 |
.346 |
-15.0918 |
5.9585 | |
公園D區 |
公園A區 |
2.58000 |
4.56423 |
.587 |
-7.9451 |
13.1051 |
公園B區 |
8.50333 |
4.56423 |
.099 |
-2.0218 |
19.0285 | |
公園C區 |
4.56667 |
4.56423 |
.346 |
-5.9585 |
15.0918 |
上表是多重比較,可以看出各組之間的顯著性都是大于0.05,都是不存在顯著差異的。
均值圖
今天的數據分析就學習到這裡,有任何問題可以評論留言,如有想看的操作講解,可以私信我。謝謝大家的點贊、關注和轉發。
,