1月22日,美國政治學頂級學術期刊《政治分析》在他們的官方twitter上宣布從2018年開始的第26輯起禁用p值。消息一經傳出,立刻在學術界引起廣泛讨論。其實廢除P值在統計學界或學術界早已不是新鮮的話題,類似的事情,近年來時有發生。例如2015年2月《基礎和應用社會心理學雜志》也出現了禁止使用P值的決定。而且,近年來随着貝葉斯學派的興起,已經有不少統計學家呼籲學術界使用貝葉斯方法補充甚至替代當今以P值為中心的方法。那麼,為什麼這麼多人呼籲禁用P值,P值到底是什麼,是怎樣産生的,有哪些存在的問題?今天小編在此給大家簡單做一梳理。
P值的曆史 首先說說P值的曆史,P值的曆史首先要追溯到1770年,由法國數學家,物理學家拉普拉斯提出。拉普拉斯統計了近50萬出生人口的數據,計算了一個被稱作P值的量,來确認男嬰的出生率高于女嬰。不過拉普拉斯沒有解釋這個P值的含義。真正統計意義的P值最先由Karl Pearson在卡方檢驗中引入,但是将P值發揚光大的是Ronald Fisher。
Fisher是現代統計學的奠基人,我們耳熟能詳的方法如極大似然法,确切概率法,方差分析,實驗設計以及矩估計都是他提出的。Fisher提出了顯著性檢驗,在其中引入了P值,并将P值作為一種判斷數據在傳統意義上是否顯著的非正式方法。他的基本思想是:研究者首先提出無效假設,在無效假設成立的情況下,計算P值,通過判斷P值的大小來決定是否拒絕原假設。如何判斷P值大小呢?他提出了一個significance level,即顯著性水平,并将其作為P值大小的門限。
這裡需要澄清的是,Fisher提出的假設檢驗理論中隻有無效假設和P值,而且顯著性水平也不是指我們通常所說的α。α是由另外兩位統計學家引入的,即Jerzy Neyman和Egon Pearson。這兩個人也是現代著名的統計學家,提出過兩類統計錯誤,似然比檢驗,區間估計等理論,對統計學理論的發展做出了重大貢獻。二人建立了另一個假設檢驗學派,即N-P學派。在這一學派裡,引入了備擇假設的概念,但沒有涉及P值。該學派将α定義為犯一類錯誤的概率,也将其命名為顯著性水平。通過α來計算拒絕域的邊界(可以理解為查表得到的臨界值),如果樣本的觀測值落入拒絕域,就拒絕無效假設。可以看到Fisher是通過P值來進行推斷的,而N-P學派是通過臨界值來進行推斷的。
上世紀兩個學派針對假設檢驗理論曾經展開激烈的争論,如Fisher認為N-P學派混淆了顯著性水平的概念,N-P學派則不承認P值。在樣本容量不同時,兩個學派都可能得出不同的結論,但是N-P學派能夠提供相應的統計功效,因而相應的理論體系更為完善一些。當今統計學界将兩派觀點進行了融合,将Fisher提出的顯著性水平等同于α。通過對比p和α的大小,得出是否拒絕無效假設的結論。但需要明确的是,這并非兩個學派的初衷。
p值的含義 了解了P值的曆史,我們來談談P值的含義。首先談一下假設檢驗的基本思想。假設檢驗同時運用了反證法和小概率思想。首先提出無效假設,然後看在該無效假設成立的前提下,出現當前事件是否是一個小概率事件,如果是一個小概率事件,我們就有理由拒絕無效假設,否則沒有理由拒絕無效假設。我們往往将小概率事件的标準定為α=0.05,稱為顯著性水平,也是犯一類錯誤的概率。通過對比P和α的大小來做出統計推斷。
P值的準确定義是這樣的:P值是無效假設成立的條件下,出現統計量目前值以及更極端數值的概率。這裡首先要明确P值是一個概率,是基于某種假設條件下的概率值。其次要明确的是,P值不是取某個具體數值的概率,還要包括更極端的情況,這個更極端要根據無效假設來設定。更準确的說,P值是一個累積概率概率,而非概率密度。很多同學可能不能理解P值為什麼是累積概率?下面的例子也許能解答大家心中的疑惑:
假設有一枚硬币,我們想知道它是否是均勻的,如果是均勻的,出現正反兩面的概率均為0.5。于是我們就做抛硬币實驗,假設我們抛了100次,出現了40次正面。從這個數字上看,我們覺得硬币是均勻的可能性還是比較大的,但還是做檢驗假設看一下。基于假設檢驗的基本思想,我們做出這樣的假設:
H0:硬币是均勻的,π=0.5
H1:硬币是不均勻的,π≠0.5
我們可以計算在H0成立的情況下,出現40次正面的概率。根據二項分布公式有:
也就是說,100次抛硬币實驗中,出現40次正面的概率是0.01084387。可以看到這個數值很小,甚至小于0.05。如果僅用這個概率值做判斷,我們會得出下面的結論:在H0成立的情況下,在100次抛硬币的實驗中出現40次正面的概率是0.01084387,因為取值小于0.05,這是一個小概率事件,因此可以拒絕原假設,也就是認為硬币不是均勻的。這樣的結論正确嗎?當然不正确,首先這個結論和我們的直觀感覺就不符。但是問題出在哪呢?我們知道,在100次抛硬币實驗中,出現正面次數的可能有0,1,2,3……100共101種情況,經過簡單計算可以發現,每種情況的出現的概率值都很小,但是累積概率為1。如果用單個概率值來判斷是否是小概率事件,從而判斷是否拒絕原假設,這是不合理的。因為我們的目的是做統計推斷,用樣本數據來推斷總體,對我們決策有幫助的不是統計量取值的概率,而是在零假設前提下出現當前統計量是否足夠“極端”。我們應該計算的是“極端”情況的概率,如果足夠“極端”,我們才有理由拒絕無效假設。如果還覺得不好理解,想想日常生活中自己是怎麼判斷的呢?是不是下面這樣呢:
如果正面或者反面出現的次數為45~55,我們就有相當大的把握認為硬币是均勻的;
如果正面或者反面出現的次數為31~44,我們對硬币的均勻性産生了懷疑;
如果正面或者反面出現的次數為10~30,我們就相當懷疑硬币的均勻性;
如果正面或者反面出現的次數為0~9,我們非常懷疑懷疑硬币的均勻性。
這是我們日常生活中的判斷邏輯。取值越“極端”,我們越認為不可能發生。我們并不是以某一個具體取值來做判斷。相反,我們會劃定一個區間,通過區間來進行判斷。P值也是這樣,也是劃定一個區間,這個區間是累計概率。上面例子中的,無效假設下,理論上應該出現50次正面,現在出現了40次正面,相對于50次,更極端的情況就是出現39次,38次,37次……。因為是雙側檢驗,更極端的情況還包括出現60次,61次,62次……,計算二者的累積概率,就是P值。經計算這一結果為P= 0.056887930.05,這不是一個小概率事件,所以不拒絕原假設。
上面提到,是否“極端”要根據無效假設來設定。我們的例子中H0:P=0.5,“極端”情況出現在雙側。如果我們的無效假設是H0:P=0.5,更極端的情況就出現在單側,應該是右側,即出現41次,42次,43次……的累積概率,這一概率值是0.971556,結論為不拒絕無效假設。如果無效假設是H0:P=0.5,更極端的情況出現在左側,即出現39次,38次,37次……的累積概率,這一數值為0.028443970.05,結論為拒絕無效假設。
清楚了P值的計算,還要正确P值的含義。P值隻基于當前樣本數據得出的一個統計量,用于反應當前樣本差異有無統計學意義,這也僅僅是統計結論,而非專業結論。真正的判斷更多需要結合專業知識。
P值的問題 了解了P值的計算和含義,那麼P值存在哪些問題呢?
P值常常被誤用。很多人将P值神聖化了,認為P值決定一切。其實無論是Fisher最初提出的假設檢驗理論還是将兩個學派理論融合後的理論,P值從來沒有被證明可以用來接受某個假設,它隻是提供一個概率值,幫助人們做出相對安全的統計決策,但這樣的決策不是絕對正确的。即使是拒絕假設,也是基于某個樣本得出的結論,當樣本變動時,結論很可能也會變動。因此在很多科學研究之中,P值統計學顯著結果不能重現。這是P值與生俱來的缺陷。P值誤用還有另一種情況,很多人未能正确理解P值,而将P值看做是效應(或者差異)的大小,實際上P值隻能判斷效應(或者差異)有無統計學意義。效應大小有專門的統計量來衡量。
P值受樣本量影響。如果樣本量很大,兩組數據之間隻要有很小的差距就能使統計量達到顯著的水平(參考t檢驗公式,t值與樣本量的平方根成正比,當樣本量很大時,t統計量很容易達到顯著)。這時,如果有輕微的系統誤差,有可能就使原本沒有差異的樣本之間達到顯著。因此,也有人建議,在樣本量大時,應該減小p值。
P值常常被濫用,在當前幾乎所有文獻中,任何說明研究有顯著意義的結果都要用P值來說明。因此導緻了許多研究者在結果不顯著時,通過删除數據,增加樣本量或者其他手段來強行湊出P0.05,從而導緻很多假陽性的結果。這是P值最受人們诟病的地方。
鑒于P值存在的種種缺陷,統計學家已經提出了不少糾正方法。比如有統計學家提出在報告P值的同時中提供效應量和置信區間的相關數據。這些數據可以反映P值無法反映的信息,也就是效應的規模及其相對重要性。也有統計學家還呼籲使用貝葉斯法則的方法替代P值。這一法則誕生于18世紀,其思想是在獲得後驗分布後,直接計算原假設H0和備擇假設H1的後驗概率,然後計算二者的比值來進行判斷。貝葉斯學派的假設檢驗方法有其優勢,但是也存在一些問題,如先驗信息的選擇較為主觀,後驗概率的計算在高維情況下比較困難等。還有一些人則贊成一種更普遍的方法,即鼓勵研究人員對同一套數據用多種方法進行分析。 但無論是采用哪種方法,目前都沒有得到普遍性的認可。
因而,在還沒有較好的解決方案之前,小編認為,《政治分析》貿然決定廢除P值似乎還是草率了些。P值的提出畢竟已有百年,根基深厚,不能因為存在一些問題就全盤否定。已經而且從小編看來,所謂P值的缺點很大程度上是研究者人為原因造成的,與其這樣廢除P值,不如教導研究人員正确認識P值,正确使用P值,這才是做科研的正确姿态。
【醫學方】來自于“醫學人”,始終緻力于服務“醫學人”,将最前沿、最有價值的臨床、科研原創文章推送給各位臨床醫師、科研人員,關注【醫學方】頭條号,更多臨床和科研相關的實用培訓課程等着你哦~
【醫學方】已推出【醫學統計學精品公益課程】、【醫學方R語言快速入門與數據清洗】、【R語言可視化及作圖】、【GEO|TCGA|Oncomine數據挖掘教程】等視頻教程。可登陸網易雲課堂,搜索“醫學方”查詢
,