另一種估計總體統計量的方法——一種考慮了不确定性的方法:置信空間。
點估計量是有可能給出總體統計量的最佳估計,但是點估計量的推導過程存在這樣的問題:依賴唯一的一個樣本的結果得出非常精确的估計。但是對于這個樣本是不能100%地代表總體,即使是無偏樣本,也會存在小小的誤差。
與其給出一個精确值作為總體均值的估計值,不如采用另一種方法:指定某個區間,而不是用一個精确的值,讓均值的點估計量處于這個區間的中央,并将這個區間的上下限設定為這個點估計量加上或減去某個誤差。這個區間就叫做置信區間。
設置置信區間是為了讓總體均值介于這個區間内具有某個特定的概率。例如,你可能希望選擇a和b,使得該區間中包含總體均值的概率是98%。也就是說,所選擇的a和b使得:
P(a <μ<b)=0.95
置信空間的求解
1、選擇總體估計量。這取決于要解決的實際問題。
2、求出所選統計量的抽樣分布,回顧一下抽樣分布的期望和方差公式:
3、決定置信水平。置信水平表明你希望自己對于“置信區間包含總體統計量”有多大把握。例如,我們希望總體均值的置信水平為95%,這表示總體均值處于置信區間中的概率為0.95。
置信水平越高,區間越寬,置信區間包含總體統計量的幾率越大。但需要注意的是:把置信區間弄得太寬,就會失去其意義。
4、求出置信區間的上下限。假設置信區間為[a,b],均值除去區間[a,b]的概率為95%,抽樣分布符合正态分布,其中X拔~N(μ,0.25):
5、通過查詢正态分布的概率表,找出對應标準分的概率。
置信區間的簡便算法
構建置信區間會反複使用相同步驟,因此可以作一些簡化,具體取決于所需要的置信水平和試驗統計量的分布。下面是一些實用的置信區間的簡便算法:
其中,C的數值取決于所需要的置信水平,隻要以正态分布作為試驗基礎,就可以使用以下數值:
我們之前提到的所有抽樣分布要麼符合正态分布,要麼可以用正态分布進行近似。然而,如果碰到不能用正态分布的情況改如何呢?這裡存在兩種情況:第一種是無法知曉總體方差的确切值,必須使用樣本方差估計;第二種是樣本太小,估計值很有可能出現較大誤差,所以之前一直在強調樣本數量要大于30也是因為這個原因。
遇到以上情況時,就要考慮使用T分布了!
,