公衛醫師醫學統計學輔導:可信區間的估計

一、參數估計的意義一組調查或實驗數據,如果是計量資料可求得平均數,標準差等統計指標,如果是計數資料則求百分率藉以概括說明這群觀察數據的特徵,故稱特徵值。由於樣本特徵值是通過統計求得的,所以又稱為統計量以區別於總體特徵值。總體特徵值一般稱為參數(總體量)。我們進行科研所要探索的是總體特徵值即總體參數,而我們得到的卻是樣本統計量,用樣本統計量估計或推論總體參數的過程叫參數估計。

本章第一節例6.1通過檢查110個健康成人的尿紫質算得陽性率為10%,這是樣本率,可用它來估計總體率,說明健康成人的尿紫質陽性率水平,這樣的估計叫“點估計”。但由於存在抽樣誤差,不同樣本(如再檢查110人)可能得到不同的估計值。因此我們常用“區間估計”總體率(或總體均數)大概在那一個範圍內,這個範圍就叫可信區間。區間小的一端叫下限,大的一端叫上限。常用的有95%可信區間與99%可信區間。根據同一資料所作95%可信區間比99%可信區間窄些(上、下限較靠近),但估計錯誤的機率後者為1%,前者為5%,進行總體參數的區間估計時可根據研究目的與標準誤的大小選用95%、或99%。

二、總體均數的估計

為了說明常用的總體均數之區間估計法,我們不妨回顧一下上節所敘的t分布。

由求t的基本公式

我們看到x與μ的距離等於t(sx),又根據x集中分布在μ周圍的特點,若取t的5%界即t0.05,,(或1%界)乘以sx作為x與μ的距離範圍,就可用式(6.6)或式(6.7)求出區間來估計總體均數μ所在範圍,估錯的機率僅有5%或1%,因此稱95%或99%可信區間。下面用實例說明其求法。95%可信區間 x-t0.05,ν sx<μ 99%可信區間 x-t0.05,ν sx<μ

例6.2 上面抽樣實驗中第1號樣本的均數為488.6,標準差為61.65,例數10,自由度ν =10-1=9,試求95%與99%可信區間。

1.求標準誤

95%可信區間 488.6-2.262(19.50)<μ<488.6+2.262(19.50),即有95%的把握估計μ是在444.49~532.71區間內99%可信區間 488.6-3.250(19.50)<μ<488.6+3.250(19.50),可有99%的把握估計μ是在425.22~551.98區間內這裡兩個可信區間都包含μ=500在內,所以這次估計是估計對了。抽樣實驗共抽了100個樣本,除1號樣本外其餘99個樣本均數也對μ作了區間估計,這些95%可信區間列在表6.4中。我們看到,只有5個95%可信區間(右上角標有星號)不包含總體均數μ=500在內,它們是:

樣本號

x

95%可信區間

6

546.7

515.78~577.62

7

524.5

500.45~548.55

28

476.1

454.91~497.29

72

465.3

447.02~483.58

75

526.6

503.10~550.10

平時我們並不重複抽取許多樣本來一次次估計總體均數而僅是一次,至於算出的均數會類似一百個樣本均數中的那一個就很難說了。如果不遇到類似上列那些均數過大或過小的樣本,求出可信區間後總體均數真是在該區間內,那么便是一次成功的估計:但是極少數情況下我們也會遇到極端的樣本,以至總體均數並不在我們提出的區間內。不過,我們具體所作的這次估計到底屬於前種情況還是後一種,這是無法知道的,因為我們不知道μ是多少(若已知μ便不必估計它了)。然而象後種情況那樣作出錯估的機率終究很小,只5%或1%,所以用這樣的方法估計總體均數還是可行的。

三、總體率的估計

上面已經提到,計數資料可以計算相對數(率)。我們若由樣本統計量p估計總體參數π,同樣要考慮率的抽樣誤差,據數理統計研究結果,樣本率的分布也近似常態分配,尤其當π比較靠近50%且樣本較大時。於是對樣本,百分率的可信區間可利用常態分配規律估計,公式是:

95%可信區間 p-1.96sp<π 99%可信區間 p-2.58sp<π (按常態分配,雙側尾部面積α=0.05時的u值為1.96,α=0.01時的u值為2.58,故用這兩式求可信區間時不必查表找臨界u值,記住這兩數即可。)

例6.3 某醫院收治200例急性菌痢患者,其中糞便細菌培養陽性者共80例,試估計菌痢細菌培養的總體陽性率95%與99%可信區間。

1.求陽性率  p=80/200×100%=40%  (或0.40)

2.  

3.求可信區間

95%可信區間 40%-1.96(3.46%)<π<40%+1.96(3.46%),即估計π在33.22%~46.78%之間

99%可信區間 40%-2.58(3.46%)<π<40%+2.58(3.46%),即估計π在31.07%~48.93%之間

如果是小樣本的百分率,求可信區間可通過查表獲得,附表4是n為10、15、20、30時查95%與99%可信區間的一個簡表。此外,統計學專著中還有更詳細的表可查。