有三種方法可供選擇:算術(shù)平均值、中位數(shù)和眾數(shù)(本章介紹的是算術(shù)平均值,下一章講介紹中位數(shù)與眾數(shù))。如果是從樣本中得到的測量值,即為統(tǒng)計量。如果是從總體中得到的測量值,即為參數(shù)。(為了區(qū)別樣本值和總體值的不同,羅馬字符用于表示樣本統(tǒng)計量,而希臘字符用于表示總體參數(shù))。
算術(shù)平均值:平均值可以通過對各個不同的數(shù)值的計算得出來,即用各個數(shù)的和除以數(shù)值的個數(shù)可以得到答案。
對于一組簡單的樣本數(shù)據(jù)X1,X2,X3,…,Xn,樣本的算術(shù)均值可以這樣表示:

為了更好的理解樣本均值的概念,不妨和個人生活常識結(jié)合起來考慮。很多人會困惑,為什么早上準(zhǔn)備去工作的這段時間總是比期望的要長一些,但是很少有人真正的測量過他們早上實際所花費在準(zhǔn)備階段的時間。假定你把從起床到離開家的這段時間以分鐘來計時(四舍五入到最接近的分鐘數(shù))。你連續(xù)的在10個工作日測量,得到如下數(shù)據(jù):

為了要算出時間均值,首先要得出所有數(shù)值的和是多少,39+29+43+52+39+44+40+31+44+35=396。然后將其值3%除以個數(shù)10,得到39.6,這就是所求的時間均值。
雖然時間的均值是39.6,但這并不意味著在一個單獨的樣本里,值也正好是39.6。而它只是表達(dá)出樣本值的集中趨勢的屬性而已,均值的計算也是基于所有樣本值而得到的。
注意:當(dāng)使用算術(shù)平均值的時候,由于計算基于每個具體的數(shù)據(jù)的值,均值會被某個極端的特殊的值影響。當(dāng)出現(xiàn)這種情況時,均值就無法正確反映數(shù)據(jù)的真實情況。因此,在這種有特殊值的情況下,均值就不是反映數(shù)據(jù)集合的集中趨勢的最佳方法。
為了驗證極端值對數(shù)據(jù)的集中趨勢的影響,我們假定把上例中的時間的最大值52換成98,則均值可以這樣算出:

大家可以發(fā)現(xiàn)一個極端值可以讓均值變化的如此之大。和原先的數(shù)據(jù)相比,我們發(fā)現(xiàn)前例的均值是處在所有數(shù)據(jù)值之間的,而后例中的均值則比除了一個極端值以外其他9個值都要大。因此,均值對于表示數(shù)據(jù)的集中趨勢并不是一個非常好的方法。