編‧輯‧室‧報‧告-最近,統計學變得很重要
統計的用途非常廣泛,用最多的當屬政府,雖誤差無從估算,但政府統計的思維是相信藉由抽樣設計、訪查方式及事後覈驗,可以讓推估值接近實際值。圖/摘自Pixabay
最近,統計學變得很重要,在野的國民黨、民衆黨原來想循民調來決定總統大選的組合,但由於對於3%的統計誤差,究竟是正負3%,還是正負1.5%,難有共識,甚是紛擾,然而這一紛擾也讓大家開始重視統計學了。
從統計學來看,這六份民調除了一份達到2,046個樣本,其餘皆落在1,082~1,484個樣本之間,民調這類比例數(proportion)的估計誤差,在確定信心水準之後,誤差的大小就取決於樣本數了,樣本愈多,誤差愈小。以這六份的樣本數規模,是達不到正負1.5%的,真要讓誤差落到正負1.5%,樣本數得擴大到4,200份才行。
■兩黨民調誤差之爭,
凸顯統計的學問大
事實上,proportion的樣本數與誤差的關係,在初等統計學早有詳論,只是經過本次爭論,讓我們又有機會重溫一次。如今這個社會,統計的用途非常廣泛,非僅民調用得上,醫學、商業、傳播及教育也派得上用場,而用最多的當屬政府,企業未必有統計單位,但政府皆設有統計部門,專責經濟、社會、人口、訂單、物價、就業、薪資、所得分配等調查,定期發佈以讓國人瞭解社會的變化。
政府統計裡,像proportion這類意向調查很少,多數仍是逐月自母體抽樣,以「基準環比連鎖法」推估母體的現況,比起proportion民調的難度更高。這些政府統計,由於要推估母體,樣本回收率須達95%以上,如遇拒訪也得以替代樣本補上,從抽樣設計、訪查到推估,工程可謂浩大。這類推估不會註明誤差,但有沒有誤差?一定有,包括抽樣誤差、非抽樣誤差,然而這些誤差無從估算,政府統計的思維是相信藉由抽樣設計、訪查方式及事後覈驗,可以讓推估值接近實際值。
也許有人會問,母體從哪裡來?政府每五年一次工商普查、每十年一次人口及住宅普查、戶籍資料、海關統計、綜所稅檔都是母體,依最近一次普查,製造業有16萬家,工業部門有31萬家、服務業部門有114萬家,家庭戶數有803萬戶,常住人口有2,291萬人,有出口實績者12萬家,這些都是母體,當每個月要了解失業的變化、廠商接了多少訂單、薪資有沒有成長、工業生產、零售業營收是否復甦,只要自其中抽樣推估,實際情況雖不中亦不遠矣,這就是統計學的妙用。
■政府統計藉工商普查
回溯修正「偏誤」
那麼,這些政府統計到底抽了多少樣本?這是好問題,各項調查都不太一樣,工業生產指數每月訪查6,600家、外銷訂單3,000家、受僱員工10,000家,失業率訪20,000戶,家庭收支訪了16,000戶,訪查樣本數雖只佔母體0.2~2.5%,但由於有母體的結構爲抽樣依據,循各縣市、各業別分層隨機抽樣、系統抽樣、上位抽樣、截略點抽樣等統計方法,可讓所估得數字接近母體。
雖然如此,相信還是有不少人會懷疑,樣本數只佔母體的0.2~2.5%能估得準嗎?這樣的擔心是有道理的,也因此,主計總處每五年會辦一次工商普查,藉由普查資料來驗證過去推估是否有偏誤,若有偏誤,會藉普查資料回溯修正,例如2000年以來,國內產業結構變化較巨,以2001年普查爲母體所估得的受僱人數明顯低估,2005年估計594萬人,經2006年普查資料校正之後,2005年的受僱人數上修至620萬人,其他如生產總額、附加價值、三角貿易、薪資等數字也會在工商普查裡獲得驗證並修正。
統計方法的出現,是因應母體的不可知,如何以少數的樣本快速推估母體的變化,變得非常重要,試想目前每月發佈外銷訂單、通膨率、失業率,如果都要查數十萬家廠商、數百萬戶家庭才能得知,今年11月的數據,大概得等到明年11月才能發佈,這樣的統計有何意義?果然發生嚴重的蕭條、通膨都要等一年後才知曉,可能還沒等到數字出來,臺灣經濟就瓦解了,統計學及統計工作的重要,於此可知。
■沒有準確而即時的統計,
再偉大的政府也無法施政
本次兩黨對統計民調的針鋒相對,看來也不是壞事,有助於喚起大家對統計理論的研究,及對政府統計工作的重視,果能如此,也算是好事。2600年前管仲於《管子》一書曾寫道:「不明於計數,而欲舉大事,猶無舟楫而欲經於水險也。」統計的重要性,管仲說得生動而明白,沒有準確而即時的統計,再偉大的政府也是無法施政的,至盼總統參選人日後執政時,能更重視統計工作,至於長期以來每逢政府組織再造,動不動就想把統計部門並掉的念頭,相信有遠見的總統,絕不會讓這種事再次發生的。