謝邦昌/民調已死?由美國總統大選看選舉預測的誤區

川普在括佛州在內的幾個搖擺州都意外贏過希拉蕊,順利入主白宮。(圖/翻攝自川網站

文/謝邦彥 林千芩 謝邦昌

2016年美國第58屆總統選舉落幕,結果算是出乎大家的意料,主流的民意以及媒體都不看好川普(Donald John Trump)會勝選,皆認爲是希拉蕊(Hillary Diane Rodham Clinton)會成爲美國的第一任女性總統,但最後並非如同美國多數民調機構所預測的是由希拉蕊當選,而是由川普入住白宮,擔任了美國第45任的總統。

本次選舉的預測,意外的可不只是美國媒體的民調機構,甚至連微軟的人工智慧預測引擎Bing Predicts也預測失準差距超過一百張選舉人票。因此開始有人用「民調已死」述說着民調不重要,未來民調將成爲夕陽產業;也有人說大數據不可靠,今年六月時英國的脫歐公投也有先例,選前網路上一片留歐聲音對照着選後脫歐的結果,來訴說着大數據不可信這樣的結論。無論是民調還是大數據都有誤差,因此「民調已死」或是「大數據大忽悠」等等這些聲音看似都有它的道理,但事實情況真的是這樣嗎?

翻開美國總統選舉史上,民調結果和實際選舉相去甚遠的情況其實並非只有今年這一次。著名的失敗案例早在1936年和1948年時就已經發生過這樣的情況,之後從1948年一直到2012年之間的美國總統大選基本上民調都是可以正確地預測出實際的投票結果。1936年和1948年這兩屆美國大選民調的失敗經驗,更成了統計學中抽樣調查方法的經典案例。

1936年美國的文學文摘(Literary Digest)雜誌所辦的全國性調查,該雜誌社利用訂戶名冊作爲抽樣底冊,而寄出一千萬份的郵寄問卷,最後回收大約兩百四十萬份,用來預測當年的美國總統大選。調查結果認爲共和黨藍登(Alfred M. Landon)可以高票當選,事實上卻是民主黨羅斯福(Franklin Delano Roosevelt)獲勝。

但是同年蓋洛普(Gallup)民調公司卻僅以以五萬份問卷,成功地預測了當年度大選的結果。爲什麼會有這樣的差別呢?時間拉到1948年,這年的美國大選是由共和黨的杜威(Thomas Edmund Dewey),與尋求連任的民主黨杜魯門(Harry S. Truman)競選。在當時三家主要的民調公司蓋洛普、克羅斯科(Crossley)以及羅波(Roper),在投票前均宣佈杜威至少會勝出5個百分點。但是大選的結果出來了,杜魯門以接近50%的得票率擊敗杜威略多於45%的得票率,反倒是杜魯門勝出了5個百分點左右,與選前預測的結果大相逕庭,中間到底發生了什麼事呢?統計真的沒有用嗎?進入了大數據時代的2016年所發生的預測失準,與超過一甲子以前的兩次經驗,從統計的角度來看,有何異同之處呢?

▲杜魯門拿着芝加哥論壇報的頭版新聞,哈哈大笑。(圖/翻攝自呂秋遠臉書)

1936年文學文摘寄發了一千萬份的問卷,並回收了大約兩百四十萬份,在當時可是不折不扣的「大數據」,統計的理論告訴我們說樣本數越多越好,但是爲什麼結果會是樣本數僅有大約文學文摘百分之二的蓋洛普公司能成功預測呢?原因在於受訪樣本的不同。

文學文摘寄發的一千萬份問卷的依據是該雜誌社的訂戶、電話簿,及一些俱樂部的會員,基本上在當時這些人都是屬於經濟狀況較好的族羣,在此抽樣上已經產生了相當的偏誤;另外收回的兩百四十萬份問卷皆屬於「自願回覆」,在這邊有兩個問題需要思考,第一,「自願回覆」是否意味着願意回覆的這些樣本,是否存在着特別的意識形態,因此認爲自己需要積極參與民調來發聲呢?第二,這份調查所發出的問卷共一千萬份,有效樣本數算兩百四十萬,這意味着這份調查有着高達七成六的遺漏值,在進行資料分析時,若遺漏值的比例如此的高,做出來的推論會是有效推論嗎?

綜合以上,在偏誤中還有偏誤的時候,也難怪文學文摘的「大數據」會失準了。一個方法的失敗不代表另外一個方法就會成功,那麼爲何同年蓋洛普公司就會成功呢?當時蓋洛普公司所使用抽樣方法則是大不相同,該公司所使用的方法是「配額抽樣」也就是每位面訪員被給定一定數量的受訪者,其中如住所、性別、年齡、教育程度、種族、兵役狀態、是否屬於工會等,各類都有一定配額,與文學文摘所使用的方法相比,配額抽樣已經有將樣本選擇的偏誤控制住了,預測的品質自然會比較好。

基於1936年的成功經驗,在1948年的三家民調公司也都使用配額抽樣的方式進行面訪調查,但是這次的預測結果與1936年相比天差地遠,原因何在呢?根據專家學者們的探討後發現了兩個年度的社會背景有着相當的差異,前面有提到所謂的配額就是每位面訪員依照各類的配額對受訪者進行調查,但是受訪者的選擇則是由面訪員自己決定符合各類條件的受訪者做面訪即可。

在1948年的大選中,其實杜魯門並不被看好一定可以連任,那時的背景是第二次世界大戰纔剛結束,冷戰(Cold War)纔剛開始的時期,美國國內的氣氛令人感到不安,在當時杜威的聲勢是有機會挑戰杜魯門的情形之下,樣本選擇是否有代表性便成爲了能夠預測正確與否的關鍵,而民調公司的訪員由於是自行決定符合條件的受訪者,不能排除說因爲選樣偏誤的關係造成了這次的預測失準。

但是1936年當時的候選人羅斯福與對手蘭登的聲勢差異相當大,即便抽樣設計存在着這樣子的偏誤,也不至於會與選舉的結果有異。因此經過1948年的失敗經驗之後,各家的民調公司在抽樣的方法上進行了修正,從原先的方便抽樣改爲隨機抽樣的設計來減少因爲人爲選樣的偏誤。值得注意的是,1952年起蓋洛普公司僅使用3000~8000左右的樣本數就使得民調準確度顯著的提升,這說明機率抽樣,配上良好的調查設計,是可以在民調中,達到很精準的效果。(黃文璋,2010)

那麼在現今2016年,民意調查又面對了什麼樣的問題和挑戰呢?在美國,民調公司大約在1988年的時候因爲成本效率以及社會民風上的考量開始漸漸的減少了面訪調查,取而代之的則是電話調查,在這些年美國全國性的民調幾乎是靠電話調查來進行的。但是爲什麼不到20年的光景,電話調查的誤差越來越大呢?

要知道當時電話調查可以取代面訪調查最主要的原因是在於家用電話越來越普及,普及率在2000年時達到最高點,有超過九成以上的家庭擁有家用電話,也因此透過適當的問卷設計來輔以電話調查是可以得到相當不錯的效果。但是在2013年的調查顯示有高達四成的家庭已經沒有申裝家用電話,透過傳統電話調查僅有機會調查到家戶中有安裝家用電話的六成民衆,也因如此就又產生了選樣偏誤。

如同1988年時開始調查方式的變革,當人們的生活型態改變時調查方式也必需得隨之改變,而在資訊爆炸的大數據時代,網路勢力崛起的「指尖力量」―社羣媒體,這是傳統民意調查無法察覺到的一塊新科技處女地。每天光是流向社羣網站Facebook與Twitter的資料量,就超過3億張照片、25億則發文、27億按贊數

大數據海嘯撲嘯而來,這些數據散佈在各個地方,每天以驚人速度成長,雖然數據雜亂,但好處是完整詳細,可以透過系統性的方式將資料梳理整齊進行預測。若大數據真這麼神,爲何以大數據爲基礎來進行預測的微軟人工智慧Bing Predicts會成爲一場笑話呢?

網路的特性使得人工智慧系統利用機器學習的確還是有許多的難關要克服,最明顯的例子就是反諷用語的分辨,現階段機器還是很容易錯誤解讀網民的意思,但若僅輕易的以微軟的例子來斷定大數據無用,那這結論就下得太早了,因爲並非所有的人工智慧預測皆失準,由Genic.ai所開發的MogIA人工智慧系統成功的預測出川普將入主白宮。

同樣是人工智慧、同樣是大數據,爲何Bing Predicts和MogIA的結果會相差這麼多呢?Bing Predicts所使用的資料來源是基於微軟自己本身Bing瀏覽器的的搜尋資訊以及相關的社交媒體趨勢;而MogIA的預測方法是直接從Google、YouTube和Twitter等網站上搜集了近2000萬的資料點,來進行分析預測,說實話MogIA的這套預測方法是對於川普比較有利的,原因在於它並不會考慮用戶的語氣和意圖,而是單純的檢查熱度。

另外,本次選舉同時反應了另一項不能忽視的議題:誰在網路上發表言論。雖然網路使用相當的普遍,但是尚有一部分的民衆也許受限使用習慣,也許受限生活型態,或是經濟因素,並不時經常使用或者僅是瀏覽未表示意見,網路言論無法掌握這些民衆的意向,比照過去沉默大衆,這羣人隱藏的更深。由這次當選人川普的支持羣衆結構,不難發現這羣被媒體網路所忽略聲音的人。

由上述的比較可以知道即使是大數據,肯定的存在着誤差,而誤差的來源就是因爲所蒐集選用的資料以及分析方法不同而產生的。也就是說,大數據時代的分析將會比起過去更加的複雜,因爲不僅資料複雜,連分析方法也多出許多;而與過去失敗經驗中學習到雷同的部分在於「所選用的樣本是否具有代表性」,多數企業對於大數據總有「樣本等於母體」這樣的迷思,但是就算樣本數再多再大,只要資料來源單一,還是會有相當侷限性,也許Bing Predicts就是這樣的一個例子。

▲美國總統大選川杜大戰的傳統民調不準,反倒是網路粉絲數透出端倪。(圖/東森新聞)

做個結論,雖然本篇文章通篇是在說明關於美國大選的例子,但是就民意調查的思維邏輯,是放諸四海皆準的。在現在這樣一個資訊爆炸的時代,我們可以選擇的方法有很多種,無論是傳統面訪、電話訪問、大數據分析,每種方法都有其專屬的優劣之處,重要的是如何依照情勢來設計適當使得要推論母體能被涵蓋調查到的調查方法。

民調的推論是需要與傳播學、社會學、心理學的專業來結合的,例如上述領域中著名的沉默螺旋理論,所謂的沉默螺旋理論是指如果人們覺得自己的觀點是公衆中的少數派,他們將不願意傳播自己的看法;而如果他們覺得自己的看法與多數人一致,他們會勇敢的說出來。

媒體通常會關注多數派的觀點,輕視少數派的觀點。於是少數派的聲音越來越小,多數派的聲音越來越大,形成一種螺旋式上升的模式。以英國脫歐和這次美國大選爲例,留歐與希拉蕊當選是主流的聲音,而支持脫歐和川普當選的選民則成了沉默的聲音。最後民調失準之處很可能是在於沉默的聲音沒有被推論出來。這也帶給我們一項重要的啓發在於統計分析與調查推論若是沒有適時的與其他專業結合的話,調查分析的結果將無法有意義的被推論。

►美國總統大選專題

►美國大選文字直播

►►►隨時加入觀點與討論,給88論壇粉絲團按個贊!

●作者:謝邦昌,臺北醫學大學管理學院院長,以上言論不代表本報立場。88論壇歡迎更多參與,投稿請寄editor88@ettoday.net