藍白合又出現變數,雙方在民調的誤差範圍上吵得不可開交。柯文哲陣營說,要「讓6%」太強人所難。究竟什麼是讓6%?為什麼藍白雙方會在誤差範圍爭執不下?

統計學的目的,就是透過「抽樣」,去「估計」真正的母體。簡單講,就是真相只有一個,我們都想知道真相是什麼,而統計學就是知道真相的工具。

舉例來說,想知道侯友宜在台灣人民心中的真實支持度,將受調查對象依據不同特徵分層,再從不同的層之中「隨機抽取樣本」,詢問他們是否支持侯友宜。

如果調查的對象是全國民眾,就必須將民眾的居住或戶籍地做分層,並在各個縣市隨機抽出受訪對象。

藉由隨機抽樣調查的結果,來「估計」全台灣到底有多少人(母體,也就是真實樣貌)支持侯友宜。

但抽樣調查一定會有「誤差」,不可能百分之百精準,要使誤差範圍越小,樣本數一定要夠大。

樣本超過30個單位數有時被稱為「大樣本」。但統計學權威、前台大校長管中閔主張,只要搜集越多樣本,算出來的平均數會越接近真相,所以並沒有說樣本數要多大、才叫大樣本。

現行一般民調的樣本數為1068份,這個數字是權衡民調成本、時間、誤差之下的數字,可謂「CP值最高」的選項。

此外,在民調中常看到一個統計學術語:「在信賴水準95%時,抽樣誤差最大值為±3%」。

這是統計學中「信賴區間」(Confidence Interval)理論,該理論原始提倡者為波蘭數學家尼曼(Jerzy Spława-Neyman)。

當時提出信賴區間理論時,統計學界是一頭霧水,不清楚這個「信賴水準95%」是什麼意思?又以統計學大師費雪(Ronald Fisher)對信賴區間的質疑聲最大。

但經過長時間驗證,信賴區間是一個精準的估計工具,廣泛用於選舉民調、商品市調。

很多人誤以為95%信賴水準是機率,但它是一種信心值。舉例來說,「某候選人的支持度為57%、誤差不超過3%」,代表的,是「有95%的信心,支持度是在54%至60%的範圍內」。

但誤差值究竟多少才精準,除了看抽樣數的大小,還有抽樣的有效性。除了樣本數越大會使誤差範圍越小之外,「抽樣有效性」也是關鍵。比如,訪問一名從不投票的人支持誰,這個樣本的代表性就稍嫌不足。

回到藍白合的案例,雙方各自比現有的民調,來決定誰正誰副。柯文哲陣營強調,侯友宜堅持民調要「讓6%」強人所難。但癥結點其實是,每份民調的樣本數、有效樣本數皆不一致,很難用統一的誤差值,去看每份民調的真實性。若樣本的品質佳,樣本單位數就算少一點,也不影響估計的精準度。

侯陣營堅持±3%誤差、也就是柯陣營稱的「讓6%」;而柯陣營堅持±1.5%。說穿了,不管誤差範圍是大是小,雙方都是在找對自己有利的統計方式,想辦法證明自己是最強的候選人。

歸根究底,藍白能否合,關鍵還是雙方的信任。只要缺乏互信,一份民調可以各自表述,讓雙方吵個沒完。

這世上「真相只有一個」,找出真相是統計學的目的。侯、柯的支持度誰比較高,真相也只有一個,就看藍白雙方能否化解對彼此的猜忌,接受真相了。

延伸閱讀:藍白到底合不合?一文回顧完整發展

責任編輯:陳柏燕