查看原文
其他

美国大选有无大规模舞弊?热气腾腾的统计学线索来了

项西行 北美新药科普历史网 2021-01-11

通知备用:如果以后读者无法再阅读到本公号的更新,可以去网易搜索同名的网易号。海外的读者也可以下载Telegram , 然后再手机浏览器中打开链接“https://t.me/joinchat/MvXTABj7X6uQxRjnNxaHmg”,点击“ Join Group”加入“北美新药科普历史网”的读者群。


这两天美国首都发生了大规模的聚会游行,要为川普总统讨回公道,示威者指控本次大选有大规模舞弊,把本属于他的胜利给偷走了,所以这个游行的主题就叫“制止偷窃”(Stop the Steal)!


而且这两天的网络空间中,统计学和数据分析也突然火了起来,一个本来没有什么人听说过的本福特定律 (Benford’s law)仿佛忽然成为显学,据说有人用这个定律发现了拜登和民主党团队大规模作弊的证据。


我对于自己不懂的东西一般不说话,如果非要说个一句半句的话,那要先看文献 。十年前专业的政治学期刊发了一篇这个主题的文章《本福特定律和选举舞弊之揭露》(那个年代还没有川普总统和对大选的普遍怀疑)。这篇文章的摘要里的最后一句话是这么说的: 

(本福特定律在检测选举舞弊)上的成功率,大概齐和掷硬币猜正反差不多,所以在检测舞弊上,往好了说是有问题,往坏了讲就是完全的误导。

Its “success rate” either way is essentially equivalent to a toss of a coin, thereby rendering it problematic at best as a forensic tool and wholly misleading at worst.



话虽如此,这并不代表统计学和数据分析在鸟瞰选民意愿的大趋势上,就真的无事可做了。

我现在展示的这个简单分析,特意另辟蹊径,避开已经被专业或二把刀数据师傅炒作滥了的几个摇摆州的数据,比如宾州,密歇根,威斯康星,亚利桑那,内华达和乔治亚,而是深耕于十几个根本上不了新闻的,被人遗忘了的州,他们是:

怀俄明,西佛吉尼亚,北达科他,俄克拉荷马,艾达华,阿肯色,南达科他,肯塔基,阿拉巴马,田纳西,犹他,密西西比,内布拉斯加,路易斯安娜,蒙大拿,堪萨斯,南卡莱罗纳,阿拉斯加,这18个州。

如果是对美国政治地理不熟悉的读者,可能对其中的大部分名字未必熟悉,这是正常的,它们大都是位于美国内陆中西部的一些较不发达的地区,肯定不如纽约,加州,德州,佛罗里达这样的地方有名,它们在近来半个世纪的历史上都是共和党的坚实票仓,大概在开票的半个小时内就把自己的选举人票贡献给了川普总统。

选这几个州,有这么几个考虑,第一,它们都是无可争议的红州,如果真的有大规模恶意选举舞弊的话,大概不会在这几个州发生,因为无论怎么折腾都翻不了盘,风险和收益绝对不成比例;第二,现在所有的质疑都是共和党人砸向民主党的,那么在这些共和党绝对掌握天下的地方,他们大概不会听任所谓的民主党“大规模舞弊”肆意发生在眼皮子底下吧。

从生物制药的角度来做一个比喻,我们可以用这些深红州的数据作为“阳性对照”,来推测摇摆州这些在放大镜下被反复检验的地方可能发生了什么。

下面这个图列出了民主党和共和党候选人这18个深红州中,分别在2016和2020获得了多少支持。


除了川普在这两次选举中都大胜之外这样的明显事实外,有心人还能看出一个细微而重大的趋势,那就是:在这18个州中,川普2020只在三个州里(阿肯色,犹他和密西西比)扩大了2016的取胜优势(右边红色),而在其他十五个州的胜利都缩水了(蓝色)。

15:3。

也许有人看到这些差异都比较小,比如川普2020在阿肯色取胜28点,2016年时27点胜出,会质疑这样的数字是否为统计学噪音。其实,单看一个百分点的差异也许意义不大,但是这样的差异如果为随机产生,那么我们应该能看到川普在大约半数的州里扩大了优势,而在剩下一半缩小。而实际情况并非如此。

统计学中有一个检测叫McNemar Test(卡方检测的一种),专门用来检测同一个体“集体变脸”趋势的显著性,川普胜利缩水VS扩大的这个15:3 , McNemar检测 P值为0.0047,也就是说,如果红蓝选民在2016和2020对川普的好恶选择大体不变,那么我们看到这个15:3的大幅度分野的概率,在100次里也不到一次。

换句话说,川普2020,即使是在红州,他挣来的新支持者也被拉来的仇恨给抵消和反超了,这是一个全国普遍现象。当然,这样此消彼长,在红州里不能改变大局,比如在怀俄明州,也是美国人口最少的州,才80万人口,川普2020胜出了43个点,而他2016则胜出46点,缩水了3点,so what?改变不了该州红彤彤的保守色彩。

但是,怀俄明有共和党人,民主党人和中立者,摇摆州也有这样的选民组成。怀俄明的3个百分点的出入,如果放在摇摆州诸如威斯康星,那就是改变天平走向的砝码。

希拉里2016在威斯康星输掉了0.7%, 而拜登2020则赢了0.6%。

也就是说,拜登在几个摇摆州的险胜,基本符合全国选民意愿的大致流动方向,并非是什么惊天动地的数据“分布异常”。

当然,不管是本福特定律还是McNemar检测,都不能作为大选有无舞弊的实锤。但是,政治观察家还真有粗判选举是否公正合法的工具,其中一个就是出口民调( Exit Poll)。

在选民投完票后,在门口拦住人家询问他投了谁,然后把出口民调的结果和最终的结果对比,不应该出现太大的出入。迄今为止,我们也没有看到任何出口民调和大选结果严重有出入的报道。

同时,出口民调也能揭示国家重要群体政治意向的分布。比如,和4年前比起来,以下是拜登支持率强劲增长的群体:

他在立场温和选民中的支持率增加了12点。

这大概是拜登在几大摇摆州里的胜利,以及在红州中缩小了差距的根本原因。

本文只是提供一个视角,绝对不是为了说服什么人。因为现在是一个信者恒信,不信者恒不信的政治空气。

我摆出数据证明:没有舞弊拜登也能拿到这样的成绩,但是肯定有人会说选票机器有问题,在红州也会有作弊的可能;我说拜托,美国的选举是地方事务,投票设备的采购测试都是当地的选举官员拍板,都是党性非常强的人士,他们为什么要选购对自己不利的有问题的器材,更何况机器和软件都要经过测试和QC;然后有人会说是全国系统性的软件被作假篡改,我说拜托,目前民主党中除了拜登胜出外,在参院的选举中大败,在众院小败,在地方立法机构也败,如果有如此神奇的作弊软件助力的话,怎么不帮一把这些失掉了工作的本党议员呢?特别是,参院共和党领袖,肯塔基的参议员Mitch Mcconnel, 以及南卡莱罗纳的参议员Linsey Graham, 这两位都堪称是民主党的眼中钉肉中刺,欲拔之而后快的,却都以两位数的优势连任了,难道作弊软件偏偏对他俩网开一面?

然后恒不信者会说,那肯定是又什么其他的作弊招数啦.......

我曾写过一篇文章讨论奥卡姆剃刀,说的是事情的真相往往是直白的,而很多引人入胜的阴谋论,则是背负了很多“大胆假设”的框架,负重不堪,漏洞百出。比如4年前被渲染的“加州的几百万非法移民投票”;今年的邮寄投票中成千上万的“死人投票”;大量选票被“丢弃”,某党印刷伪造大量选票;软件的系统性造假,几万某个候选人的选票一过电脑就变成另一党的了.....

等等等等,不一而足。

或者,我们可以用奥卡姆剃刀原则把这些噪音削了剃了:大选是这么个结果,也许就是因为川普总统这四年手法太极端了,抗疫太失败了,所以引发了温和选民的造反,就这么简单而已。

做不好就下台,不服就4年后卷土重来,美国200多年的政党轮换史,正是这样的,任你是什么样的统计定律也否认不了。

参考资料:

https://www.cambridge.org/core/journals/political-analysis/article/benfords-law-and-the-detection-of-election-fraud/3B1D64E822371C461AF3C61CE91AAF6D

https://www.nytimes.com/interactive/2020/11/03/us/elections/results-president.html

https://www.washingtonpost.com/graphics/2020/elections/exit-polls-changes-2016-2020/



通知备用:如果以后读者无法再阅读到本公号的更新,可以去网易搜索同名的网易号。海外的读者也可以下载Telegram , 然后再手机浏览器中打开链接“https://t.me/joinchat/MvXTABj7X6uQxRjnNxaHmg”,点击“ Join Group”加入“北美新药科普历史网”的读者群。
扫码关注我们扫码关注我们



特朗普的获胜概率为什么被低估了?奥卡姆剃刀:美国终于“承认”了吗?青岛三天检近千万人,有可能“全部为阴性”吗?美国种族骚乱背后的统计学陷阱对美中“零号病人”出现时间的最新探讨 从美国确诊病例“日增”十万谈起新冠肺炎疫情数据铺天盖地,我们却可能忽略了最重要的参数

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存