最近这段时间总有小伙伴问小编罗素悖论(罗素悖论内容) 是什么,小编为此在网上搜寻了一些有关于罗素悖论(罗素悖论内容) 的知识送给大家,希望能解答各位小伙伴的疑惑。
(资料图片仅供参考)
罗素悖论(罗素悖论的内容)
和数据打交道越多,就越有可能对数据产生绝对的信任感。但事实上,在实际业务中,数据往往会“说谎”。今天,我将向你介绍数据分析中的三个常见悖论:
辛普森悖论是数据分析中最常见的悖论之一。举个最实际的例子:
雅宝某学期期末考试,有数学、物理、化学三科。a的数学比B高2分,物理比B高15分,化学比C高3分。A的总分比B的高吗?
很多人会说,这不是废话吗?问题太简单了。当然A的总分比B高!
其实很可能A的总分比B低。不要惊讶。我们不妨看看另一个例子:
许多人喜欢看NBA比赛。近年来,詹姆斯和库里都给球迷留下了深刻的印象。有勇有谋,詹姆斯和库里的两分和三分投篮命中率如下表所示:
其中包括:
两点命中率=两点命中/两点投篮* 100%
三分球命中率=三分球命中次数/三分球出手次数* 100%
那么,这场比赛詹姆斯的投篮命中率比库里低吗?
投篮命中率=(两分球+三分球)/(两分球+三分球)* 100%
很多人也会说,这不就和上面期末考试的题一样简单吗?不言而喻,詹姆斯的投篮命中率肯定比库里低!当我们拿出详细的数据时,它看起来真的是这样的:
但这真的是废话吗?再来看看这两兄弟在另一场比赛中的表现:
这场比赛,詹姆斯和库里,谁的投篮命中率高?如果这次你还说这是废话,当然库里投篮命中率高,那你这次就没那么幸运了。我们来看看详细的数据:
是的,你没有看错。詹姆斯的两分命中率比库里低,三分命中率比库里低,但综上,詹姆斯的命中率比库里高!
问题来了。这是怎么回事?这不符合常识!
这种“非理性”的现象在数据分析领域时不时会遇到,业内有一个专门的术语:辛普森悖论。
具体来说,在进行小组研究时,有时在每个小组比较中占优势的一方有时在总体评价中是失败的一方的“悖论”现象,称为辛普森悖论。
现实中的许多数据,通过辛普森悖论,显示出导致错误的结论。比如现实中,多做多错,少做少错,不做就是好的。
一个经常犯错的人,并不能证明他就不如犯错少的人。可能是他花更多的时间在更复杂更容易出错的工作上。
罗素悖论属于数理统计中永远无法回避的悖论。这个悖论简单、美丽、奇特,甚至引出了第三次数学危机的解决。
罗素悖论的准确表述应该是:
如果有一个 *** 由所有不属于自身的 *** 组成,即A = {x | x x},那么A包含在A中是否成立?如果为真,则不符合项X不属于A;而如果A不包含在A中,那么X不属于A。
罗素怕很多人理解不了这个悖论,所以给出了一个通俗的版本:
假设一个城市的人都是理发师给他们理发,理发师突然说:“我只给这个城市不自己刮胡子的人刮胡子!”然后,别人对理发师说:那你自己刮胡子吗?
如果他自己不刮,那么他就属于“不刮自己的人”,按照他的说法,他会自己刮;如果他自己刮胡子,就属于“自己刮胡子的人”。据他说,他不应该自己刮胡子。
当不同组的数据合并后,每个组原有的一些规律就会消失。当这种情况发生时,合并后呈现的新法律甚至可能与各个群体原有的法律相违背。
比如某一种治疗方法,在不同的组里对患者的身体恢复是有害的,但是当我们把所有组的数据放在一起看,就会发现其实对患者的身体恢复是有帮助的。
怎么发生的?
当各组的构成差异较大时,可能会出现上述现象。
比如,如果选择了患者数量,以至于两组试验的患者构成差异很大(老人、儿童、成人的比例差异很大),简单地将数据结合起来,就会得出有害治疗变成有益治疗的结论。
假设有一个双盲试验(受试者和研究者都不知道哪些受试者属于对照组,哪些属于实验组)。患者分为两组,每组120人,但两组患者年龄结构差异较大(之一组分为10、20、30、60人,第二组分为60、30、20、10人)之一组患者会接受治疗,第二组患者不接受治疗。
总的来说,结果表明治疗对患者是有益的,接受治疗的患者的恢复率高于未接受治疗的患者。
但是,当你深入研究两组中的每一个患者群体时,你会发现,在所有的患者群体中,没有接受治疗的患者痊愈率是上升的。
我们注意到每组中不同年龄的患者数量不同,甚至差异很大,这就是为什么我们得到了错误的结果。在这种情况下,如果简单地把两组数据结合起来,很容易得出错误的结论。
\