我现在开着一个视频在写这个,那个视频全长度213分钟,内容则是一个男子念了一遍TITIN(肌联蛋白)的系统命名法名称,我觉得听着这个写东西很有感觉。很多弹幕吐槽,这种单词意义何在,不过其实还是有意义的,TITIN虽说方便,但是你只是看着这个单词怎么可能知道整个蛋白的结构式,虽说节省下来的时间可观,肯定没有哪个傻子和别人说话不用TITIN而是去念三个多小时结构式,但毕竟失去就是失去,没必要回避。
统计学这个学科,目的就是通过部分研究整体,可以说是“偷懒”用的学科,科学研究,媒体报道,都需要用到统计,我们没法回避它,因为我们不可能去调查每一个分子,每一个人,每一颗行星,但是,我们必须正视,当使用统计的数据来推导或者佐证结果时,我们面对的是,不可避免的误差和失真。
1、误差,我们都知道一个均匀硬币投掷之后为正反面概率都是二分之一,但不可避免的我们的统计结果基本不可能是1:1的正面反面,因为概率只是事前的预测,事后概率毫无意义,一个病人据推测死亡率只有10%,但是他就是死了,亲属跑去和医院闹,闹可以,你闹的理由只能是他这10%的预测真是通过严密的分析得出的吗,他的治疗中有出问题吗,而不是去转嫁你的倒霉。
2、失真,信息本身是对事实的概括,所以阅读信息的每个人需要对信息进行逆向加工,这个加工者可以是杂志的编辑,也可能是一个统计表格的直接读者,而逆向加工者的理解方式,直接影响到他对事实的观察视角。淘宝上最近似乎有个“真爱测试”即为你给他点钱,然后你的男友会有一个美女网友来诱惑他,据说成功率有70%?(没认真记,这不是重点)好的,其实这并不算是统计本身的问题,因为这种由店主做出的成功率除非是恶意欺骗不然应该是用所有用户的数据计算的,但是这能说明“男人都不是好东西”这种结果吗,其实不能,因为调查样本还是有问题,这里是“会去买人来测试男友专一性”的女性,而不是“普通的”女性,这是一种问题。曾经呢,我看到一个微博:“女性每喝一杯酒,患乳腺癌的几率就增加6%”,喵的你倒是告诉我这是怎么加的6%啊,难道是利滚利?反正含糊不清让人猜,反正语意不清的“科普”文章我全都是当作星座文章之类的东西去看待的。之类的还有“平均”,来,我们猜猜这个平均是用哪些人用什么算法平均出来的。这些是阅读理解方面的问题,下一个,是因果。我曾经发过一条说说:“中国台湾曾做过一个调查人们对避孕工具的使用相关因素的大规模研究,其中研究人员收集了大量的有关环境和行为变量方面的数据。结果有趣的是,在众多数据中的确脱颖而出了一个变量,与使用避孕工具的相关性最强,这就是——家庭中的家用电器(烤箱、风扇等等)的数量。看来我们可以得出结论:在高中发放免费的烤箱可以有效解决青少年的怀孕问题。”这下倒是不怎么需要解释,相关性不能代表两个数据有直接的因果关系,而两个有因果关系的却可能表现的十分隐晦,而事实上这也是媒体常常误读科技新闻的原因之一。
每个人都必须谨慎谨慎再谨慎。我刚开始写这个文章时,Coursera给我的邮箱发来一份邮件,结语是“keep learning”,只能如此了。永远别指望有什么东西能告诉你一切。
当然,捷径难寻并不只是统计中这些。
网友评论