当前位置 : 玉竹加盟网 >每日关注 >日本倾倒核废水，为何没有引起国际社会的大力反对？

日本倾倒核废水，为何没有引起国际社会的大力反对？

玉竹加盟网 2023-06-30 11:51:52

【导读】数据造假的三种常见形态！2015年06月2日行业资讯日常生活工作中，处处都会与数据打交道，但你知道数据是会“说谎”的，即你看到的数据结果并不是事实。本文介绍一些常见的说谎场景以及如何避免。一、图表欺骗图表通常用来增强需要文字和数据的说服力，通过可视化的图表更容易让受众接受信息。但图表有时候会表现的不是数据的本质:1.图表拉伸如果没有特殊用途，通常图表的长(横轴)与高(纵轴)的比例为1:1到1:2之...

数据造假的三种常见形态！

2015年06月2日

行业资讯

日常生活工作中，处处都会与数据打交道，但你知道数据是会“说谎”的，即你看到的数据结果并不是事实。本文介绍一些常见的说谎场景以及如何避免。

一、图表欺骗

图表通常用来增强需要文字和数据的说服力，通过可视化的图表更容易让受众接受信息。但图表有时候会表现的不是数据的本质:

1.图表拉伸

如果没有特殊用途，通常图表的长(横轴)与高(纵轴)的比例为1:1到1:2之间，如果在这个范围之外，数据现实的结果会过于异常。比如:

150602095039-1113-0

2.坐标轴特殊处理

在很多场合下，如果两列数据的取值范围差异性过大，通常在显示时会取对数，这时原来柱状图间的巨大差异会被故意缩小。通常，严谨的分析师在讲解之前会进行告知。比如:

150602095039-4W2-2

3.数据标准化

数据标准化也是一个让数据落在相同区间内常用的方法，常用Z标准化或0-1标准化，如果不提前告知，可能会误以为两列数据取值异常接近，不符合实际业务场景，比如:

150602095039-5Z2-4

隐秘层次:★★☆☆☆

破解方法:询问分析师的图表各个含义，了解基本图表查看常识。

二、数据处理欺骗

数据处理中的欺骗方法通常包括抽样方法欺骗、样本量不同、异常值处理欺骗等。

1.抽样方法欺骗

整体样本的维度，粒度和取数逻辑相同的情况下，不用的样本抽样规则会使数据看来更符合或不符合“预期”。比如在做用户挽回中，假如做的两次活动的抽样样本分别是最近6个月未购物和最近6个月未购物但有登陆行为的用户，不用做什么测试，基本上可以确定后者的挽回效果更佳。要识破这个“骗局”只需要询问数据取样方法即可，需要细到具体的SQL逻辑。

2.样本量不同

严格来说样本量不同并不一定是故意欺骗，实践中确实存在这种情况。(遇到这种情况可以用欠抽样和过抽样进行样本平衡)样本量不同分为两种情况:

样本量数量不同。比如要做效果差异对比，第一步是做效果比对，假如两个数据样本量分别是几千和几万的级别，可比性就很小。尤其是对于样本分布不均的情况下，数据结果可信度低。

样本主体不同。这是非常严重的数据引导错误，通常存在于为了达到某种结果而故意选择对结果有利的样本。比如做品类推广，一部分用户推广渠道为广告，另一部分是CPS可以遇见相同费用下后者的效果必然更好。

相同样本不同的客观环境。比如做站内用户体验分析，除了用随机A/B测试以外，其他所有测试方法都没有完全相同的客观环境，因此即使选的是相同样本，不同时间由于用户，网站本身等影响，可信度较低。

3.异常值处理欺骗

通常面对样本时需要做整体数据观察，以确认样本数量、均值、极值、方差、标准差以及数据范围等。其中的极值很可能是异常值，此时如何处理异常值会直接影响数据结果。比如某天的销售数据中，可能存在异常下单或行单，导致品类销售额和转化率异常高。如果忽视该情况，结论就是利好的，但实际并非如此。通常我们会把异常值拿出来，单独做文字说明，甚至会说明没有异常值下的真实情况。

隐秘层次:★★★☆☆

破解方法:在跟数据分析师沟通中，多询问他们在数据选取规则，处理方法上的方法，如果他们吞吞吐吐或答不上来，那很有可能是故意为之。同时，业务人员也要增强基本数据意识，不能被这种不可见的底层错误欺骗。

三、意识上的欺骗

这种欺骗是等级最高也是最严重的欺骗和错误，通常存在于数据分析师在做数据之前就已经下结论，分析过程中只选取有利于证明其论断的方法和材料，因此会在从数据选择，处理，数据表现等各个方面进行事实上的扭曲，是严重的误导行为！数据分析师需要有中立的立场，客观的态度，任何有立场的分析师的结论都会失之偏颇。

隐秘层次:★★★★★

破解方法:在跟该分析师沟通中，查看其是否有明显立场或态度，如果有，那么该警惕；然后通过上面的方法逐一验证。

综上，当你遇到以下数据情形，就需要警惕数据的真实性了:

数据报告从来不注明数据出处，数据时间，数据取样规则，数据取得方法等。现在市场上很多报告都属于这一类。

数据报告在做市场调研中说明全样本共1000，其中北京可能只有100，基于这100个样本出来的结论显然不可信。事实上很多市场研究报告就是这样出来的。

数据报告中存在明显的观点，对于事物的分析只讲其优势或劣势，不全面也不客观。现在很多互联网分析师就是属于这类，大家注意辨别。

PS：本文摘自《中国统计网》

这些只是入门级的数据造假方法，但已经足以让非“专业人士”头痛半天了。

再来看看数据造假方面的经典著作《统计数字会撒谎》的基本内容（美国统计学家达莱尔.哈夫著）：

日常工作生活中，有常见的八种误导方式。

1、内在有偏的样本

先从 1949 年的一篇新闻报道说起，报道说，「1924 级的耶鲁毕业生，平均年收入为 25111 美元」。这在当时是一个非常高的收入，会让你感觉，只要把孩子送进耶鲁大学，他的下半生一定富贵。可真是这样吗？

常识告诉我们，25 年后，能够取得联系的人并不多。而且许多人不会回答涉及隐私的问卷。所以这个收入的数据，局限在一个特定的样本上，即能够取得联系，并愿意回答问卷的耶鲁学生。那么，这个样本真的有代表性吗？能代表没联系上，以及没回答的毕业生吗？而且还要假设，他们说的都是真话。也就是说，这个统计样本，是有偏向的。所以，为了确保统计有价值，根据抽样得出的结论，一定要采用具有代表性的样本，即完全遵循随机原则，从总体中选出样本。但因为这样的难度很大，并且十分昂贵，所以目前民意调查和市场研究，会采用分层随机抽样，而分层抽样的规则，会最终影响调查的结果。典型的如美国大选民意调查，往往和结果有较大的误差。所以，看统计结果时，务必要了解它的样本是如何选择的。

2、精心挑选的平均数

平均数的算法，有三种，而且结果完全不一样，但都是正确的算法。以一个小区为例，如果你是房产销售，想让购房人认为，小区住户平均收入很高，那么就会用算术平均数计算平均收入。如果为了降低税率，宣称小区收入低，支付不起各种上涨的费用，那么就会用众数，即出现最频繁的数字。这往往是小区占比最多的低收入人群的收入。而中位数，则在算术平均数和众数之间。

所以对于均值，一定要非常谨慎，避免被误导。

3、没有披露的数据

如某广告标题：「用户反映使用多克斯牌牙膏，将使蛀牙减少 23%」。结论出自一家信誉良好的独立实验室，并且还经过第三方机构证实，听上去是一款非常好的产品。可如果你看下广告下方一排小字，可能写着「被测试用户 12 人」。实际上，绝大多数广告商还会索性将类似的文字删除。如一种叫柯迪斯博士的牙粉，宣传治疗龋齿获得极大成功，可实验仅仅建立在六个案例之上。所以，在被告知某个调查结果时，记得问一句：为了得出这个结论，你调查了多少名被访者？

4、毫无意义的差别

某知名杂志，曾经做过一个不同品牌香烟，尼古丁及其他有害物质的含量的研究，并将结果刊登。得出的结论是，无论你吸什么牌子的香烟，对身体的危害，不会有太大的差异。可是，这篇文章中，有害物质含量排名最后的香烟厂家，却以此调研作为广告，大肆宣称，国家级杂志组织实验表明，自己的香烟有害物质含量排名最后。而研究原文中关于各个品牌的差异并不显著的表述，厂家却只字未提。正如同五十步笑百步，在比较相差不大的数据，大部分时候没有任何的意义。毕竟所有的抽样统计，都会有误差。只有这些差别大到足够有意义时，才能称之为差别。

5、令人惊奇的图形

人们对于数字，似乎有一种天生的畏惧，因而在很多广告中，都会采用画图的方式。最常见的，就是直线图。在显示趋势时，直线图非常有用。书中，用同一组数据，做出了三张看上去完全不一样的图表。如将图表的纵轴，省略一半，会让原来缓慢上升，看上去很平缓的曲线，显得有非常明显上升；如改变横坐标与纵坐标的比例关系，将纵坐标的每一个刻度缩减为原来的 10%，那这时，曲线将上涨得更加猛烈。可见，完全相同的数据，却可以给你带来了完全不一样的视觉幻觉。所以，阅读统计图时，一定要详细了解横坐标和纵坐标的数值。

6、一堆图形的滥用

柱形图是一种非常便捷常用的方法，但是柱形图也具有欺骗性。如 A 国家的收入，是 b 国家的两倍，那么传统的柱形图我们会看到，A 国家柱形的长度，是 b 国家柱形长度的两倍。可是，别有用心的人，会用三维的象形图。由于物体的三维效果，往往变成了 2 乘 2 乘 2，即 8 倍的视觉效果，不经意间，就扭曲了真实。所以，看象形图时，一定要小心，数字是 2:1，可能视觉效果却是 4:1，甚至 8:1。毕竟在大多数的时候，视觉效果起着决定性的作用。

7、不完全匹配的资料

如果你想证明一件事，却发现没有能力办到，那么就试着解释其他相关的事情，并假装它们是一回事，这样很可能会把人唬住。如，美国与西班牙交战期间，美国海军的死亡率是 9‰，而同一时期，纽约市居民的死亡率是 16‰。后来，海军征兵人员，就用这些数据来证明，参军更加安全。这些统计数据，看上去，似乎还真是这样，可你总觉得似乎有点不对劲，打仗怎么可能死亡率比在城市低？

原因在于，这两组对象根本不具备可比性。海军主要是由那些体格健壮的年轻人组成，而城市居民则包括婴儿、老人、病人这些死亡率较高的群体。两个完全无法比较的数据，并不适合放在一起对比，得出参军更安全的结论。收集不相关资料，把完全不同的两件事混淆在一起，就像挂羊头卖狗肉一样。

8、相关关系的误解

相关关系的误解，是我们常见的一种统计误区，如，英国一座岛屿上的土著居民发现，健康人身上总有一些跳蚤，而那些即将死亡的人身上通常没有跳蚤。于是他们得出结论，跳蚤使人体健康。之后，甚至有人依据这个现象在医学杂志上发表了论文。直到后来，细心的观察者最终发现了真相。原来几乎每个土著居民身上都有跳蚤，只是当人们发烧时，随着体温上升，跳蚤不能承受高温，就离开了。

还有人因为冰淇淋销售数据和溺水死亡人数同步提高，得出结论——冰淇淋销售火爆，会导致溺水死亡的人数显著提高。可事实上，这是因为，夏天时，冰淇淋销量高，同时夏天游泳的人多，溺水死亡的概率大，这两者它并没有相关关系，只是有着相同的趋势而已。

所以，两个事物之间有相同的趋势，并不能用于说明，其中一个将引起另一个的变化。

了解了八种常见的误导方式。接着我们来说第二个要点：统计资料是如何被操纵的。

许多统计资料的歪曲和被控制，并不是资深统计学家所为。而是出自资深统计学家之手的完善资料，最终被销售人员、营销专家、记者或广告撰稿人扭曲、夸张、简化或刻意地进行挑选。

美国普查局的年度分析中写道，「美国家庭的平均年收入，是 3100 美元」。可是由拉塞尔塞奇基金会发布的一篇新闻中，这个数据却是惊人的 5004 美元。那为什么这个数据跟普查局的数据差距这么大？原来，普查局用的是中位数，这是一种合理的计算方法。而拉赛尔赛奇基金创造了一个假想的家庭，他们将美国居民的总收入除以总人口数，得到人均 1251 美元，所以，一个四口之家的总收入，1251 乘以 4，5004 美元。

这种奇怪的算法，在两个方面进行了夸张，一方面，他使用的算术平均数，而不是更具代表性、偏差相对较小的中位数；另一方面，他假设家庭的收入和人口数成正比，实际上，四口之家的财富绝不一定是两口之家的两倍。这也正如我们之前所说的，对那些未加解释的平均数，一定要谨慎。

为了使最声名狼藉的统计资料，看上去更有分量，更精确，小数的使用也能骗取人们的信任感。如询问 100 个人昨晚的睡眠时间，然后宣布人们平均每天睡眠 7.831 小时。听上去就给人非常专业的感觉。可如果你说 7.8 小时，或差不多 8 小时，就失去动人的准确性。即使这点差距，并没有什么意义。

此外，百分数也给误解提供了肥沃的土壤，和小数一样，它也能为不确切的事物，蒙上仿佛精确的面纱。如「现在就购买你的圣诞礼物，你将节省 100%」，这则广告，听上去就像圣诞老人免费的馈赠，但实际上它混淆了比较的基础，相对于原来的价格，价格只缩减了 50%。虽然对于打折后的价格而言，减少量确实是 100%。但这与广告上的内容可不一样。这就是变换基数所产生的幻觉。

此外，将一些看似能直接相加，却不能这样操作的事情加在一起，会产生大量的欺骗和隐瞒。如《纽约时报》书评有这么一段，种植和加工成本在最近十年上升了 10%-12%，材料成本攀升了 6%-9%，销售及广告成本上升了 10% 以上，将所有这些加起来的话，总成本至少上升了 33%。听上去很有说服力。可是换个角度想下，你要买的东西，涨价了 5%，你买了 20 个，难道一共要多付了 100%？

统计不仅是科学，还是一门艺术。统计方法的选择会影响我们对事物的判断，数据是否合理使用也依赖统计工作者的意志。但在商业活动中，统计工作者不大可能选择不利于自己的方式，就像撰稿人在描述赞助商的产品时，不会使用「易碎，价格低贱」的字眼，而是会说「轻便，经济实惠」。

说完第二个要点，我们总结一下：各种统计操作，在我们的日常工作生活中非常普遍，我们在报纸、杂志和书籍中看到统计资料、结论以及数据时，应该经过认真地思考后再接受他们。

那么接下来我们就说第三个要点，怎样凭双眼就能识破虚假的统计资料，并揭开他们的老底。这只需要通过五个问题。

1、谁说的？

首先要寻找的是偏差。出于学术，名誉和收入的考虑，统计数据工作者，都有可能产生偏差。有些是有意识的偏差，这种偏差可能是错误的陈述，可能是不易被揭穿的含糊之辞。其次测量标准的改动和使用不正确的测量方法等都会产生偏差。当某个权威人士被引用时，要弄清楚到底是因为资料内容确实符合，还是仅仅是要扯上权威人士的大名。

2、他是如何知道的？

我们需要知道这些统计数据是如何产生的？如样本是否有偏，样本是否足够大，从而能解释问题？观察值是否足够多，从而能保证结论的可靠性。

3、遗漏了什么？

通常你并不会被告知包含了多少观测值，特别是当信息来源于与信息存在利害关系的一方时。当均值与中位数相差甚远时，需要注意那些没有标明类型的平均值。很多数据因为没有比较，而变得缺乏意义。有时仅给出百分数，却缺少原始数据，也能造成欺骗。看到一个指数时，你或许应该关心，指数的基期是什么。

4、是否有人偷换了概念？

在分析统计资料时，请留心从搜集原始资料到形成结论的整个过程，是否存在概念的偷换。正如疾病案例的增多，不能等同于发病率提高。民意调查中的获胜也并不等同于竞选时的获胜。读者对全球时事文章的偏爱也并不说明，如果杂志刊登此类文章会提高杂志销售量。此外，数据统计口径的变化，也会形成概念偷换的效果。

5、这个资料有意义吗？

如果接触到的资料是建立在未经证实的假设基础之上，你需要发问，这个数据是否有意义。 20 世纪 50 年代，《社会保障法》修正案的听证会上，有一个争论是，既然预期寿命大约只有 63 岁，将社会保障计划中的退休年龄规定为 65 岁是惺惺作态。可当时，美国的这个年龄数据，是根据 1934-1941 年的生命周期表计算的，当时还是二战期间，而且也已经过时了。实际的平均年龄，早就超过了 65 岁。

上面为你讲的是这本书的第三个要点，即看到任何统计数据，尤其是需要由此作出重大决策时，不妨从这五个问题入手，避免被错误的数据忽悠。

大家可以根据这篇著作给出的的情况试着分析一下，那几个替日方洗白的高赞答案有什么问题，不过对于非专业人员来说这同样是让人颇感挠头的事情，何况这里面还牵扯到政治因素，普通人确实不好过问。

而这次的事件也再一次印证：推崇和狐假虎威，真的经常是看上去一模一样的。

但是，借老虎来吓唬其它动物的“狐狸”，如果居然觉得自己就是老虎，那么一旦老虎发怒，被先吃掉的一定是在老虎嘴边的自己，而不是那些被吓跑的动物。

既然“科学”现在被捧得如此之高，那么就应该知道，它一旦发怒的后果是怎么样的。否则这种需要它时把它推上神坛，却实际上不把它放在眼里的行为，迟早要付出极为惨重的代价。

Tags: 废水倾倒大力为何反对

上一篇：如何看待美国务院发言人用「赞赏」一词评价日本核污水排海事件？

下一篇：申论热点事件~~九年义务教育漏网之鱼的流量艺人的素材和相关评论

免责声明：该文由项目方自行发布，玉竹加盟网仅作为信息展示平台，以上信息不代表玉竹加盟网的观点和立场。市场存风险，投资需谨慎！

我要咨询

免费咨询微信：yuzhuw666

留言： 姓名： 手机：

请填写或选择常见问题

项目很好，请尽快联系我详谈。
请问我所在的地区有加盟商了吗？
我想详细的了加盟流程，请联系我！
留下邮箱，请将详细资料邮件给我
代理/加盟鱼你相伴能得到哪些支持？

日本倾倒核废水，为何没有引起国际社会的大力反对？

这些只是入门级的数据造假方法，但已经足以让非“专业人士”头痛半天了。

再来看看数据造假方面的经典著作《统计数字会撒谎》的基本内容（美国统计学家达莱尔.哈夫著）：

我要咨询

请填写或选择常见问题

相关动态