3种类型的数据垃圾

                                                                       

要点

  • 在处理信息时,错误的输入会产生误导性的输出.
  • 如果某些关键细节不准确,那么我们从中吸取的教训就会受到影响.
  • 某些课程可能会获得数据批准,但这并不意味着它们不会过期.

更多信息有助于决策……理想情况下.但它也会让事情变得更糟吗?

在处理信息时,一个著名的概念是垃圾输入,垃圾输出.错误的输入会产生误导性的输出.但重要的是要承认并非所有的垃圾都是一样的.例如,在回收时,我们会进行分类,以便并非所有垃圾都得到相同的处理.不同的类型需要不同的方法.

需要考虑三个主要问题:

1.不准确

如果我们有大量信息,但数据中存在报告或测量错误怎么办?例如,成功故事可以装饰,并取决于谁在讲述这个故事.如果某些关键细节不正确,那么由此产生的教训就会受到影响.

为了缓解这个问题,我们需要评估测量误差的性质,并相应地调整我们对结果的解释.如果错误很大,我们可能不得不回到绘图板,寻找更准确地代表情况的细节.

2.偏差

如果我们拥有的数据是准确的,但缺少某些信息怎么办?例如,我们对成功的了解可能多于失败,后者往往是隐藏的.我们也可以观察结果,但不能观察其背后的过程.一些重要的细节可能一开始就很难衡量,例如客户满意度或员工忠诚度.

为了缓解这个问题,我们需要了解缺失的信息,然后估计其对结果可能产生的影响.如果某些方面被完全忽略,我们需要发现它们并将它们的详细信息添加到分析中,以了解更大的图景.

3.无关

如果我们拥有的数据既准确又完整,但有关过去的信息并不代表未来呢?如果有很多噪音,那么我们的发现对预测没有多大帮助.或者如果发生了戏剧性的变化,那么过去发生的事情就会过时.但我们事后获得的知识可能会让我们对自己的前景过于自信.

为了缓解这个问题,我们需要考虑到基于数据的见解可能无关紧要.某些课程可以通过数据批准,但这并不意味着它们不会过期.并且仅仅因为我们可以在事后非常详细地分析情况并不能为我们提供类似预言的能力来应对即将到来的冲击和变化.

让事情变得更加复杂的是,这三个问题——不准确、偏见和不相关——并不是相互排斥的.它们可能同时出现并导致误解,同时提供更好理解的错觉.

据报道,马克吐温说:“数据就像垃圾.在你收集它之前,你最好知道你要用它做什么."但这还不够.为了做出更明智的决定,我们还应该检查我们正在收集的可能类型的垃圾.

参考资料

塔勒布,N. N. (2008).第四象限:统计极限图.边缘原创文章,边缘.

                                               
0
订阅评论
提醒
0 评论
内联反馈
查看所有评论