统计学和大数据

Table of Contents

统计学是关于收集、分析、解释、陈述数据的科学, 数学基础是概率论.

统计学研究的目的, 通常是从大量数据寻找规律性, 不同因素间的相关性, 以及可能存在的因果性. 找到相应规律后, 可以用它建立数学模型, 预估未来数据的发展和变化.

如何选定可能有关联的变量是个难题.

霍桑效应: 当被观察者知道自己成为被观察对象, 而改变行为倾向的反应.

1. 用好数据的五个步骤

  1. 设立研究目标, 比如我们利用数据来证实什么假说, 或者得到什么样的相关性. 有了目标, 才能够避免盲目使用数据的情况, 并且能够有意识地过滤数据中的噪音. 通常, 使用数据驱动的方法除了要准备一个待证实的假说, 还要准备一个可对比的备用假说, 比如你在证实药品有效性时, 备用的假说就是安慰剂同样有效. 统计的目的就是确认你的假说, 同时否定掉备用假说. 比如你要证明个人信息对推荐机票有效, 就要证明不使用个人信息时, 推荐机票无效, 而不是同样有效.
  2. 设计实验, 选取数据. 这些数据需要能够方便量化处理. 比如你要识别图像, 就需要将图像信息数字化, 便于计算机处理.
  3. 根据实验方案进行统计和实验, 分析方差. 很多人只是关注结果的均值, 而忽略方差. 比如你要想了解一种投资回报是否更高, 光看回报率是不够的, 还要衡量风险, 就是方差.
  4. 通过分析进一步了解数据, 提出新假说. 很多时候, 统计的结果不是证明你的假说有效, 而是证明它无效, 这时就要提出新假说, 重新验证.
  5. 使用研究结果. 这包括将你的统计结果用于产品, 也包括报告给别人. 对于后者来讲, 怎么报告其实很有讲究.