统计学和大数据
Table of Contents
统计学是关于收集、分析、解释、陈述数据的科学, 数学基础是概率论.
统计学研究的目的, 通常是从大量数据寻找规律性, 不同因素间的相关性, 以及可能存在的因果性. 找到相应规律后, 可以用它建立数学模型, 预估未来数据的发展和变化.
如何选定可能有关联的变量是个难题.
霍桑效应: 当被观察者知道自己成为被观察对象, 而改变行为倾向的反应.
1. 用好数据的五个步骤
- 设立研究目标, 比如我们利用数据来证实什么假说, 或者得到什么样的相关性. 有了目标, 才能够避免盲目使用数据的情况, 并且能够有意识地过滤数据中的噪音. 通常, 使用数据驱动的方法除了要准备一个待证实的假说, 还要准备一个可对比的备用假说, 比如你在证实药品有效性时, 备用的假说就是安慰剂同样有效. 统计的目的就是确认你的假说, 同时否定掉备用假说. 比如你要证明个人信息对推荐机票有效, 就要证明不使用个人信息时, 推荐机票无效, 而不是同样有效.
- 设计实验, 选取数据. 这些数据需要能够方便量化处理. 比如你要识别图像, 就需要将图像信息数字化, 便于计算机处理.
- 根据实验方案进行统计和实验, 分析方差. 很多人只是关注结果的均值, 而忽略方差. 比如你要想了解一种投资回报是否更高, 光看回报率是不够的, 还要衡量风险, 就是方差.
- 通过分析进一步了解数据, 提出新假说. 很多时候, 统计的结果不是证明你的假说有效, 而是证明它无效, 这时就要提出新假说, 重新验证.
- 使用研究结果. 这包括将你的统计结果用于产品, 也包括报告给别人. 对于后者来讲, 怎么报告其实很有讲究.