总体与样本
定义
总体(Population)是一组随机变量(Random Variable),可以理解为一种数据生成过程(Data Generating Process)。
在回归分析中,总体一般记作
样本(Sample)既可以在理论分析中(事前)看作一组随机变量,也可以在统计分析中(事后)看作一个数据集(Dataset)。
一般地,样本可以记作
常见地,样本可以记作
注意区别,
包含观测值 的所有自变量,为 列向量; 包含自变量 的所有观测值,为 列向量。
样本往往被假设为是独立同分布的(independent and identically distributed,i.i.d),即如果
违背独立同分布假设的情形:
- spatial
- time-series
- network
- clustered