总体与样本

定义

总体(Population)是一组随机变量(Random Variable),可以理解为一种数据生成过程(Data Generating Process)。

在回归分析中,总体一般记作 (Y,X),其中 Y 是一个随机变量,X 是一个随机变量或随机向量。随机向量 X 记作 X=(X1,X2,,Xk)T

样本(Sample)既可以在理论分析中(事前)看作一组随机变量,也可以在统计分析中(事后)看作一个数据集(Dataset)。

一般地,样本可以记作 {(Yi,Xi):i=1,,n},其中 (Yi,Xi) 称为一个观测值(Observation)。随机向量 Xi 表示 (X1i,X2i,,Xki)T

常见地,样本可以记作 (Y,X)。其中,Y=(y1,y2,,yn)T 是因变量数据向量;X 是自变量数据向量或数据矩阵。数据矩阵 X 的每个列分块是一个自变量数据向量,记作 X=(X1,X2,X3,,Xk),其中

Xj=(x1j,x2j,,xnj)Tj=1,,k

注意区别,Xi 包含观测值 i 的所有自变量,为 (k×1) 列向量;Xj 包含自变量 j 的所有观测值,为 (n×1) 列向量。

样本往往被假设为是独立同分布的(independent and identically distributed,i.i.d),即如果 (Y,X)F ,则 (Yi,Xi)F ,且各观测值之间相互独立。

违背独立同分布假设的情形: