概统 复习随笔

概统复习笔记

两两独立但不相互独立

例1

四张卡牌,分别写有2,3,5,302, 3, 5, 30,随机抽取一张,定义事件AA为取出的数字是22的倍数,事件BB为取出的数字是33的倍数,事件CC为取出的数字是55的倍数,则有

P(A)=P(B)=P(C)=12P(AB)=P(BC)=P(CA)=14=12×12P(ABC)=14P(A)P(B)P(C)\begin{align*} P(A) = P(B) &= P(C) = \frac{1}{2} \\ P(AB) = P(BC) &= P(CA) = \frac{1}{4} = \frac{1}{2}\times \frac{1}{2} \\ P(ABC) = \frac{1}{4} &\neq P(A)P(B)P(C) \end{align*}

例2

连续独立抛一枚质地均匀的硬币两次,AA代表第一次正面向上,BB代表第二次正面向上,CC代表一正一反,则

P(A)=P(B)=P(C)=12P(AB)=P(BC)=P(CA)=14=12×12P(ABC)=0P(A)P(B)P(C)\begin{align*} P(A) = P(B) &= P(C) = \frac{1}{2} \\ P(AB) = P(BC) &= P(CA) = \frac{1}{4} = \frac{1}{2}\times \frac{1}{2} \\ P(ABC) = 0 &\neq P(A)P(B)P(C) \end{align*}

条件独立与独立无关

条件独立不蕴含独立

对于任意非空事件A,BA, B有:

P(ABB)=P(AB)P(B)=P(AB)P(AB)P(BB)P(AB\,|\,B) = \frac{P(AB)}{P(B)} = P(A\,|\,B) \equiv P(A\,|\,B)P(B\,|\,B)

因此它们都在条件BB下独立,显然不一定A,BA, B独立

独立不蕴含条件独立

对于独立事件A,BA, B,满足C=ABΩC = A\cup B \subsetneq \Omega,则有:

P(ABC)=P(ABC)P(C)=P(AC)P(BC)P(C)P(AC)P(BC)P(C)2=P(AC)P(BC)P(AB\,|\,C) = \frac{P(ABC)}{P(C)} = \frac{P(AC)P(BC)}{P(C)} \neq \frac{P(AC)P(BC)}{P(C)^{2}} = P(A\,|\,C)P(B\,|\,C)

泊松分布与指数分布

泊松分布P(λ)P(\lambda)为离散型分布,其PMF为:

P(X=k)=λkk!eλP(X = k) = \frac{\lambda^{k}}{k!}e^{-\lambda}

其数字特征为:

E(X)=Var(X)=λE(X) = Var(X) = \lambda

而指数分布Exp(λ)Exp(\lambda)为连续型分布,其PDF为:

f(x)=λeλxf(x) = \lambda e^{-\lambda x}

其数字特征为:

E(X)=1λVar(X)=1λ2E(X) = \frac{1}{\lambda}\quad Var(X) = \frac{1}{\lambda^{2}}

尾概率为:

P(X>x)=eλxP(X > x) = e^{-\lambda x}

指数分布与泊松分布为对同一事件的不同描述,指数分布为两次发生这一事件之间的时间间隔(连续),泊松分布为固定时间段内发生事件的次数(离散)

全期望公式

E(Y)=E(E(YX))E(E(g(X)YX))=E(g(X)E(YX))\begin{align*} E(Y) &= E(E(Y\,|\, X)) \\ E(E(g(X)Y\,|\, X)) &= E(g(X)E(Y|X)) \end{align*}

条件期望是均方误差意义下的最优预测,即g\forall\, g

E((Yg(X))2)E((YE(YX))2)E((Y - g(X))^{2})\geq E((Y - E(Y|X))^{2})

矩母函数与矩

nn阶原点矩为矩母函数的nn阶导数

E(Xn)=MX(n)(0)E(X^{n}) = M_{X}^{(n)}(0)

相对应的标准矩为:

E((Xμ)n)=k=0nCnkE(Xk)μnk=k=0nCnkMX(n)(0)μnk\begin{align*} E((X - \mu)^{n}) &= \sum\limits_{k=0}^{n}C_{n}^{k}E(X^{k})\mu^{n-k} \\ &= \sum\limits_{k=0}^{n}C_{n}^{k}M^{(n)}_{X}(0)\mu^{n-k} \end{align*}

概率不等式

Markov

若随机变量X0X\geq 0,则a>0\forall\, a > 0

P(Xa)E(X)aP(X \geq a) \leq \frac{E(X)}{a}

Chebyshev

若随机变量XX方差存在,则:

P(XE(X)a)Var(X)a2P(|X - E(X)| \geq a) \leq \frac{Var(X)}{a^{2}}

Chernoff

XX任意,则a>0,t>0\forall a>0, t>0

P(Xa)E(etX)etaP(X \geq a) \geq \frac{E(e^{tX})}{e^{ta}}

Hoeffding bound

随机变量列Xi[ai,bi]X_{i} \in [a_{i}, b_{i}],记X=i=1nXiX = \sum\limits_{i=1}^{n} X_{i},并记μ=E(X)\mu = E(X),则:

P(Xμt)exp(2t2i=1n(aibi)2)P(Xμ+t)exp(2t2i=1n(aibi)2)\begin{align*} P(X \leq \mu - t) &\leq \exp\biggl(-\frac{2t^{2}}{\sum\limits_{i=1}^{n}(a_{i} - b_{i})^{2}}\biggr) \\ P(X \geq \mu + t) &\leq \exp\biggl(-\frac{2t^{2}}{\sum\limits_{i=1}^{n}(a_{i} - b_{i})^{2}}\biggr) \end{align*}

Multiplicative-form Chernoff Bound

随机变量列Xi[0,1]X_{i} \in [0, 1],记X=i=1nXiX = \sum\limits_{i=1}^{n} X_{i},并记μ=E(X)\mu = E(X),则:

P(X(1ε)μ)exp(ε22μ)P(X(1+ε)μ)exp(ε22+εμ)\begin{align*} P(X \leq (1 - \varepsilon)\mu) &\leq \exp\bigl(-\frac{\varepsilon^{2}}{2}\mu\bigr) \\ P(X \geq (1 + \varepsilon)\mu) &\leq \exp\bigl(-\frac{\varepsilon^{2}}{2 + \varepsilon}\mu\bigr) \end{align*}

收敛性的差异

ΩU(0,1)\Omega \sim U(0, 1),则考虑如下随机变量列:

Y0(ω)=ω+1[0,1](ω)Y1(ω)=ω+1[0,12](ω)Y2(ω)=ω+1[12,1](ω)Y3(ω)=ω+1[0,13](ω)Y4(ω)=ω+1[13,23](ω)Y5(ω)=ω+1[23,1](ω)\begin{align*} Y_{0}(\omega) &= \omega + \mathrm{1}_{[0, 1]}(\omega) \\ Y_{1}(\omega) &= \omega + \mathrm{1}_{[0, \frac{1}{2}]}(\omega) \\ Y_{2}(\omega) &= \omega + \mathrm{1}_{[\frac{1}{2}, 1]}(\omega) \\ Y_{3}(\omega) &= \omega + \mathrm{1}_{[0, \frac{1}{3}]}(\omega) \\ Y_{4}(\omega) &= \omega + \mathrm{1}_{[\frac{1}{3}, \frac{2}{3}]}(\omega) \\ Y_{5}(\omega) &= \omega + \mathrm{1}_{[\frac{2}{3}, 1]}(\omega) \\ \dots \end{align*}

Y(ω)=ωY(\omega) = \omega,则Yn(ω)Y_{n}(\omega)依概率收敛至Y(ω)Y(\omega),但是不以概率11收敛

中心极限定理连续性修正

由于常规的中心极限定理是:

Xμσ/nN(0,1)\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\rightarrow N(0, 1)

因此一些离散分布使用该定理之后反而会失去其单点的概率(连续分布单点恒为0),因此进行连续性修正,以二项分布XB(n,p)X \sim B(n, p)为例:

P(t1Xt2)Φ(y2)Φ(y1)P\bigl(t_{1}\leq X \leq t_{2}\bigr) \approx \Phi(y_{2}) - \Phi(y_{1})

其中:

Φ(yi)=tinp+(12)inp(1p)\Phi(y_{i}) = \frac{t_{i} - np + (\frac{1}{2})^{i}}{\sqrt{np(1-p)}}

极大似然估计可能有偏

均匀分布U(0,θ)U(0, \theta),样本值为{Xi}i=1n\{X_{i}\}_{i=1}^{n},则其MLE为θ=max{Xi}\theta^{*} = \max\{X_{i}\},下面我们证明这个不是无偏估计:

Y=max{Xi}Y = \max\{X_{i}\}的CDF为:

FY(y)=P(max{Xi}y)=(FX(y))n=(yθ)n\begin{align*} F_{Y}(y) &= P(\max\{X_{i}\} \leq y) \\ &= (F_{X}(y))^{n} \\ &= \bigl(\frac{y}{\theta}\bigr)^{n} \end{align*}

因此其PDF为f(y)=FY(y)=nθ(yθ)n1f(y) = F'_{Y}(y) = \frac{n}{\theta}(\frac{y}{\theta})^{n-1}

因此我们有:

E(θ)=0θyf(y)dy=nθn0θyndy=nn+1θE(\theta^{*}) = \int_{0}^{\theta}yf(y)dy = \frac{n}{\theta^{n}}\int_{0}^{\theta}y^{n}dy = \frac{n}{n+1}\theta

也即θ\theta^{*}并不是θ\theta的无偏估计

无偏MSE不一定优于有偏

XN(μ,σ2)X \sim N(\mu, \sigma^{2}),分别用二阶矩m2m_{2}和样本方差S2S^{2}来估计σ2\sigma^{2},有:

E(m2)=n1nσ2E(S2)=σ2\begin{align*} E(m_{2}) &= \frac{n-1}{n}\sigma^{2} \\ E(S^{2}) &= \sigma^{2} \\ \end{align*}

但是:

E((m2σ2)2)<E((S2σ2)2)E((m_{2} - \sigma^{2})^{2}) < E((S^{2} - \sigma^{2})^{2})

区间估计

  1. 标准正态

    XN(μ,σ2)X \sim N(\mu, \sigma^{2}),其中μ\mu未知而σ2\sigma^{2}已知,则:

    Xμσ/nN(0,1)\frac{\overline{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)

    因此(1α)(1 - \alpha)置信区间为:

    (Xzα/2σn,X+zα/2σn)(\overline{X} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}})

    其中zα2z_{\frac{\alpha}{2}}为标准正态分布上α2\frac{\alpha}{2}分位数

  2. tt分布

    在上述例子中,如果σ2\sigma^{2}未知,则应利用tt分布来进行区间估计,具体来说:

    Xμσ/nN(0,1)(n1)S2σ2χ2(n1)\begin{align*} \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} &\sim N(0, 1) \\ \frac{(n-1)S^{2}}{\sigma^{2}} &\sim \chi^{2}(n-1) \end{align*}

    因此有:

    XμS/nt(n1)\frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n-1)

    (1α)(1-\alpha)置信区间为:

    (Xtα/2(n1)Sn,X+tα/2(1α)Sn)(\overline{X} - t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}}, \overline{X} + t_{\alpha/2}(1-\alpha)\frac{S}{\sqrt{n}})

    同样估计均值差也可以使用tt分布:XN(μ1,σ12)X\sim N(\mu_{1}, \sigma_{1}^{2})YN(μ2,σ22)Y\sim N(\mu_{2}, \sigma_{2}^{2}),则μ1μ2\mu_{1} - \mu_{2}的估计方法为:

    (XY)(μ1μ2)(1n+1m)(n1)S12+(m1)S22n+m2t(n+m2)\frac{(\overline{X} - \overline{Y}) - (\mu_{1} - \mu_{2})}{\sqrt{(\frac{1}{n} + \frac{1}{m})\frac{(n-1)S_{1}^{2} + (m-1)S_{2}^{2}}{n+m-2}}} \sim t(n + m - 2)

  3. F分布

    常用在估计两正态总体方差之比上,所依赖的分布为:

    S12/σ12S22/σ22F(n1,m1)\frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}} \sim F(n - 1, m - 1)

  4. 渐进估计

    利用中心极限定理得到标准正态分布利用S2S^{2}m2m_{2}等方式来估计σ2\sigma^{2}

  5. 极大似然与Fisher

    θθ1nI(θ)N(0,1)\frac{\theta^{*} - \theta}{\sqrt{\frac{1}{nI(\theta^{*})}}} \rightarrow N(0, 1)

    其中I(θ)I(\theta)为Fisher信息量,具体来说:

    I(θ)=E((logfθ)2)I(\theta) = E\biggl(\bigl(\frac{\partial\,\log\,f}{\partial \theta}\bigr)^{2}\biggr)