概率论与数理统计

同济大学数学系

内容提要

  • 随机事件与概率、随机变量及其分布、多维随机变量及其分布、随机变量的数字特征、大数定律及中心极限定理、统计量和抽样分布、参数估计和假设检验.

第一章 随机事件与概率

  • 正确计数对概率求解十分重要,需要回忆和计数相关的排列组合的基础知识.
  • 组合数的计算公式: 排列数的计算公式:

第一节 随机事件及其运算

  • 随机试验有以下三个特点. (1)在相同的条件下试验可以重复进行; (2)每次试验的结果不止一种,但是试验之前必须明确试验的所有可能结果; (3)每次试验将会出现什么样的结果是事先无法预知的.
  • 随机试验的一切可能结果组成的集合称为样本空间,记为Ω={ω},其中ω表示试验的每一个可能结果,又称为样本点,即样本空间为全体样本点的集合.
  • 一支正常交易的A股股票每天涨跌幅的样本空间为Ω5={x:-10%≤x%≤10%}.
  • 样本空间中的元素可以是数,也可以不是数.从样本空间中含有样本点的个数来看,可以是有限个也可以是无限个;可以是可列个也可以是不可列个.
  • 每一次试验都只能出现Ω中的某一个结果ω
  • 仅含一个样本点的随机事件称为基本事件.
  • 四、随机事件间的关系与运算
  • (3)如果A与B没有相同的样本点,则称事件A与B互不相容(或称为互斥),如图1.2所示.从概率论的角度来说:事件A与事件B不可能同时发生.

第二节 概率的定义及其性质

  • 概率的统计定义为:随着试验次数n的增大,频率值逐步“稳定”到一个实数,这个实数称为事件A发生的概率.
  • 性质4 若事件则P(B-A)=P(B)-P(A).
  • 人们在长期的实践中总结得到“概率很小的事件在一次试验中实际上几乎是不发生的”(称之为实际推断原理)
  • 性质6(加法公式) 设A,B为任意事件,则P(A∪B)=P(A)+P(B)-P(AB).
  • P(A∪B∪C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC).

第三节 等可能概型

  • 研究这一类随机现象的数学模型我们称之为古典概型.
  • 在古典概型中,关键在于计算样本空间及事件A中样本点的个数,所以在计算中经常用到排列组合的计算工具.
  • 例2(抽样模型)
  • 其中,m(·)在一维情形下表示长度,在二维情形下表示面积,在三维情形下表示体积.求几何概型的关键在于用图形正确地描述样本空间Ω和所求事件A,然后计算出相关图形的度量(一般为长度、面积或体积).
  • 概率为零的事件未必就是不可能事件,同理,概率为1的事件未必就是必然事件.
  • 例6(蒲丰投针问题)
  • 随着计算机的发展,可以实现对大量随机试验的计算机模拟,此方法即为在自然科学、社会科学各领域具有广泛应用的蒙特卡罗方法(Monte Carlo Method).
  • 蒙特卡罗方法(Monte Carlo Method)

第四节 条件概率与事件的相互独立性

  • 一般地,条件概率是指在某随机事件A发生的条件下,另一随机事件B发生的概率,记为P(B|A),它与P(B)是不同的两类概率.
  • 可以以P(AB)与P(A)之比作为条件概率P(B|A)的一般性定义.
  • 定义1 设E是随机试验,Ω是样本空间,A,B是随机试验E上的两个随机事件且P(A)>0,称[插图]为在事件A发生的条件下事件B发生的概率,称为条件概率,记为P(B|A).
  • 使用公式计算时必须在同一条件下进行.
  • 定理1(概率的乘法公式) 设A,B为随机试验E上的两个事件,且P(A)>0,则有P(AB)=P(A)P(B|A).同理,若P(B)>0,有P(AB)=P(B)P(A|B).
  • P(AB)=P(A)P(B|A)=P(A)P(B)
  • 定义2 设A,B为试验E的两个事件,如果满足等式P(AB)=P(A)P(B),则称事件A,B相互独立,简称A,B独立.
  • 事件A与B相互独立,则A的发生不会影响B发生的概率,那么A的发生也不会影响B不发生的概率,A的不发生也不会影响B发生的概率,A的不发生也不会影响B不发生的概率.

第五节 全概率公式与贝叶斯公式

  • 则称事件组A1,A2,…,An为样本空间的一个完备事件组,完备事件组完成了对样本空间的一个分割.
  • 定理2(贝叶斯公式) 设A1,A2,…,An为样本空间Ω的一个完备事件组,P(Ai)>0(i=1,2,…,n),B为满足条件P(B)>0的任一事件,则[插图]
  • 贝叶斯公式,则是从已知“结果”B发生的条件下分析是由各个可能“原因”引起的条件概率P(A|B)和[插图]所以也有人把贝叶斯公式看成是用来解决“已知结果,分析原因”的问题.这里的P(A|B)和[插图]又称为“后验概率”.

拓展阅读

  • “求概率这个问题的逆概率”是指已知事件的概率为p,可计算某种结果出现的概率问题;反之,给定了观察结果,则可对概率p作出试验后的推断.即“正概率”是由原因推结果,“逆概率”是由结果推原因.
  • 经典统计学只使用样本数据信息,而贝叶斯分析则是把先验信息与样本数据结合起来进行推断

第二章 随机变量及其分布

  • 为了能进行定量的数学处理,必须要把随机试验的结果数量化.

第一节 随机变量及其分布

  • 在随机试验E中,Ω是相应的样本空间,如果对Ω中的每一个样本点ω,有唯一一个实数X(ω)与它对应,那么就把这个定义域为Ω的单值实值函数X=X(ω)称为(一维)随机变量.
  • 设X是一个随机变量,对于任意实数x,称函数F(x)=P(X≤x),-∞
  • 任一分布函数F(x)有如下性质:(1)对于任意实数x,有0≤F(x)≤1,[插图](2)F(x)单调不减,即当x1
  • 定义3 若一维离散型随机变量X的取值为x1,x2,…,xn,…,称相应的概率P(X=xi)=pi,i=1,2,…为离散型随机变量X的分布律(或分布列、概率函数).
  • 已知一个离散型随机变量的分布律,就可以求得其分布函数
  • 这个区间里有无穷不可列个实数,因此当我们描述连续型随机变量时,用来描述离散型随机变量的分布律就没法再使用了,而要改用概率密度函数来表示.
  • 需注意的是,这个性质对离散型随机变量是不成立的,恰恰相反,离散型随机变量计算的就是“点点概率”.

第二节 常用的离散型随机变量

  • 随机变量X服从参数为n,p的二项分布,记为X~B(n,p)
  • 随机变量X服从参数为λ的泊松分布,记为X~P(λ)
  • 定理(泊松定理) 在n重伯努利试验中,记A事件在一次试验中发生的概率为pn,如果当n→+∞时,有npn→λ(>0),则[插图]
  • 称X服从参数为N、M和n的超几何分布,记为X~H(N,M,n),其中N、M和n均为正整数.
  • 在伯努利试验中,记每次试验中A事件发生的概率P(A)=p(0
  • 几何分布具有无记忆性的性质,即这个条件概率值只与n有关,与m无关.

第三节 常用的连续型随机变量

  • 均匀分布的随机变量X,在其取值范围(a,b)中的任何子区间取值的概率仅与该区间长度d有关而与区间的位置c无关.
  • 设X为随机变量,概率密度函数(见图2.5(a))为[插图]则称随机变量X服从参数为λ的指数分布,记为X~E(λ).
  • 服从指数分布的随机变量只能取非负实数,它常被用作各种“寿命”分布,如电子元件的寿命、随机服务系统中的服务时间等都可以假定服从指数分布.
  • 即该条件概率值只与持续时间长度t有关,与起点s无关.
  • 设X为随机变量,概率密度函数为[插图]则称随机变量X服从参数为μ(-∞<μ<+∞)和σ2(σ>0)的正态分布,记为X~N(μ,σ2).若X~N(μ,σ2),则相应的分布函数为[插图]
  • 定理 设随机变量X~N(μ,σ2),则
  • 定理 设随机变量X~N(μ,σ2),则[插图]
  • 一般地,当X~N(0,1)时,满足概率表达式P(X≤uα)=α的uα称为标准正态分布的α分位数,

第四节 随机变量函数的分布

  • 与g(xi)取相同值对应的那些概率应合并相加.
  • 定理1 设连续型随机变量X的密度函数为fX(x),Y=g(X)是连续型随机变量,若y=g(x)为严格单调函数,x=g-1(y)为相应的反函数,且为可导函数,则Y=g(X)的密度函数为fY(y)=fX(g-1(y))·|[g-1(y)]′|.
  • 定理2 设X~N(μ,σ2),则当k≠0时,Y=kX+b~N(kμ+b,k2σ2),特别地,[插图]
  • 这个定理说明服从正态分布的随机变量线性函数仍然服从正态分布

拓展阅读

  • 六西格玛(6σ)法则

第三章 二维随机变量及其分布

  • 在概率中表示密度函数为f(x,y)的随机变量(X,Y)在D区域的概率,即P((X,Y)∈D).

第一节 二维随机变量及其联合分布

  • 研究多维随机变量是要揭示各变量之间的相互联系和相互影响
  • 定义1 设有随机试验E,其样本空间为Ω.若对Ω中的每一个样本点ω都有一对有序实数(X(ω),Y(ω))与其对应.则称(X,Y)为二维随机变量或二维随机向量.称(X,Y)的取值范围为它的值域,记为Ω(X,Y).
  • 定义2 设有随机试验E,其样本空间为Ω.若对Ω中的每一个样本点ω都有一组有序实数列(X1(ω),X2(ω),…,Xn(ω))与其对应.则称(X1,X2,…,Xn)为n维随机变量或n维随机向量.称(X1,X2,…,Xn)的取值范围为它的值域,记为[插图]
  • 设(X,Y)为二维随机变量,对任意的(x,y)∈R2,称F(x,y)=P(X≤x,Y≤y)为随机变量(X,Y)的(联合)分布函数.
  • 注意区别F(x,y)的定义域与(X,Y)的值域Ω(X,Y),它们是两个不同的概念.
  • (5)对任意的x1<x2,y1
  • 称P(X=xi,Y=yj)=pij,i,j=1,2,…为二维随机变量(X,Y)的联合分布律.其中,[插图]

第二节 常用的二维随机变量

  • 定义2 如果(X,Y)的联合密度函数为[插图]-∞0,|ρ|<1,则称(X,Y)服从二维正态分布,并记为(X,Y)~N(μ1,μ2,[插图]ρ)

第三节 边缘分布

  • FX(x)=P(X≤x)=P(X≤x,Y<+∞)=F(x,+∞),-∞
  • 定义2 设二维离散型随机变量(X,Y)的联合分布律为P(X=xi,Y=yj)=pij,i,j=1,2,…,称概率[插图]为随机变量X的边缘分布律,记为pi·,并有[插图]类似地,称概率P(Y=yj),j=1,2,…为随机变量Y的边缘分布律,记为p·j,并有[插图]
  • 定理1 如果[插图]则[插图]
  • 定义4 设(X,Y)为二维随机变量,若对任意x,y∈R,都有F(x,y)=FX(x)FY(y)成立,则称随机变量X与Y相互独立.其中F(x,y)为(X,Y)的联合分布函数,FX(x)和FY(y)分别为X和Y的边缘分布函数.
  • 定理3 若(X,Y)为二维连续型随机变量,那么,X与Y相互独立的充分必要条件是在f(x,y)、fX(x)及fY(y)的一切公共连续点上都有f(x,y)=fX(x)fY(y)成立.其中f(x,y)为(X,Y)的联合密度函数,fX(x)和fY(y)分别为X和Y的边缘密度函数.
  • 定理4 设那么,X与Y相互独立的充分必要条件是ρ=0.
  • 由定理1和定理4知,二维正态分布的参数μ、[插图]描述了X的分布,μ2、[插图]描述了Y的分布,ρ则反映了X与Y之间的关系.这说明联合密度函数可以唯一确定两个边缘密度函数,反之不一定成立.

第四节 条件分布

  • 定义1 设二维离散型随机变量(X,Y)的联合分布律为P(X=xi,Y=yj)=pij,i,j=1,2,….当yj∈ΩY时,在给定条件{Y=yj}下随机变量X的条件分布律为[插图]

第五节 二维随机变量函数的分布

  • 这两个公式称为卷积公式.在概率论中计算相互独立的随机变量之和分布的运算称为卷积运算.
  • 定理3 设[插图]且X与Y相互独立,则[插图]
  • 定理4 设连续型随机变量X与Y相互独立,且X的分布函数为FX(x),Y的分布函数为FY(y).则(1)随机变量U=max(X,Y)的分布函数为FU(u)=FX(u)FY(u);(2)随机变量V=min(X,Y)的分布函数为FV(v)=1-(1-FX(v))(1-FY(v)).

第四章 随机变量的数字特征

  • 随机变量的数字特征主要包括数学期望、方差和标准差

第一节 数学期望

  • 定义1 设X是离散型的随机变量,其分布律为P(X=xi)=pi,i=1,2,….如果级数[插图]绝对收敛,则称[插图]为离散型随机变量X的数学期望,也称作期望或均值.
  • 随机变量的数学期望只与其分布有关,一旦分布确定,期望也就唯一确定了.
  • 若随机变量的分布律或密度函数的图像是轴对称图形,即随机变量是对称分布的,且数学期望存在,那么,期望的大小就是对称轴所在位置的坐标值.
  • 定理1(随机变量一元函数的期望公式) (1)设X是离散型随机变量,其分布律为P(X=xi)=pi,i=1,2,….如果级数[插图]绝对收敛,则X的一元函数Y=g(X)的数学期望为[插图]
  • 定理1(随机变量一元函数的期望公式) (1)设X是离散型随机变量,其分布律为P(X=xi)=pi,i=1,2,….如果级数绝对收敛,则X的一元函数Y=g(X)的数学期望为
  • 设X与Y为相互独立的随机变量,且E(X)和E(Y)存在,则E(XY)=E(X)E(Y)
  • 性质(1)中需要补充说明的是,严格意义上的常数c不具有随机性,从而不是随机变量.但在概率论中,为了讨论方便,将常数c视为随机变量的一种极端情形,是一个特殊的随机变量,其分布律为P(X=c)=1,称它是服从参数为c的退化分布.
  • 特别要注意的是,当E(XY)=E(X)E(Y)时,X与Y不一定相互独立.

第二节 方差和标准差

  • 物理中,均值是质量分布的重心,方差则代表惯性矩.
  • 通常称X*为X的中心化随机变量,X*为X的标准化随机变量.

第三节 协方差和相关系数

  • cov(X,Y)=E(XY)-E(X)E(Y)
  • 所以说协方差反映了随机变量X和Y之间“协同”变化的关系.当Y就是X时,cov(X,Y)=cov(X,X)=D(X)协方差即为方差,这就是我们称其为协方差的原因.
  • 定义2 设(X,Y)是二维随机变量,如果cov(X,Y)存在,且D(X)>0,D(Y)>0,则称[插图]为随机变量X和Y的相关系数,也记作ρXY.
  • 设(X,Y)是二维随机变量.当ρXY=0时,称X与Y(线性)无关或(线性)不相关.
  • (3)若随机变量X与Y相互独立,则X与Y线性无关,即ρXY=0.但由ρXY=0不能推断X与Y相互独立.
  • 定理4 如果二维随机变量(X,Y)服从二维正态分布,那么,X与Y相互独立等价于X与Y不相关.
  • 相互独立是从整体也即分布的角度刻画随机变量之间的关系,它意味着两个随机变量无任何关系,而不相关仅仅是从数字特征角度刻画随机变量之间的关系,它意味着两个随机变量之间无线性关系,但不意味着两个随机变量之间无其他关系.因此,不相关不一定相互独立.

第五章 大数定律及中心极限定理

  • 超几何分布的极限是二项分布

第一节 大数定律

  • 定理1(切比雪夫不等式) 设随机变量X的数学期望E(X)及方差D(X)存在,则对于任意的ε>0,有[插图]
  • 这里引入切比雪夫不等式的另一个目的——它是证明大数定律的工具之一.
  • 定义 设X1,X2,…是一个随机变量序列.如果存在一个常数c,使得对任意一个ε>0,总有[插图]那么,称随机变量序列X1,X2,…依概率收敛于c,记作[插图]即对任意ε>0,P(|Xn-c|≥ε)→0,n→∞.
  • 定理2 如果[插图]且函数g(x,y)在(a,b)处连续,那么[插图]举个简单的例子,若[插图]那么就有[插图]
  • 定理3(切比雪夫大数定律) 设随机变量序列X1,X2,…两两不相关,若存在常数c,使得[插图]则对任意ε>0,有[插图]也可以表示为[插图]
  • 定理表明,若随机变量序列相互独立,方差存在且一致有上界,当n充分大时,随机序列的前n项的算术平均值和自身的期望充分接近几乎总是发生的.
  • 在大量相互独立重复试验中可以用某个事件A发生的频率来近似每次试验中事件A发生的概率
  • 三个大数定律条件是不同的.切比雪夫大数定律不要求随机变量序列同分布,甚至不要求相互独立,只要两两不相关、方差一致有界即可;辛钦大数定律和伯努利大数定律都要求随机变量序列相互独立且同分布,辛钦大数定律不要求方差存在,仅期望存在即可;伯努利大数定律的共同分布限定为两点分布.

第二节 中心极限定理

  • 定理1(列维-林德伯格中心极限定理) 设随机变量序列X1,X2,…相互独立同分布,若E(Xi)=μ,D(Xi)=σ2,且0<σ2<+∞,i=1,2,….则对任意实数x,有[插图]
  • 我们还有更为一般的结论,只要随机变量相互独立,每个随机变量对和的影响都是微小的,哪怕它们的分布类型不同,其和标准化后都有标准正态的极限分布.
  • 定理2(棣莫弗-拉普拉斯中心极限定理) 设随机变量序列X1,X2,…相互独立同分布,且Xi~B(1,p),i=1,2,….则对任意实数x,有[插图]

第一节 总体与样本

  • 在一个统计问题中,我们把研究对象的全体称为总体,构成总体的每个成员称为个体.在实际问题中,
  • 在这个例子中,我们假定总体的分布类型是已知的,但含有一个未知参数λ,我们需要通过确定λ的值,来最终确定总体的分布
  • 一旦给定的简单随机抽样方案实施后,样本就是一组数据,用小写的英文字母(x1,x2,…,xn)表示,也称之为样本观测值,事实上,样本观测值(x1,x2,…,xn)就是样本(X1,X2,…,Xn)的一组特定的观测值.

第二节 统计量

  • 人们常常把数据加工成若干个简单明了的数字特征,由数据加工后的数字特征就是统计量.
  • 样本(X1,X2,…,Xn)的函数为g(X1,X2,…,Xn),若g中不直接包含总体分布中的任何未知参数,则称g(X1,X2,…,Xn)为统计量.
  • 我们构造统计量的主要目的就是去估计总体分布中的未知参数
  • 样本均值、样本方差、样本矩和次序统计量

第三节 三大分布

  • χ2分布、t分布、F分布都是从正态总体中衍生出来的
  • 设X1,X2,…,Xn为相互独立的标准正态分布随机变量,称随机变量[插图]服从自由度为n的χ2分布,记为Y~χ2(n).
  • 当Y~χ2(n)时,E(Y)=n,D(Y)=2n.
  • 类似具有可加性的分布还有二项分布、泊松分布和正态分布.
  • 设随机变量X与Y相互独立,且X~N(0,1),Y~χ2(n),则称服从自由度为n的t 分布(又称为学生氏分布),记为T~t(n)
  • 设随机变量X与Y相互独立,X~χ2(m),Y~χ2(n),则称[插图]服从自由度为(m,n)的F分布,记为F~F(m,n),其中m称为第一自由度,n称为第二自由度.

第四节 正态总体的抽样分布

  • 定理3 设(X1,X2,…,Xm)为取自正态总体[插图]的一组样本,设(Y1,Y2,…,Yn)为取自正态总体[插图]的一组样本,且总体X与总体Y相互独立,记[插图]则有(1)[插图]即[插图](2)[插图](3)[插图](4)当[插图]时,[插图]

第一节 点估计

  • 借助于总体X的一个样本来估计总体未知参数值的问题称为参数的点估计问题.
  • 矩估计的思想就是替换思想:用样本原点矩替换总体原点矩.
  • 在p的所有备选取值假定下,比较样本发生概率的大小,使概率最大的p的取值即为p的极大似然估计
  • 求解极大似然估计量必须已知总体X的分布类型

第二节 点估计的优良性评判标准

  • 估计量的无偏性是指,由估计量得到的估计值相对于未知参数真值来说,取某些样本观测值时偏大,取另一些样本观测值时偏小.反复将这个估计量使用多次,就平均来说其偏差为0.如果估计量不具有无偏性,则无论使用多少次,其平均值也与真值有一定的距离,这个距离就是系统误差了.

第八章 假设检验

  • 假设检验则主要是看参数的值是否等于某个特定的值

第一节 检验的基本原理

  • 即不妨先认为某一假设(记为H0)是成立的,通过样本数据,结果得到一个与之相矛盾的结果,于是认为假设H0不成立,而接受与之对立的另外一个假设(记为H1).
  • 在样本量给定的条件下,第一类错误概率和第二类错误概率这两类概率一个减小必然导致另一个增大,也就是说不可能找到一个能使PⅠ,PⅡ都小的检验方案.
  • 仅限制犯第一类错误的概率不超过事先设定的值α(0<α<1通常很小),再尽量减小犯第二类错误的概率.称该拒绝域所代表的检验为显著性水平α的检验,称α为显著性水平.
  • 通常约定:p≤0.05称结果为显著;p≤0.01则称结果为高度显著.

第三节 拟合优度检验

  • 又称为分布的拟合检验,常用的方法有χ2拟合优度检验.