李一鸣
1160300625
2018 年 9 月 28 日
生成随机序列
生成随机序列
蒙特卡罗投点法:
在边长为
假定总共生成了
对于任一点
则其在圆内,计入
以频率估计概率,我们有:
实验结果:
在实验中取
生成均值为
设样本为
样本个数矩阵:
我们只需要作出
注意事项:
本来我们可以直接根据
-
均值递推公式
$$ \begin{cases} E_{n - 1} = \frac{1}{n - 1}(X_1 + X_2 + ... + X_{n-1}) \ \ E_{n} = \frac{1}{n}(X_1 + X_2 + ... + X_{n - 1} + X_{n}) \ \end{cases} $$
解得:
$$ \begin{aligned} E_n &= \frac{(n - 1)E_{n - 1} + X_n}{n} \ &= \frac{nE_{n - 1} - E_{n - 1} + X_n}{n} \ &= E_{n - 1} + \frac{X_n - E_{n - 1}}{n} \tag{ps.1} \end{aligned} $$
-
方差递推公式
$$ \begin{cases} D_{n - 1} = \frac{1}{n - 1}\sum_{i = 1}^{n - 1}(X_i - E_{n - 1})^2 \ \ D_{n} = \frac{1}{n}\sum_{i = 1}^{n}(X_i - E_{n})^2 \ \end{cases} $$
联立式 (ps.1),得:
$$ \begin{aligned} D_{n} &= \frac{1}{n}\sum_{i = 1}^n(X_i - E_{n - 1} - \frac{X_n - E_{n - 1}}{n})^2 \ &= \frac{1}{n}\sum_{i = 1}^n[(X_i - E_{n - 1})^2 + (\frac{X_n - E_{n - 1}}{n})^2 - 2(X_i - E_{n - 1})(\frac{X_n - E_{n - 1}}{n})] \ &= (\frac{X_n - E_{n - 1}}{n})^2 + \frac{1}{n}\sum_{i = 1}^n[(X_i - E_{n - 1})^2 - 2(X_i - E_{n - 1})(\frac{X_n - E_{n - 1}}{n})] \ &= (\frac{X_n - E_{n - 1}}{n})^2 + \frac{1}{n}[(X_n - E_{n - 1})^2 - 2(X_n - E_{n - 1})(\frac{X_n - E_{n - 1}}{n})] \ & \quad \quad \quad \quad \quad \quad \quad \quad + \frac{1}{n}\sum_{i = 1}^{n - 1}[(X_i - E_{n - 1})^2 - 2(X_i - E_{n - 1})(\frac{X_n - E_{n - 1}}{n})] \ &= \frac{n - 1}{n^2}(X_n - E_{n - 1})^2 + \frac{1}{n}\sum_{i = 1}^{n - 1}(X_i - E_{n - 1})^2 - 2(\frac{X_n - E_{n - 1}}{n})\sum_{i = 1}^{n - 1}(X_i - E_{n - 1}) \ &= \frac{n - 1}{n^2}(X_n - E_{n - 1})^2 + \frac{n - 1}{n}\frac{1}{n - 1}\sum_{i = 1}^{n - 1}(X_i - E_{n - 1})^2) \ &= \frac{n - 1}{n^2}(X_n - D_{n - 1})^2 + \frac{n - 1}{n}D_{n - 1} \tag{ps.2} \end{aligned} $$
实验结果:
在实验中取
敌军坦克分队到达我方阵地规律服从泊松分布,平均每分钟到达
泊松分布的期望值是
我们可以生成
实验结果:
取
每辆敌军坦克到达的时刻服从期望为
我们可以生成
实验结果:
取
考虑水果聚类问题,水果的属性
定义高斯混合分布:
该分布由
$$ \alpha i > 0, \sum{i = 1}^k \alpha_i = 1 \tag{12} $$
记样本
$$ \begin{aligned} y_{ji} &= \frac{\alpha _i p(x_j|\mu _i, \Sigma _i)}{p_M(x_j)} \ &= \frac{\alpha _i p(x_j|\mu _i, \Sigma i)}{\sum{l = 1}^k \alpha _l p(x_j|\mu _l, \Sigma_l)} \tag{13} \end{aligned} $$
为了得到混合分布的各个组成部分的分布参数,我们需要利用 EM 算法 (Expectation–maximization algorithm) 不断迭代来获取
E 步:
根据当前参数计算样本后验概率
M 步:
根据后验概率更新模型参数
$$ \begin{aligned} \alpha_i' &= \frac{\sum {j = 1}^N y{ji}}{N} \ \ \mathrm{\mathbf{\mu_i'}} &= \frac{\sum {j = 1}^N y{ji}x_j}{\sum {j = 1}^N y{ji}} \ \ \mathrm{\mathbf{\Sigma_i'}} &= \frac{\Sigma_{j = 1}^{N}y_{ji}(x_j - \mu_i')(x_j - \mu_i')^T}{\sum {j = 1}^{N}y{ji}} \tag{14} \end{aligned} $$
不断重复 E、M 两步直到收敛。
实验结果:
现有水果数据
其中 N = 30,$S_i$ 为二维列向量,包含密度、含糖率两个属性,我们随机初始化一组参数:
令迭代次数
详细计算过程参见 em-50.txt。